Upload
alvaro-terrazas-pelaez
View
298
Download
0
Embed Size (px)
DESCRIPTION
parte 1 de 3 clases de regresión logistica
Citation preview
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 1/19
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE MEDICINA HUMANA
Mg. Ysela Agüero P.
PROGRAMA DE SEGUNDA ESPECIALIDAD PROFESIONAL ENEPIDEMIOLOGÍA DE CAMPO - PREC
ANALISIS DE REGRESIÓNANALISIS DE REGRESIÓNLOGISTICA BINARIALOGISTICA BINARIA
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 2/19
Los métodos de regresión se han convertido en parte integrante de muchos
análisis de datos relacionados con la descripción de la relación causal entreuna variable respuesta (variable dependiente, efecto, etc.) y una o más
variables predictivas (variables regresoras, variables independientes,
covariables, factores, etc.). Particularmente, el análisis de regresión lineal se
utiliza para modelar la relación causal entre una variable respuesta continua y
un conjunto de variables explicativas continuas, las cuales se relacionanlinealmente con la respuesta. Pero a menudo ocurre que, la variable respuesta
(variable dependiente, efecto, etc.) no es continua sino más bien categórica y
toma sólo dos (binaria) o más (multinomial) posibles valores.
En estas clases se pretende introducir los conceptos relacionados con el
manejo de los modelos de regresión logística incondicional, es decir, modelos basados en observaciones independientes. Existen modificaciones del modelo
incondicional que nos permiten manejar datos dependientes, como ocurre para
los estudios caso-control pareados que también son tratados en la literatura
referida a la regresión logística.
ANALISIS DE REGRESION LOGISTICA
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 3/19
Antes de comenzar el estudio del modelo de regresión logística es importante
entender que el objetivo de un análisis usando los modelos de regresión, en
general, es el mismo que cuando se usa cualquier otra técnica de construcciónde modelos usada en estadística, esto es,
ANALISIS DE REGRESION LOGISTICA
Encontrar el mejor ajuste y el más parsimonioso, pero que aEncontrar el mejor ajuste y el más parsimonioso, pero que a
la vez, sea un modelo biológicamente razonable para explicar la vez, sea un modelo biológicamente razonable para explicar
la relación entre un efecto (variable respuesta) y un conjunto dela relación entre un efecto (variable respuesta) y un conjunto de
factores(variables explicativasfactores(variables explicativas ). ).
Recordemos que al construir modelos se tiene que seguir una serie de pasos:
•Identificación y formular el modelo ideal (teórico).
•Obtención de los datos para contrastarlos con el modelo
• Estimación de parámetros•Validación del modelo
•Uso del modelo (prediccion, estimación, clasificación, etc.)
Si el modelo no es válido volver a la etapa de identificación proponer un nuevo
posible modelo.
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 4/19
La elección del modelo adecuado en la etapa de identificación dependerá de
los objetivos de la investigación, de la experiencia del investigador en el
tema en cuestión, de la cantidad de posibles modelos que conozca, del tipo
de datos con los que cuenta, etc.
Por ejemplo, si la variable respuesta es binaria (dicotómica) un posible
modelo a elegirse en la etapa de identificación será el modelo logístico.
Cada una de las etapas en el análisis de datos tiene sus particularidades
dependiendo del modelo elegido en la etapa de identificación. Pero, el
análisis de regresión logística y el de regresión lineal tienen similitudes y
diferencias las cuales intentaremos ilustrar con el ejemplo siguiente.
ANALISIS DE REGRESION LOGISTICA
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 5/19
Ejemplo. Asociación entre la enfermedad cardiovascular y la edad
Se realiza un estudio con una muestra aleatoria de tamaño 100 de una población de individuos adultos. El objetivo es evaluar la asociación entre la
presencia de enfermedad coronaria (EC) y la edad. La tabla registra la
identificación (ID), edad, y enfermedad coronaria (EC = 1: enfermedad
presente, EC = 0 : no presenta evidencia de enfermedad).
ID EDAD EC1 20 0
2 23 0
3 24 0
:: :: ::
::: ::: :::
98 64 1
99 65 1
100 69 1
Datos
Edad
77777777777777
E n f e r m e d a d C o r o n a r i a
.77
.77
.7
.7
.7
.7
.77
-.7
Diagrama de dispersión
Edad vs EC
ANALISIS DE REGRESION LOGISTICA
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 6/19
El gráfico anterior no permite visualizar claramente la distribución de la
enfermedad cardiovascular en las distintas edades , por lo que se construyó una
tabla de contingencia entre las edades agrupadas y la presencia o ausencia de la
enfermedad. La última columna de la tabla contiene las prevalencias de ECV
Grupo deedad
Númerode
sujetos
Enfermedadcoronaria
Prevalenciade
enfermedadAusente Presente
20-29 10 9 1 0.1030-34 15 13 2 0.1335-39 12 9 3 0.2540-44 15 10 5 0.3345-49 13 7 6 0.4650-54 8 3 5 0.63
55-59 17 4 13 0.7660-69 10 2 8 0.80
Tabla. Enfermedad cardiovascular (ECV) y grupo de edad
ANALISIS DE REGRESION LOGISTICA
Ejemplo. Asociación entre la enfermedad cardiovascular y la edad
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 7/19
7
,00
,00
,00
,00
7
-0000 -7777 -0000 -7777 -7777 -7777 -7777 -7777
Grupo de edad
P r e v a l e n c i a
d e
E C
Observar que la relación
entre la prevalencia deEC y la edad no es lineal,
sino más bien presenta la
forma de una curva en
forma de “ S” (curva
sigmoidea).
Figura. Prevalencia de EC
y edad.
ANALISIS DE REGRESION LOGISTICA
Ejemplo. Asociación entre la enfermedad cardiovascular y la edad
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 8/19
ECV presente7
ECV ausente7
=
Y
Definamos la variable respuesta
como: La variable independiente es
continua
X : Edad
( )7 7
7 7/ ( )
7
X
X
e E Y X x x
e
β β
β β π
+
+= = =+
Consideremos un modelo logístico
Este modelo constituye un mayor acercamiento a la realidad biológica, pues,
tiene más sentido pensar que la influencia de un factor de riesgo sobre la
probabilidad de tener una enfermedad se asemeja más a una curva de tipo
sigmoidea que a una recta.
ANALISIS DE REGRESION LOGISTICA
Ejemplo. Asociación entre la enfermedad cardiovascular y la edad
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 9/19
Cuando una variable explicativa es numérica se puede incorporar en elmodelo tal cual.
Ejemplo :
Para introducir las variables explicativas : “Número de cigarros que fuma ”
y “nivel de colesterol en mg/dl” en un modelo de predicción deenfermedad coronaria, definimos :
Variables explicativas Numéricas
X1 : Número de cigarros que fuma;
X2 : Nivel de colesterol en mg/dl
ANALISIS DE REGRESION LOGISTICA
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 10/19
Variables explicativas categóricas
ANALISIS DE REGRESION LOGISTICA
Cuando una variable explicativa es categórica se transforma definiendo
variables artificiales.
Por ejemplo, en el modelo de predicción de enfermedad coronaria, se desea
introducir las variables explicativas :
X1 : Hábito de fumar
X2 : Nivel de colesterol
=fuma No7
Fuma7
7 X 7
Elevado7
Normal7 X
=
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 11/19
Cuando una variable explicativa es categórica con más de dos categorías se
transforma definiendo variables artificiales.
Si el número de categorías es L se fija una de ellas como referencia y se
define L-1 variables artificiales
Ejemplo : Masa corporal (peso/talla2
) medido con tres categorías (L=3).
7
Sobrepeso7
Normal7 X
=
Normal
Masa corporal= Sobrepeso
Obesidad
7
Obesidad7
Normal7 X
=
Se fijará como referencia la categoría “normal” y se construirán 2 variablesartificiales
ANALISIS DE REGRESION LOGISTICA
Variables explicativas categóricas politómicas
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 12/19
Modelo de regresión logísticaModelo de regresión logísticamúltiplemúltiple
El modelo supone que :
1. Las observaciones de la variable respuesta (Yi) : i=1,2,…,n) son
independientes entre si.
2. La distribución de la respuesta es Yi∼ B(πi) ; para i=1,2,...,n
(Bernoulli)
3. Las variables explicativas (X1, X2,…,XK ) son independientes entre si.
4. V(Yi) = πi(1- π i); i=1,2,...,n (Varianzas no son constantes.
7 77
7 77
...
7 7 ...( / ,.... ) ( ) 7
k k
k k
x x
k k x x
e E Y X x X x X
e
β β β
β β β π
+ + +
+ + += = = = +
ANALISIS DE REGRESION LOGISTICA
El modelo de regresión logística puede extenderse para k variables explicativas Xk
y se denomina modelo de regresión logística múltiple.
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 13/19
Siguiendo la lógica del modelo de regresión lineal, la relación entre el predictor
y la respuesta debe ser lineal, por lo que se necesita una transformación que
permita expresar el modelo como una relación lineal entre los dos miembros
de la igualdad.
Se propone una transformación denominada, “transformación logit” .
7 7 7
( )logit( ( )) ln ...
( )7
π π β β β
π
= = + + + −
k k
X X x x
X
ANALISIS DE REGRESION LOGISTICAModelo de regresión logísticaModelo de regresión logísticamúltiplemúltiple
Esta transformación consiste en dividir la proporción de éxitos, π(x), que puede
ser una prevalencia, entre uno menos la proporción de éxitos, 1- π(x) y
aplicarle el logaritmo a este cociente.
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 14/19
Se podrían utilizar métodos numéricos de optimización para calcular los
estimadores del vector de parámetros β por el método de máxima
verosimilitud).
Dado que el modelo de regresión logística es un miembro de la familia de
modelos lineales generalizados, la estimación de los parámetros se realizará
por el método de mínimos cuadrados , iterativamente reponderados.
El procedimiento más utilizado para realizar la estimación es el método
score de Fisher el cual se basa en la función score obtenida a partir de la
función de verosimilitud ( Nelder y Wedderburn (1972)).
Estimación de parámetrosANALISIS DE REGRESION LOGISTICA
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 15/19
Estimación de parámetrosANALISIS DE REGRESION LOGISTICA
Ejemplo. Asociación entre la enfermedad cardiovascular y la edad
El modelo ajustado es:
7 7
ˆ( ) ˆ ˆln . .77 7 7 77 7 7ˆ( )7
π β β
π
= + = − + −
x x ed a d
x
Aplicándole la transformación inversa
. . edad7777 7777
. . edad7777 7777ˆ( )
7π
− +
− +=+e
xe
Variables en la ecuación
,777 ,777 ,0000
- ,7777 ,777 ,777
edad
Constante
Paso
7a
B Sig. Exp(B)
Variable(s) introducida(s) en el paso : edad.7a.
Los coeficientes del modelo no
tienen una interpretación directa
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 16/19
Para facilitar la interpretación de los coeficientes del modelo consideremos unmodelo con una sola variable explicativa numérica:
7
ˆ( ) ˆ ˆˆln ( )ˆ( )7
π η β β π
= = + − i o
x x x
x
El valor ajustado para una edad x +1 valor de será :
7
ˆ( )7 ˆ ˆˆln ( ) ( )7ˆ( )7 7
π η β β
π
+= = + + − +
i i o
x x x
x
Ventaja (Odds)para x
Ventaja (Odds)para (x+1)
ANALISIS DE REGRESION LOGISTICAInterpretación de los coeficientes estimados
El valor estimado para una edad x será :
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 17/19
La diferencia de ventajas (odds)
Aplicando el antilogaritmo
7
ˆˆ ˆ( ) ( ) ln(Ventaja( ) ln(Ventaja( )7 7η η β + − = + − = x x x x
7
Ventaja( )7 ˆln Ventaja( ) β
+
= =
x
x
7ˆVentaja( ) ( )7 7
Ventaja( ) ( )
β + += = =
Estimado
x Odds xOR e
x Odds x
El OR se puede interpretar como el incremento en la “chance” de tener el
evento dado que un individuo tiene un valor de la variable x+1 comparado con
la chance de un individuo que tiene un valor x.
ANALISIS DE REGRESION LOGISTICA
Interpretación de los coeficientes estimados
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 18/19
Ejemplo
Aplicando el antilogaritmo
7
ˆˆ ˆ( ) ( ) ln(Ventaja( ) ln(Ventaja( )7 7η η β + − = + − = x x x x
7
Ventaja( )7 ˆln Ventaja( ) β
+
= =
x
x
7ˆVentaja( ) ( )7 7
Ventaja( ) ( )
β + += = =
Estimado
x Odds xOR e
x Odds x
El OR se puede interpretar como el incremento en la “chance” de tener el
evento dado que un individuo tiene un valor de la variable x+1 comparado con
la chance de un individuo que tiene un valor x.
ANALISIS DE REGRESION LOGISTICA
Interpretación de los coeficientes estimados
5/17/2018 Regresi n logistica I - slidepdf.com
http://slidepdf.com/reader/full/regresion-logistica-i 19/19
Ejemplo:Ejemplo:Asociación entre la enfermedadAsociación entre la enfermedad
cardiovascular y la edadcardiovascular y la edadLa ecuación ajustada es:
. .7777 7777
. .7777 7777ˆ( )
7π
− +
− +=+
E da d
E da d
e x
e
.7777Ventaja( ) ( )7 7.0000
Ventaja( ) ( )
+ += = = =
Estimado
x Odds xOR e
x Odds x
El OR estimado indica que una persona con (x+1) años deedad tiene 1.117 veces más “chance” (posibilidad o ventaja)de presentar enfermedad coronaria s comparado con otrapersona con edad x.
O, por cada año adicional en la edad de las personas , el
“riesgo” estimado de tener enfermedad coronaria es 1.117
ANALISIS DE REGRESION LOGISTICA
Interpretación de los coeficientes estimados
Calculamos la razón de ventajas