132
UNIVERSIDAD DE GRANADA Departamento de Estadística e Investigación Operativa FACULTAD DE CIENCIAS MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA COMPARACIÓN DE DOS MODELOS DE REGRESIÓN EN FIABILIDAD Antonio Jesús López Montoya 2011

Comparación de Dos Modelos de Regresión en Fiabilidad

Embed Size (px)

DESCRIPTION

Modelos de regresion lineal

Citation preview

Page 1: Comparación de Dos Modelos de Regresión en Fiabilidad

UNIVERSIDAD DE GRANADA

Departamento de Estadística e Investigación Operativa

FACULTAD DE CIENCIAS

MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA

COMPARACIÓN DE DOS MODELOS DE

REGRESIÓN EN FIABILIDAD

Antonio Jesús López Montoya

2011

Page 2: Comparación de Dos Modelos de Regresión en Fiabilidad

MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA:

COMPARACIÓN DE DOS MODELOS DE REGRESIÓN EN FIABILIDAD

Trabajo de Investigación realizado por Antonio J. López Montoya

Vº Bº

Dra. Dª Mª Luz Gámiz Pérez Dra. Dª Mª Dolores Martínez Miranda

Departamento de Estadística e Investigación Operativa

Facultad de Ciencias

Universidad de Granada

Octubre, 2011

Page 3: Comparación de Dos Modelos de Regresión en Fiabilidad

ii Índice general

Comparación de dos modelos de regresión en fiabilidad

Page 4: Comparación de Dos Modelos de Regresión en Fiabilidad

Índice general

Introducción general 1

1. Introducción al análisis de regresión mediante la función de riesgo 7

1.1. Una revisión de los modelos de regresión para datos de vida . . . . . . . . 7

2. Modelo de riesgos proporcionales de Cox (CPH) 11

2.1. Modelo de riesgos proporcionales de Cox (CPH) . . . . . . . . . . . . . . . 11

2.2. Modelo de riesgos proporcionales estratificado . . . . . . . . . . . . . . . . 15

2.3. Estudio de residuos en los modelos de regresión para datos de vida . . . . . 16

2.3.1. Residuos de Cox-Snell . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3.2. Residuos de martingala . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3.3. Residuos score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3.4. Residuos deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3.5. Residuos de Schoenfeld . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.4. Ajuste del modelo de CPH para nuestros datos . . . . . . . . . . . . . . . . 23

2.4.1. Interpretación de los coeficientes del modelo . . . . . . . . . . . . . 25

2.4.2. Verificación de los supuestos del modelo de CPH . . . . . . . . . . . 28

2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3. Modelo de tiempo de vida acelerada (AFT) 41

3.1. Modelo de tiempo de vida acelerada (AFT) . . . . . . . . . . . . . . . . . 41

3.2. Estimación del modelo AFT paramétrico . . . . . . . . . . . . . . . . . . . 44

3.3. Validación del modelo AFT paramétrico . . . . . . . . . . . . . . . . . . . 45

3.3.1. Mediante gráficos quantile-quantile plot (Q-Q plot) . . . . . . . . . 46

iii

Page 5: Comparación de Dos Modelos de Regresión en Fiabilidad

iv Índice general

3.3.2. Mediante el criterio de información de Akaike (AIC) . . . . . . . . . 47

3.3.3. Mediante el gráfico de los Residuos de Cox-Snell . . . . . . . . . . . 47

3.4. Ajuste del modelo AFT paramétrico para nuestros datos . . . . . . . . . . 49

3.4.1. Validación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.4.2. Elección e interpretación del modelo más apropiado . . . . . . . . . 66

3.5. Modelo semi-paramétrico AFT para datos censurados . . . . . . . . . . . . 67

3.5.1. Estimador de Buckley-James . . . . . . . . . . . . . . . . . . . . . . 67

3.5.2. Estimador de mínimos cuadrados para datos censurados . . . . . . 71

3.6. Ajuste del modelo semi-paramétrico AFT para nuestros datos . . . . . . . 75

3.6.1. Estimador de Buckley-James . . . . . . . . . . . . . . . . . . . . . . 75

3.6.2. Estimador de mínimos cuadrados para datos censurados . . . . . . 80

3.7. Comparación entre los modelos de CPH y AFT en análisis de supervivencia 86

3.8. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

Apéndice 90

A. Detalle del software utilizado 91

B. Códigos de las funciones utilizadas 95

C. Futuras líneas de investigación: Regresión Isotónica 115

C.1. Estimador de mínimos cuadrados ponderados de Stute . . . . . . . . . . . 115

Bibliografía 119

Comparación de dos modelos de regresión en fiabilidad

Page 6: Comparación de Dos Modelos de Regresión en Fiabilidad

Introducción general

Introducción del trabajo

Los sistemas de abastecimiento de agua presentan el problema del envejecimiento de

su infraestructura y del aumento en el costo de mantenimiento de los mismos. El enfoque

clásico reactivo utilizado por la mayoría de la empresas no es (obviamente) la mejor manera

de gestionar estos servicios públicos esenciales, desde el punto de vista de la calidad y de la

disponibilidad. Los enfoques proactivos requieren información y modelos para evaluar los

riesgos, predecir las mejores acciones a tomar y las mejoras de previsiones de abastecimiento

de agua de la red. La necesidad de los modelos proactivos es incluso mayor en los países

desarrollados, con fuertes restricciones económicas, que en los países avanzados.

Se han realizado numerosos estudios que han requerido un gran esfuerzo con el fin de

modelar, analizar y pronosticar la evolución de estas infraestructuras. Numerosos estudios

como los de Andreou (1987), Andreou et al. (1987a,b), Eisenbeis (1994), Gustafson &

Clancy (1999), entre otros han demostrado que el patrón de fracaso depende en gran parte

del historial de fallos de la tubería. De hecho, el número de fallos anteriores se convierte

con frecuencia en el primer factor de influencia en el pronóstico de supervivencia de las

tuberías.

En países como Alemania o Noruega se han realizado numerosos e importantes avan-

ces con las investigaciones de Herz (1996,1998) y Sagrov et al. (2001), respectivamente.

En Alemania el método KANEW fue propuesto por Herz (1996,1998), demostrando una

innovadora aproximación a través del uso de modelos de supervivencia de cohortes y de un

análisis de la infraestructura del stock existente. Debt et al. (1998), aplicaron el modelo

KANEW para un suministro de agua británico y cuatro alemanes.

1

Page 7: Comparación de Dos Modelos de Regresión en Fiabilidad

2 Introducción general

En Noruega, el método Aquarel (fiabilidad de redes de abastecimiento de agua) ha sido

propuesto por el grupo SINTEF, Trondheim. Sagrov et al (2001), presentaron el método,

basado en un análisis estadístico de frecuencias de fallo utilizando un proceso no homogéneo

de Poisson.

El modelo AssetMap (INSA, Lyon, Francia), presentado por Malandain (1999) y Ma-

landain et al. (1999), es uno de los modelos más importantes. Estos autores han analizado

la infraestructura de un suministro de agua en la ciudad de Lyon, basando su trabajo en

un análisis estadístico de las tasas de fallo utilizando modelos de regresión de Poisson.

Mailhot et al. (2000), presentaron una metodología formal para calcular estimaciones

paramétricas para varios modelos estadísticos, especialmente para bases de datos pequeñas

de tiempos de fallo. Esta metodología fue aplicada para Chicoutimi (Canada). Utilizando

las distribuciones exponencial y Weibull, se utilizaron cuatro modelos. De igual forma, los

datos de la instalación fueron significativos como factores influyentes.

Igualmente, Christodoulou & Deligianni (2010), probaron que entre los componentes

más importantes de las estrategias de gestión sostenible de las redes de distribución de

agua es la capacidad de integrar el análisis de riesgos y gestión de activos de los sistemas

de apoyo de decisiones. Para lograr esto, Christodoulou & Deligianni (2010), utilizaron un

neuroborroso marco de decisión. Otra técnica encontrada en la literatura es en los trabajos

de Park et al. (2008), que utilizaron log-linear ROCOF y el proceso de ley de potencia con

el modelo de la razón de fallo y estimar el tiempo de reemplazo económicamente óptimo

de las tuberías individuales.

Recientemente, Debón et al. (2010), compararon el riesgo asociado para diferentes mo-

delos estadísticos de supervivencia utilizando las curvas ROC, utilizando una base de datos

similar a la de este trabajo.

El contenido de este trabajo viene estructurado de la siguiente forma: A continuación

hemos realizado una breve introducción y descripción de los datos disponibles para la reali-

zación de nuestro trabajo. En el Capítulo 1, vamos a realizar una rápida visión del análisis

de regresión mediante la función de riesgo. En el Capítulo 2, vamos a definir, justificar y

ajustar el modelo de riesgos proporcionales de Cox (CPH) para nuestra base de datos. En

el Capítulo 3, definiremos y realizaremos el ajuste con el modelo de tiempo de vida acelera-

Comparación de dos modelos de regresión en fiabilidad

Page 8: Comparación de Dos Modelos de Regresión en Fiabilidad

Introducción general 3

da (AFT) paramétrico, para tres de las distribuciones más importantes en el campo de la

fiabilidad y la supervivencia, seguidamente veremos un par de métodos de estimación semi-

paramétricos para el (AFT) como son el método de Buckley-James y el método de mínimos

cuadrados para datos censurados. Finalmente en los Apéndices podremos ver algunos de

los detalles más relevantes de este trabajo, como son los packages específicos utilizados en

este trabajo, también podemos ver los algoritmos de nuestro trabajo en lenguaje R, así

como las futuras líneas de investigación derivadas de este trabajo.

Descripción de los datos

En el desarrollo de nuestro trabajo de investigación, hemos tenido acceso a unos datos

reales de una empresa de suministros de agua de una ciudad española de tamaño medio.

La empresa de suministros de agua nos ha proporcionado acceso a una base de datos que

contiene información sobre los tramos de tubería que conforman la red. La base de datos

contiene 655 entradas correspondientes a cada una de las filas. Entre otras covariables, las

entradas contienen su identificación del tramo, y las covariables como son el tiempo de vida

de la tubería según el diámetro de la tubería, la longitud del tramo recto de tubería, el

material de la tubería que son dos, uralita y fundición dúctil, la presión, el tráfico rodado y

una covariable que depende exclusivamente del momento de instalación de la tubería, a la

cual llamaremos x80, que será una covariable de tipo dummy que nos marcará el valor de 1 si

la tubería fue instalada después de 1980 y 0 en otro caso. Mediante la longitud y el diámetro

(dimensiones físicas) creamos la nueva covariable llamada volumen, que es el volumen del

tramo de la tubería que debemos estudiar según nos exigen los recientes avances en el campo

de la ingeniería. La mayoría de las covariables anteriores se nos presentan en unidades del

sistema internacional y las que no lo estén serán transformadas al mismo. Tenemos una

tasa de censura alta, casi del 51 %. Por otra parte, no se ha tenido consideración del hecho

de que una sección de tubería pueda fallar más de una vez porque la estructura de la

base de datos no está preparada para considerar esto. Algunos errores menores han sido

corregidos antes de utilizar la base de datos, con frecuencia esto significa la pérdida de

las correspondientes entradas de fallo. Uno de los mayores problemas que tiene la base

Comparación de dos modelos de regresión en fiabilidad

Page 9: Comparación de Dos Modelos de Regresión en Fiabilidad

4 Introducción general

de datos es la falta de fiabilidad de los datos en las secciones más antiguas. Debido a la

falta de fiabilidad de los datos más antiguos, sólo se han considerado las tuberías que han

sido instaladas después de 1940. De acuerdo con la base de datos, se han empleado dos

tipos de material diferentes como se dijo antes, la fundición dúctil y la uralita. La base

de datos también recoge las condiciones del tráfico del área de instalación de las tuberías,

considerando tres tipos de tráfico: de acera, tránsito normal y tránsito pesado.

Necesitamos una condición más en la censura para poder aplicar los modelos, especial-

mente que la censura sea independiente y no informativa, que asuma que la verosimilitud

para observaciones censuradas no dependan de β cono se vio en los estudios de Fleming et

al. (2002).

Por otra parte, dado que sólo tenemos el año en el cual se produce el fallo, el tiempo

viene calculado en número de años, y por lo tanto, los fallos iguales a 0 representan un

problema cuando al operarlos tengamos que aplicar el logaritmo, por lo que resolveremos

ese problema sustituyendo por 1/365, en el supuesto de que las tuberías hayan durado por

lo menos un día.

Para que el lector pueda hacerse una idea de nuestra base de datos, seguidamente se

muestra, una visión reducida de la misma

> datos<-as.data.frame(ejm1.dat)

> datos

tiempo estado longitud diametro material presion trafico volumen x80

1 39 0 110.17946 60 Ur 39.56 1 0.0311525084 0

2 34 1 39.66266 50 Ur 39.92 1 0.0077877451 0

3 3 1 40.49931 300 FD 23.91 2 0.2862727532 1

4 28 1 150.00080 60 Ur 34.23 1 0.0424117270 0

5 34 0 406.48347 50 FD 29.99 2 0.0798128427 0

6 29 1 126.58286 60 Ur 55.70 2 0.0357904605 0

7 14 1 175.34133 100 FD 69.88 2 0.1377127585 1

8 38 1 491.01819 50 Ur 21.32 1 0.0964111962 0

9 16 0 541.82355 100 FD 28.55 2 0.4255472211 1

10 29 1 96.89842 80 Ur 19.84 1 0.0487064583 0

Comparación de dos modelos de regresión en fiabilidad

Page 10: Comparación de Dos Modelos de Regresión en Fiabilidad

Introducción general 5

11 19 1 400.15783 100 FD 89.18 2 0.3142832248 1

12 2 1 31.00838 50 Ur 72.33 1 0.0060884812 1

13 1 1 122.11244 100 FD 55.95 2 0.0959068861 1

14 4 0 161.92403 100 Ur 52.10 2 0.1271748358 1

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

654 28 1 383.45194 60 Ur 32.56 1 0.1084184818 0

655 20 0 388.49797 150 FD 38.64 2 0.6865325823 1

Comparación de dos modelos de regresión en fiabilidad

Page 11: Comparación de Dos Modelos de Regresión en Fiabilidad

6 Introducción general

Comparación de dos modelos de regresión en fiabilidad

Page 12: Comparación de Dos Modelos de Regresión en Fiabilidad

Capítulo 1

Introducción al análisis de regresiónmediante la función de riesgo

1.1. Una revisión de los modelos de regresión para datosde vida

La descripción física de los procesos de deterioro de un sistema puede requerir la con-

sideración de varios factores (endógenos y exógenos) que son comúnmente referidos como

variables o covariables explicativas. La inclusión de este tipo de información en el modelo

de deterioro puede ser tratado de varias formas por lo que, proponemos estudiar los dife-

rentes modelos de regresión para los datos de tiempos de vida. Hay una amplia literatura

que trata los modelos semi-paramétricos que se refieren a la relación entre covariables y

tiempos de vida (ver, por ejemplo, los libros de Andersen et al. (1993), Klein & Moesch-

berger (1997), Kleinbaum & Klein (2005), Martinussen & Scheike (2006) o Therneau &

Grambsch (2000)), y el interesante y último libro de Gámiz et al., (2011).

En este capítulo, se ha adoptado una estrategia común: la dependencia de la información

auxiliar se gestiona a través de la función de riesgo como enWang (2009). En otras palabras,

el riesgo instantáneo de fallo de un dispositivo en particular será formulado en términos de

las características que describen al sujeto. En consecuencia, definimos la función de riesgo

condicionada mediante la siguiente definición.

Definición 1: (Función de riesgo condicionada) Sea T una variable aleatoria que indica

el tiempo de vida de un dispositivo o sistema. Sea X = (X1, X2, . . . , Xp)T un vector de p

7

Page 13: Comparación de Dos Modelos de Regresión en Fiabilidad

8 Introducción al análisis de regresión mediante la función de riesgo

covariables con función de densidad φX, la función de riesgo condicionada de T dado X

viene definida de la forma:

λ(t;x) = lım∆→0

P [t < T ≤ t + ∆ | T > t, X = x]

∆. (1.1)

Dada una t > 0 y dada x, la función de riesgo puede ser escrita como la razón de la

función de densidad condicionada f(t;x) entre la función de supervivencia condicionada

S(t;x) = 1− F (t;x), esto es

λ(t;x) =f(t;x)

S(t;x), para S(t;x) > 0.

Todos los métodos incluidos en este trabajo tienen en cuenta la censura, que implica

una drástica limitación en los métodos tradicionales aplicados en problemas estadísticos

estándar. La presencia de censura a la derecha es probablemente la característica más

común en los conjuntos de datos en fiabilidad y supervivencia, e implica la terminación

de la observación del sistema de vida debido a otras causas como el fallo natural al que

el sistema esta sujeto. Vamos a formalizar las condiciones bajo las cuales se establecen los

métodos presentados.

Hipótesis 1: (Modelo de censura aleatoria a la derecha (RCM)) Consideramos que

tenemos una muestra formada por n observaciones del tipo {(Y1, δ1,X1), (Y2, δ2, X2), . . . ,

(Yn, δn,Xn)}, con Yi = mın{Ti, Ci} para cada i = 1, 2, . . . , n, donde

T1, T2, . . . , Tn son realizaciones independientes de una variable aleatoria tiempo de

vida T ;

C1, C2, . . . , Cn son realizaciones independientes de una variable aleatoria de censura

C;

δ1, δ2, . . . , δn son observaciones de la variable aleatoria δ = I[Y = T ] donde Y =

mın{T,C}. Esta variable se denomina normalmente como indicador de censura.

X1,X2, . . . ,Xn, son observaciones de un vector aleatorio de covariables X;

Para un valor del vector de covariables específico x, tenemos que T y C son condi-

cionalmente independientes dado X = x.

Comparación de dos modelos de regresión en fiabilidad

Page 14: Comparación de Dos Modelos de Regresión en Fiabilidad

Introducción al análisis de regresión mediante la función de riesgo 9

La censura a la derecha sucede después de que un sujeto haya entrado en el estudio, y

se encuentre a la derecha del último tiempo de supervivencia conocido. De este modo, el

tiempo de supervivencia con censura a la derecha es menor que el real, ya que desconocemos

el tiempo de supervivencia. Un ejemplo de censura a la derecha es habitual en estudios

médicos en los sujetos que están todavía vivos al final del estudio o se perdieron durante el

seguimiento sólo tienen tiempo de seguimiento que son denominados tiempos de censura.

Sólo los sujetos que han muerto tienen tiempo de supervivencia real.

La censura aleatoria a la derecha es un caso particular de lo que se llama hipótesis de

censura independiente, que quiere decir que, condicionada a las covariables, los elementos

censurados son representativos de los que están aún en situación de riesgo en ese instante.

En otras palabras, las tasas de fracaso de los individuos en riesgo son las mismas que si no

hubiera sido censurado, y por lo tanto, condicionadas a las covariables, los elementos no

están siendo censurados por un mayor o menor riesgo de fallo. Para discutir este asunto

con más detalle, ver Kalbfleisch & Prentice (2002), pgs.12-13.

Bajo el supuesto de RCM, si denotamos por F (·;x), G(·;x) y H(·;x) la función de dis-

tribución condicionada de T, C y Y , respectivamente, dado X = x, tenemos que H(·;x) =

1− (1− F (·;x))(1−G(·;x)).

Suponemos también que la censura no informativa está implícita en nuestro modelo.

Con esto, queremos decir que la función de distribución del tiempo de censura no contiene

ninguna información sobre la función de tiempo de vida desconocida. Bajo una aproxi-

mación paramétrica, esto quiere decir que la distribución de censura no implica ningún

parámetro desconocido del modelo. En consecuencia, la parte de la función de verosimili-

tud que implica probabilidades calculadas en términos de la función de distribución G(·;x)

es ignorada en el procedimiento de estimación.

En un esquema muestral con truncamiento, sólo aquellos individuos que verifican cierta

condición definida de antemano son observados por el investigador.

En estudios de supervivencia, el tipo más común de truncamiento, es el truncamien-

to por la izquierda que ocurre cuando los sujetos comienzan a ser observados a edades

aleatorias, esto es, el origen del tiempo de vida precede al origen del estudio. En tal caso,

aquellos sujetos en los que el fallo tiene lugar antes del inicio del estudio serán ignorados

Comparación de dos modelos de regresión en fiabilidad

Page 15: Comparación de Dos Modelos de Regresión en Fiabilidad

10 Introducción al análisis de regresión mediante la función de riesgo

por el investigador.

El tipo de truncamiento a la izquierda más habitual ocurre cuando los sujetos entran a

estudio a edades aleatorias (no necesariamente cuando se inicia el proceso para la ocurrencia

del suceso de interés) y son seguidos a partir de este tiempo de entrada con retraso hasta

que el suceso ocurre o hasta que el sujeto es censurado a la derecha. En este caso, todos

los sujetos que experimentan el suceso de interés antes de la entrada en estudio no serán

conocidos por el investigador, para el truncamiento a la izquierda, estos individuos no son

considerados en el estudio.

Posiblemente, el modelo más estudiado de todos los modelos semi-paramétricos para la

función de riesgo condicionada es el Modelo de Riesgos Proporcionales de Cox (CPH), ver

Cox (1972), que supone proporcionalidad en las funciones de riesgo de dos elementos defi-

nidos mediante diferentes grupos de covariables. Esta hipótesis puede, en muchos casos, ser

muy restrictiva. Por lo tanto, existen varias alternativas que recientemente se han propues-

to para modelizar datos de supervivencia donde la hipótesis de riesgos proporcionales no se

mantiene. Los más populares en el campo de la fiabilidad son el Modelo Aditivo de Aalen,

ver Aalen (1980) y el Modelo de Tiempo de Vida Acelerada (AFT), ver Lawless (1982).

La situación menos informativa surge cuando no se considera la estructura en la función

(1.1), lo que nos lleva a modelos de riesgo no paramétricos. Dado un vector de covariables,

la estimación no paramétrica de la tasa de riesgo puede ser abordada de varias maneras.

La aproximación más usual es suavizando (dado un vector de covariables) el estimador

de Nelson-Aalen (1978) en dos direcciones, primero en la variable argumento de tiempo y

después en las covariables. Otras aproximaciones han desarrollado un estimador de la tasa

de riesgo condicionada como la razón de los estimadores no paramétricos de una densidad

condicionada y una función de supervivencia.

Comparación de dos modelos de regresión en fiabilidad

Page 16: Comparación de Dos Modelos de Regresión en Fiabilidad

Capítulo 2

Modelo de riesgos proporcionales deCox (CPH)

2.1. Modelo de riesgos proporcionales de Cox (CPH)

En la investigación biomédica, el conocimiento de los factores que determinan el pronós-

tico de los pacientes es de gran importancia clínica. En la mayoría de los casos, la variable

respuesta representa, en cierto sentido, un tiempo de supervivencia (por ejemplo, el tiempo

que transcurre antes de la ocurrencia de un evento particular de interés), y por lo tanto se

formula un modelo de regresión con el fin de determinar la relación entre el tiempo y un

conjunto de covariables explicativas. El modelo de CPH, ver Cox (1972), es el modelo utili-

zado por la mayoría de las aplicaciones en el campo de la Bioestadística y generalmente, en

los estudios de fiabilidad y supervivencia. En nuestro contexto de fiabilidad, el tiempo de

supervivencia se interpreta como el tiempo transcurrido antes del fallo en un determinado

dispositivo (sistema o componente), y el objetivo es evaluar este tiempo en términos de las

características particulares del dispositivo.

Sea T la variable aleatoria tiempo de fallo y X = (X1, . . . , Xp)T un vector p-dimensional

de covariables o de variables explicativas que describe un sistema en particular o un sis-

tema en términos de factores exógenos (como la temperatura y la presión o, en general,

las condiciones que describen el entorno externo en el que el dispositivo funciona) y/o ca-

racterísticas endógenas (tales como el tamaño, en el sentido de dimensión física, tipo de

material del cual está hecho el dispositivo, etc.).

11

Page 17: Comparación de Dos Modelos de Regresión en Fiabilidad

12 Modelo de riesgos proporcionales de Cox

El modelo básico supone que la función tasa de riesgo del tiempo de fallo de un sistema

con vector de covariables dadas por X viene expresada por la relación

λ(t;X) = λ0(t)Ψ(βTX) (2.1)

donde λ0(t) es una función de riesgo no especificado; βT = (β1, . . . , βp) es un vector de

parámetros p-dimensional; y Ψ(·) es una función conocida. El modelo no toma ninguna

forma paramétrica en particular para λ0(t), conocida como la función de riesgo base. Esta

función representa el riesgo de un sistema con vector de covariables igual a cero (a condición

de que Ψ(0) = 1), conocido como sistema base. En este modelo, no se hace ningún supuesto

sobre la distribución del tiempo de fallo de la población base. Por lo que, este es un modelo

semi-paramétrico en el sentido de que se asume una forma paramétrica para el efecto de

las covariables. De hecho, un modelo común para Ψ(βTX) es

Ψ(βTX) = exp(βTX) = exp

(p∑

j=1

βjXj

). (2.2)

Básicamente, el modelo asume que existe una relación proporcional entre las funciones de

riesgo de tiempos de fallo correspondientes a diferentes elementos. En otras palabras, si

consideramos dos dispositivos definidos respectivamente por los vectores de covariables X1

y X2. La relación de las funciones de riesgo correspondientes vienen dadas por Klein &

Moeschberger (1997), de la forma

λ(t;X1)

λ(t;X2)=

λ0(t) exp

(p∑

j=1

βjX1j

)

λ0(t) exp

(p∑

j=1

βjX2j

) = exp

[p∑

j=1

βj

(X1

j −X2j

)]

(2.3)

que es constante en el tiempo. La razón de riesgos en (2.3) se refiere, en contextos de

Bioestadística, como el riesgo relativo de un individuo con factor de riesgo X1 del aconte-

cimiento de interés (muerte o recaída, por ejemplo) en comparación con un individuo con

factor de riesgo X2. También vamos a adoptar, en nuestro contexto, la denominación de

riesgo relativo para la cantidad dada en (2.3).

Comparación de dos modelos de regresión en fiabilidad

Page 18: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 13

El interés principal es hacer inferencia sobre el vector de parámetros β, que representa

el logaritmo del riesgo relativo, y la función de riesgo base λ0(t) o la función de riesgo base

acumulativa, esto es, Λ0(t) =

∫ t

0

λ0(u) du.

Asumimos que tenemos n observaciones independientes de la forma (Yi, δi, Xi), i =

1, 2, . . . , n, bajo el supuesto de RCM. Esto es, Yi son tiempos de vida censurados a la

derecha, que suponemos que están ordenados; δi es el indicador de censura, que nos dice

si una observación está censurada o no (δi = 1 si ha ocurrido el fallo en Yi y δi = 0 si el

tiempo de vida es censurado a la derecha); y Xi es un vector de covariables explicativas.

La estimación del parámetro β se ha basado tradicionalmente en la formulación de una

verosimilitud condicionada o parcial, donde el riesgo base se entiende como un parámetro

de ruido, que en general, no es estimado, ya que el objetivo es evaluar el efecto que cada

factor tiene sobre el riesgo de fallo.

Vamos a definir el proceso de riesgo como D(t) = I[Y ≥ t], como se indica en Marti-

nussen & Scheike (2006). La verosimilitud parcial se obtiene como el producto, extendido a

todos los sujetos del ejemplo, de la probabilidad condicionada que un sujeto con covariables

Xi falle en el tiempo Yi, dado que uno de los sujetos en riesgo en Yi falle en este tiempo,

esto es

P [de que un sujeto i falle en Yi | a que haya un fallo en Yi] =

=P [de que un sujeto i falle en Yi | a que esté en situación de riesgo en Yi]

P [de que ocurra un fallo en Yi | a que esté en situación de riesgo en Yi]=

=λ(Yi|Xi)

n∑j=1

Dj(Yi)λ(Yi|Xj)

=λ0(Yi) exp

[βT Xi

]n∑

j=1

Dj(Yi)λ0(Yi) exp[βT Xj

] =exp

[βT Xi

]n∑

j=1

Dj(Yi) exp[βT Xj

] .(2.4)

donde Dj(t) = I[Yj ≥ t]. La verosimilitud parcial viene entonces, dada de la forma

PL(β) =n∏

i=1

exp[βT Xi]n∑

j=1

Dj(Yi) exp[βT Xj

]

δi

(2.5)

La flexibilidad del modelo (2.1) se encuentra en el término no paramétrico, λ0(t), la función

de riesgo base. La estimación procedente de este término se basa en una verosimilitud res-

Comparación de dos modelos de regresión en fiabilidad

Page 19: Comparación de Dos Modelos de Regresión en Fiabilidad

14 Modelo de riesgos proporcionales de Cox

tringida (profile likelihood), que se construye mediante la fijación de un valor del parámetro

de regresión β en la expresión anterior (2.5), se maximiza el logaritmo natural de dicha

expresión con respecto a λ0, para obtener una estimación de λ0. Por lo tanto, obtenemos

una verosimilitud restringida máximo verosímil de λ0(Yi) como

λ0i =δi

n∑j=1

Dj(Yi) exp[βT Xj

] . (2.6)

Este estimador de la tasa de riesgo base nos lleva al siguiente estimador de la tasa de

riesgo acumulativo correspondiente conocido como el estimador de Breslow (1975), que

viene dado por la expresión

Λ0(t) =∑

i:Yi≤t

δin∑

j=1

Dj(Yi) exp[βT Xj

] . (2.7)

En la literatura reciente, existe un extenso número de libros especializados que inclu-

yen un extensivo y comprensivo tratamiento del modelo de riesgos proporcionales de Cox

(1972). Recomendamos particularmente el libro de Klein & Moeschberger (1997), donde

todos los métodos representados están debidamente representados por medio de numerosos

ejemplos prácticos en el contexto de las aplicaciones biomédicas.

Aunque tradicionalmente es en el campo de la Bioestadística donde es aplicado más

comúnmente el modelo de riesgos proporcionales, este método ha logrado progresivamente

más y más prestigio en el campo de la ingeniería y la fiabilidad, y como consecuencia

de esto, el número de artículos que ilustran el uso de este tipo de modelos bajo diferentes

características ha ido en incremento en la literatura reciente sobre los modelos de fiabilidad.

Como ejemplo, podemos citar a Carrion et al. (2011), que presenta una sencilla aplicación

del modelo de riesgos proporcionales para tratar el estudio de la rotura de tuberías en un

sistema de red de suministro de agua.

La relevancia de este modelo depende fuertemente de que, paralelamente al desarrollo

de los importantes resultados teóricos en estos últimos años, hay algoritmos implementados

en programas estadísticos gratuitos. La mayoría de los paquetes estadísticos cuentan con

Comparación de dos modelos de regresión en fiabilidad

Page 20: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 15

funciones para facilitar el ajuste del modelo de CPH en aplicaciones reales. El entorno esta-

dístico R, es actualmente el software líder en este sentido y en particular el survival package

que proporciona varias funciones y bases de datos para el análisis de la supervivencia.

2.2. Modelo de riesgos proporcionales estratificado

Como vimos en la sección anterior, hay casos en que puede violarse la presunción de

riesgos proporcionales para alguna covariable. En tal caso, puede ser posible estratificar

esa covariable y utilizar el modelo de riesgos proporcionales dentro de cada estrato y con-

siderando las otras covariables. En este caso, los sujetos en el estrato j-ésimo tienen una

función de riesgo base arbitraria λ0j(t) y el efecto de otras covariables explicativas sobre la

función de riesgo puede ser representado por un modelo de riesgos proporcionales en ese

estrato de la forma

λj(t;X) = λ0j(t) exp(βTX), j = 1, . . . , p. (2.8)

En este modelo, los coeficientes de regresión se supone que son los mismos en todos los

estratos, aunque las funciones de riesgo base pueden ser diferentes y no relacionadas en

absoluto.

Las pruebas de estimación y de hipótesis descritas anteriormente, donde la función de

log-verosimilitud parcial (ln PL) viene dada por

ln PL(β) = [ln PL1(β)] + [ln PL2(β)] + · · ·+ [ln PLp(β)] , (2.9)

donde ln PLj(β) es la log-verosimilitud parcial utilizando sólo los datos de los sujetos en

el estrato j-ésimo. Los sumandos de la expresión (2.9) se calculan directamente mediante

la suma de cada una de las log-verosimilitudes en cada estrato. La ln PL(β) es, por tanto,

maximizada con respecto a β utilizando un método apropiado.

Un supuesto clave en el uso del modelo de estratificación de riesgos proporcionales es

que las covariables están actuando de manera similar en la función de riesgo base en cada

estrato. Esto se puede comprobar utilizando una prueba de razón verosimilitud, que encajan

en el modelo estratificado, que supone que las β’s son comunes a cada estrato, y obtenemos

Comparación de dos modelos de regresión en fiabilidad

Page 21: Comparación de Dos Modelos de Regresión en Fiabilidad

16 Modelo de riesgos proporcionales de Cox

la log-verosimilitud parcial, ln PL(β). Usando sólo los datos del j-ésimo estrato, se puede

ajustar un modelo de riesgos proporcionales y obtener el estimador βj y la log-verosimilitud

parcial ln PLj(βj). La log-verosimilitud bajo el modelo, con covariables distintas para cada

uno de los p estratos esp∑

j=1

ln PLj(βj). La razón de verosimilitud para la prueba chi-

cuadrado de las β’s es la misma para cada estrato y viene calculada mediante la expresión

−2

[ln PL(β)−

p∑j=1

ln PLj(βj)

]para una muestra lo suficientemente grande y sigue una

distribución chi-cuadrado con (p − 1)s grados de libertad bajo la hipótesis nula que dice

que βj = βk con k 6= j.

Para construir el test de Wald, calculamos el modelo con las distintas β’s en cada estrato

ajustando distintos modelos de riesgos proporcionales para cada estrato. Las estimaciones

procedentes de los distintos estratos son asintóticamente independientes porque la matriz de

información del modelo combinado es una matriz diagonal en bloques. Se construye el test

de Wald usando una matriz de contraste adecuada. Este método de contraste es equivalente

a contrastar la interacción entre una covariable de estratificación y las covariables en un

modelo de riesgos proporcionales estratificado.

2.3. Estudio de residuos en los modelos de regresión pa-ra datos de vida

Una de las ventajas que han surgido del enfoque de estos tipos de análisis de datos de

tiempos de vida es la posibilidad de efectuar análisis de residuos Anderson et al. (1993),

Fleming & Harrington. (1991), Therneau & Gramsch. (2000), Therneau et al. (1990).

Los residuos se pueden utilizar para:

1. Descubrir la forma funcional apropiada de un predictor continuo.

2. Identificar los sujetos que están pobremente predichos por el modelo.

3. Identificar los puntos o datos de influencia.

4. Verificar el supuesto de riesgo proporcional.

Comparación de dos modelos de regresión en fiabilidad

Page 22: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 17

Existen cinco tipos de residuos de interés en el modelo de CPH: Los residuos de Cox-

Snell, los de martingala, los de deviance, los de score y los de Schoenfeld. De estos cinco

residuos pueden derivarse otros dos: los dfbetas y los residuos escalados de Schoenfeld.

Antes de pasar al análisis de los cinco tipos de residuos, veamos previamente el siguiente

modelo descrito de forma equivalente a la mostrada anteriormente descrita por Andersen

et al (1993). Consideramos un conjunto de n sujetos independientes de tal manera que

el proceso de conteo Ni ≡ {Ni(t), t ≥ 0} para el i-ésimo sujeto es el número de eventos

observados hasta el tiempo t. La trayectoria muestral de los Ni son funciones con saltos

de tamaño +1 y con Ni(0) = 0. Suponemos que la función de intensidad para Ni(t) viene

dada por la expresión

αi(t) = Di(t)dΛ (t; Xi(t)) = Di(t) exp(βT Xi(t))dΛ0(t), (2.10)

donde Di(t) es un proceso 0− 1 que indica si el i-ésimo sujeto esta en riesgo en el tiempo

t, β es un vector de coeficientes de regresión, Xi(t) es un vector p-dimensional de procesos

de las covariables, y Λ0(t) es la función de riesgo base acumulativa cuya estimación viene

dada de la forma

Λ0(t) =

∫ t

0

n∑i=1

dNi(s)

n∑j=1

Dj(s) exp(βT Xj(s)

) .

Como vemos esta expresión sigue un cierto paralelismo con la expresión (2.7), que es el

estimador de Breslow.

Existen varias familias de modelos de supervivencia que encajan en este marco. La

generalización del modelo de CPH dada por Andersen & Gill (1984), surge cuando Λ0(t)

no está completamente especificada. Tenemos la restricción adicional de que Di(t) = 1 hasta

el primer evento o censura, y 0 para el modelo de CPH. Con la forma paramétrica Λ0(t) = t

se tiene un modelo de Poisson, o una exponencial si esta restringido a un solo evento por

sujeto, y Λ0(t) = tp un modelo de Weibull. Nuestra atención se centrará principalmente

en el modelo de Andersen & Gill (1982) y el modelo de CPH, sin embargo, los métodos

que se desarrollaron en gran parte se aplican tanto a los casos paramétricos como a los

semi-paramétricos.

Comparación de dos modelos de regresión en fiabilidad

Page 23: Comparación de Dos Modelos de Regresión en Fiabilidad

18 Modelo de riesgos proporcionales de Cox

2.3.1. Residuos de Cox-Snell

Si un analista está interesado en evaluar el ajuste global del modelo planteado, los

residuos más comunes utilizados por este tipo de análisis son los de Cox-Snell, desarrollados

por Cox & Snell (1968) y mejorados por Klein & Moeschberger (1997). Si el modelo de

CPH dado por (2.1) se mantiene, entonces las estimaciones del tiempo de supervivencia del

modelo planteado, vienen dadas por un estimador de la función de supervivencia Si(t), debe

ser muy similar al verdadero valor de Si(t) Collett (1994) y también Klein & Moeschberger

(1997). Para evaluar esto, se calcularon los residuos de Cox-Snell, que vienen definidos de

la forma

rcsi= exp

(βT Xi

)Λ0(ti)

Un resultado importante demostrado por Cox & Snell (1968), Collett (1994) y Klein &

Moeschberger (1997), es que, si el modelo apropiado se ajusta bien a los datos, entonces los

rcsi, tendrán para cada i un valor exp(1), es decir, distribución exponencial con razón o tasa

de riesgo igual a 1. Para probar si los residuos de Cox-Snell están o no aproximadamente

distribuidos de forma exponencial, tenemos que construir su gráfico de residuos. La lógica

de este método es sencilla. Si los residuos de Cox-Snell están, de hecho, distribuidos de

forma exponencial, entonces una estimación de la tasa de riesgo basada en rcsicuando se

dibuja contra rcsidebería tender a una linea recta que pasa por el origen con pendiente

igual a 1. Esto es, si dibujamos Λr(rcsi) contra rcsi

, debería tender a una linea recta que

pasa por el origen con pendiente igual a 1, si el modelo planteado se ajusta bien a los datos.

En este caso, Λr(rcsi) puede ser considerada como la tasa de riesgo para los residuos de

Cox-Snell.

2.3.2. Residuos de martingala

Según Barlow & Prentice (1988), definimos estos residuos como la diferencia entre el

proceso de conteo y la integral de la función de intensidad

Mi(t) = Ni(t)−∫ t

0

Di(s) exp(βT Xi(s))dΛ0(s), i = 1, . . . , n.

Despreciando los perjuicios de medibilidad e integrabilidad Mi(·) será un tipo de martin-

gala específica; ver, por ejemplo Gill (1984). Sea β estimada por el estimador de máxima

Comparación de dos modelos de regresión en fiabilidad

Page 24: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 19

verosimilitud parcial β y el riesgo acumulado Λ0 por el estimador del riesgo base de Breslow

(1974), definido en (3.8).

Por lo que el residuo de martingala viene estimado de la forma

Mi(t) = Ni(t)− Ei(t) = Ni(t)−∫ t

0

Di(s) exp(βT Xi(s)

)dΛ0(s),

con Mi como abreviatura de Mi(∞). El residuo puede ser interpretado, para cada t, como

la diferencia en el intervalo [0, t] del número de eventos observados menos los esperados

proporcionados por el modelo, o por exceso de muertes. Los residuos poseen algunas de

las propiedades reminiscentes de los modelos lineales:n∑

i=1

Mi(t) = 0 para cualquier t, y

E[Mi] = cov[Mi, Mj

]= 0 asintóticamente.

Para el modelo de CPH con covariables independientes del tiempo, donde ti denota el

tiempo de observación para el sujeto i y δi el estado final, este residuo se reduce a una

expresión más simple de la forma

Mi = δi − exp(βT Xi

)Λ0(ti)

es útil saber que la expresión anterior puede ponerse en función de los residuos de Cox-Snell

tratados anteriormente, como

Mi = δi − rcsi

Los residuos de martingala son muy asimétricos y con una cola muy larga hacia la

derecha, particularmente para datos de supervivencia para un solo evento. Estos residuos

se usan para estudiar la forma funcional de una covariable en particular.

Comparación de dos modelos de regresión en fiabilidad

Page 25: Comparación de Dos Modelos de Regresión en Fiabilidad

20 Modelo de riesgos proporcionales de Cox

2.3.3. Residuos score

Para el modelo semi-paramétrico derivado de (2.10) cuando Λ0 no está especificada, la

derivada de la log-verosimilitud parcial con respecto a βj puede ser escrita de la forma

∂ ln PL

∂βj

∣∣∣∣β=b

=n∑

i=1

∫ ∞

0

{Xij(s)−Xj(b, s)

}dNi(s)

=n∑

i=1

∫ ∞

0

{Xij(s)−Xj(b, s)

}dMi(s)

=n∑

i=1

PLij(b,∞),

(2.11)

donde

Xj(b, s) =

n∑i=1

Di(s) exp(bT Xi(s)

)Xij(s)

n∑i=1

Di(s) exp(bT Xi(s)

) (2.12)

es una media ponderada de las covariables sobre el riesgo establecido en el tiempo s. La

segunda igualdad en (2.11) se obtiene de la definición del estimador de Breslow Λ0, cuando

evaluamos β = b. Definimos PLij(β, ·) como el proceso score, y PLij(β,∞) como el residuo

score del i-ésimo sujeto y de la j-ésima variable. De la definición de β los residuos score

sumarán cero.

Los residuos score se utilizan para verificar la influencia individual y para la estimación

robusta de la varianza, también son un ejemplo de la amplia clase de martingalas que

hay para transformar los residuos, todo esto viene ampliamente discutido por Barlow &

Prentice (1988). Ellos encontraron un diagnóstico útil de la influencia de cada sujeto en las

estimaciones de los parámetros y en la evaluación de los supuestos del modelo, tales como

el de riesgos proporcionales.

2.3.4. Residuos deviance

Una deficiencia importante en los residuos de martingala Mi, particularmente en el caso

del modelo de CPH, es su asimetría. En este caso, se tiene un valor máximo de +1, pero un

mínimo de −∞. Es necesaria una transformación para lograr una distribución que posea

Comparación de dos modelos de regresión en fiabilidad

Page 26: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 21

una forma más normal, sobre todo cuando se ha evaluado la precisión de las predicciones

para unos sujetos en particular. Una de estas transformaciones viene motivada por los

residuos deviance hallados en la literatura de los modelos lineales de McCullagh & Nelder

(1983). En estos estudios se define la deviance como D = 2{ln likelihood(saturated) −ln likelihood(β)}, donde un modelo saturado es un modelo en donde la β es completamente

arbitraria, es decir, es aquel que tiene igual número de parámetros que de observaciones.

En nuestro modelo el parámetro de ruido es la función de riesgo base Λ0. Sea hi el sujeto

individual estimado por β; se asume que la deviance es independiente del tiempo y que Λ0

es conocida, entonces tenemos

D =2 suph

∑ {∫ [ln

(exp

(hT

i Xi

))− ln(exp

(βT Xi

))]dNi(s) −

−∫

Di(s)[exp

(hT

i Xi

)− exp(βT

i Xi

)]dΛ0(s)

}.

Debido a la separación de los términos, podemos maximizar separadamente con respecto a

cada hi. Mediante un simple multiplicador de Lagrange, este valor máximo de hi satisface∫ ∞

0

Di(s) exp(hT

i Xi

)dΛ0(s) =

∫ ∞

0

dNi(s).

Sea

Mi(t) = Ni(t)−∫ t

0

exp(βT Xi

)dΛ0(s),

por ejemplo el residuo de martingala con β estimado y Λ conocido. Sustituyendo da

D = −2∑

Mi + ln

exp

(βT Xi

)

exp(hT

i Xi

)

∫dNi(s)

= −2∑ [

Mi + Ni(∞) ln

(Ni(∞)− Mi

Ni(∞)

)].

(2.13)

el paso anterior requiere una factorización de la forma∫

Di(s) exp(βT Xi

)dΛ0(s) = exp

(βT Xi

) ∫Di(s)dΛ0(s)

que no es válida para X dependientes del tiempo.

Comparación de dos modelos de regresión en fiabilidad

Page 27: Comparación de Dos Modelos de Regresión en Fiabilidad

22 Modelo de riesgos proporcionales de Cox

Para una densidad Gaussiana el parámetro de ruido σ se cancela en la desviación, pero

no aquí. Las estimaciones de los resultados de Λ0 en la sustitución de Mi por Mi en la

fórmula. El residuo de deviance viene dado por la expresión

di = signo(Mi

)∗

√−2

[Mi + δi ln

(δi − Mi

)]

Hay que tener en cuenta que el residuo de deviance será cero sí y sólo sí Mi = 0. Los

residuos de deviance se utilizan para la detección de valores atípicos (outliers).

2.3.5. Residuos de Schoenfeld

Los residuos de Schoenfeld (1982), se definen como la matriz:

Uij(β) = Xij(ti)−Xj(β, ti)

donde i y ti son los sujetos y el tiempo de ocurrencia del evento respectivamente.

Bajo el supuesto de riesgos proporcionales, los residuos de Schoenfeld siguen un patrón

aleatorio, por lo tanto, son útiles en la evaluación de la tendencia en el tiempo o de la falta de

proporcionalidad. Therneau & Gramsch (2000), consideran que los coeficientes de regresión

vienen dados mediante funciones dependientes del tiempo de la forma β(t) = β+θg(t), para

una función de suavizado g(t). Debido a que las covariables son dependientes del tiempo,

la regresión lineal generalizada de los residuos de Schoenfeld en función del tiempo da una

pendiente distinta de cero, esto indica la violación del supuesto de riesgos proporcionales,

ya que la hipótesis nula de presunción de riesgos proporcionales nos dice que θ = 0, es

decir, que el modelo se ajusta bien. Al igual que cualquier tipo de regresión, se recomienda

mirar la gráfica de la recta de regresión, además de realizar los test de que la pendiente

no sea cero. En resumen podemos decir que los residuos de Schoenfeld son útiles para la

verificación del supuesto de riesgos proporcionales en el modelo de CPH.

Comparación de dos modelos de regresión en fiabilidad

Page 28: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 23

2.4. Ajuste del modelo de CPH para nuestros datos

Para la realización del ajuste se va a utilizar en todos los casos el programa estadístico

R, es un programa gratuito donde vienen implementadas la mayoría de las funciones en el

ámbito estadístico. Para más información ver el Apéndice A.

Vamos a ajustar el modelo de CPH para los datos del estudio,

> ## Realizamos la regresión de Cox > # volumen=longitud(m)*(diametro(m)/2)^2*pi=m3; suponemos que los tramos son rectos > # hacemos log(volumen) para centrar la variable > cox1<-coxph(Surv(tiempo, estado)~material+presion+trafico+log(volumen)+x80, data=datos) > cox1 Call: coxph(formula = Surv(tiempo, estado) ~ material + presion + trafico + log(volumen) + x80, data = datos) coef exp(coef) se(coef) z p materialUr -0.6265 0.534 0.17086 -3.67 0.00025 presion 0.0054 1.005 0.00587 0.92 0.36000 trafico -0.1871 0.829 0.11840 -1.58 0.11000 log(volumen) 0.0869 1.091 0.03962 2.19 0.02800 x80 4.3487 77.378 0.36400 11.95 0.00000 Likelihood ratio test=253 on 5 df, p=0 n= 655, number of events= 324

Figura 2.1: Ajuste del modelo de CPH.

En estas salidas la significación de modelo puede verificarse sólo a través del método de la

razón de verosimilitud. Una salida más completa se presenta mediante la ejecución de la

sentencia summary(cox1), por lo que:

Comparación de dos modelos de regresión en fiabilidad

Page 29: Comparación de Dos Modelos de Regresión en Fiabilidad

24 Modelo de riesgos proporcionales de Cox

> ## Una salida más completa sería mediante la sentencia > summary(cox1) Call: coxph(formula = Surv(tiempo, estado) ~ material + presion + trafico + log(volumen) + x80, data = datos) n= 655, number of events= 324 coef exp(coef) se(coef) z Pr(>|z|) materialUr -0.626531 0.534443 0.170856 -3.667 0.000245 *** presion 0.005402 1.005416 0.005869 0.920 0.357343 trafico -0.187057 0.829397 0.118399 -1.580 0.114133 log(volumen) 0.086941 1.090832 0.039616 2.195 0.028191 * x80 4.348707 77.378312 0.363997 11.947 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 upper .95 materialUr 0.5344 1.87111 0.3824 0.747 presion 1.0054 0.99461 0.9939 1.017 trafico 0.8294 1.20570 0.6576 1.046 log(volumen) 1.0908 0.91673 1.0093 1.179 x80 77.3783 0.01292 37.9127 157.926 Concordance= 0.711 (se = 0.02 ) Rsquare= 0.32 (max possible= 0.995 ) Likelihood ratio test= 252.6 on 5 df, p=0 Wald test = 196.9 on 5 df, p=0 Score (logrank) test = 479.9 on 5 df, p=0

Figura 2.2: Ajuste completo del modelo de CPH.

Realizamos un nuevo ajuste con las covariables más significativas como son las covaria-

bles material y x80. Si consideramos que en el volumen se encuentran implícitamente la

longitud y el diametro, estratificando la covariable material con la función strata() y

aplicando el log() a la covariable volumen para centrar los datos, tenemos

Comparación de dos modelos de regresión en fiabilidad

Page 30: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 25

> ## Realizamos de nuevo la regresión de Cox con las variables más significativas > cox2<-coxph(Surv(tiempo, estado)~log(volumen)+strata(material)+x80, data=datos, method='breslow') > summary(cox2) Call: coxph(formula = Surv(tiempo, estado) ~ log(volumen) + strata(material) + x80, data = datos, method = "breslow") n= 655, number of events= 324 coef exp(coef) se(coef) z Pr(>|z|) log(volumen) 0.09317 1.09765 0.03948 2.36 0.0183 * x80 4.03705 56.65921 0.39054 10.34 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 upper .95 log(volumen) 1.098 0.91104 1.016 1.186 x80 56.659 0.01765 26.354 121.814 Concordance= 0.61 (se = 0.025 ) Rsquare= 0.193 (max possible= 0.991 ) Likelihood ratio test= 140.1 on 2 df, p=0 Wald test = 111.3 on 2 df, p=0 Score (logrank) test = 137.5 on 2 df, p=0

Figura 2.3: Ajuste del modelo con las covariables significativas.

2.4.1. Interpretación de los coeficientes del modelo

Podemos concluir que el modelo es aceptable para cualquiera de los tres criterios (test de

razón de verosimilitud, test de Wald y test de Score o logrank).

Estos coeficientes estimados, se consideran significativos cuando el cociente z =

∣∣∣∣coef

s.e.(coef)

∣∣∣∣en valor absoluto, es superior a 2, ya que para muestras grandes este cociente se distribuye

según una ley Normal (prueba de Wald).

En nuestro caso tenemos que a la covariable log(volumen) le sucede lo anterior

log(volumen) ⇒ |z| = |2.36| → p = 0.0183 < 0.05 ⇒ es estadísticamente significativa y a

la otra covariable también x80 ⇒ |z| = |10.34| → p = 2 · 10−16 << 0.05 ⇒es estadísticamente significativa.

Comparación de dos modelos de regresión en fiabilidad

Page 31: Comparación de Dos Modelos de Regresión en Fiabilidad

26 Modelo de riesgos proporcionales de Cox

Como es común en técnicas de supervivencia, la estimación de los efectos de las cova-

riables son analizadas desde el punto de vista de la razón de riesgo del tiempo de vida o

duración de la tubería. La razón de riesgo es la probabilidad de que una tubería que no ha

fallado hasta el instante t, empezara a romperse a lo largo del intervalo de tiempo conse-

cutivo. Mientras que en nuestro caso, la función de riesgo λ(t) nos mide la razón de riesgo

de que una tubería pueda romperse condicionada al hecho de que no se rompa hasta el

instante t. La hipótesis principal es que la razón de riesgo en todos los casos es un múltiplo

de una razón de riesgo base inespecífica λ0(t).

En la Figura 2.3 podemos ver el ajuste del modelo reducido final para nuestros datos,

este ajuste nos proporcionan los valores de los coeficientes para cada covariable, la expo-

nencial del valor de cada coeficiente (que nos expresa el efecto correspondiente de cada

covariable en la razón de riesgo), el error estándar y el p-valor de cada coeficiente.

El significado de un valor positivo para un correspondiente β, por ejemplo a la covariable

volumen, puede interpretarse como que la razón de riesgo al fallo (rotura) es mayor en

las tuberías que presentan un mayor volumen que en las de menor volumen. Vamos a

interpretar los β mediante sus exp(β) de la forma 1− exp(β) en %, por lo que, tenemos:

Para la covariable volumen, el incremento en el riesgo de fallo (rotura) para el incre-

mento de 1 m3 de volumen es del 9.8 %.

Para la covariable x80, el incremento en el riesgo de fallo (rotura) para las tuberías

instaladas antes de 1980 es del 5566 %.

Otra forma de interpretar estos coeficientes sería:

Como la covariable x80 es binaria, el valor de exp(coef) representa el riesgo de rotura

estimado para las tuberías que tengan esas características (instaladas después de 1980) con

respecto a las otras (antes de ese año), el exp(coef) nos indicará:

La covariable x80⇒ exp(coef) = 56.7 el modelo supone que el efecto de la covariable

x80 sobre el riesgo de rotura es aproximadamente 57 veces mayor para las tuberías

que se construyeron antes de 1980.

Comparación de dos modelos de regresión en fiabilidad

Page 32: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 27

Como la covariable volumen es cuantitativa, el valor de exp(coef) representa el au-

mento o disminución del riesgo de rotura según varíe el volumen: log(volumen)

⇒ exp(coef) = 1.1, en este caso lo que tiene sentido es establecer el aumento del

riesgo que va de una tubería con xm3 de volumen a otra con (x + 10) m3 de volu-

men, cuando el volumen aumente en 10 m3 esto implicará que el riesgo de rotura se

multiplica por exp(10 · β) = exp(10 · 0.09317) = 2.538.

Cabe destacar que en nuestros datos no se ha tenido en cuenta el truncamiento por la

izquierda, es probable que debido a esto el efecto de la covariable x80 nos salga tan elevado

(57 veces mayor). En estudios posteriores (Futuras líneas de investigación) sería conveniente

tenerlo en cuenta.

Comparación de dos modelos de regresión en fiabilidad

Page 33: Comparación de Dos Modelos de Regresión en Fiabilidad

28 Modelo de riesgos proporcionales de Cox

2.4.2. Verificación de los supuestos del modelo de CPH

Podemos obtener la función y gráficas de supervivencia y de riesgo acumulado del

modelo de CPH, de la forma:

> ## Gráfica de la Supervivencia estimada para el material > plot(survfit(Surv(tiempo,estado)~material,data=datos), xlab='años', ylim=c(0, 1), ylab='Supervivencia',lty = 1:4, col = 2:5, main="Curvas de Supervivencia para el material") > legend("topright", legend=c("material=FD","material=Ur"), lty=1:4, col=c("red","green"))

Figura 2.4: Gráfico de la función de supervivencia para los dos tipos de materiales.

Comparación de dos modelos de regresión en fiabilidad

Page 34: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 29

y para la función de riesgo acumulado tenemos

> ## Gráfica del riesgo estimado para el material ## > plot(survfit(Surv(tiempo,estado)~material,data=datos), fun="cumhaz", xlab='años', ylim=c(0, 4), ylab='Riesgo acumulado', lty = 1:4, col = 2:5, main="Curvas de riesgo acumulado para el material") > legend("topright", legend=c("material=FD","material=Ur"), lty=1:4, col=c("red","green")) >

Figura 2.5: Gráfico de la función de riesgo acumulado para los dos tipos de materiales.

Como podemos ver en las gráficas anteriores, las curvas de los dos materiales se cruzan,

por lo que existen evidencias de que el material no cumple la proporcionalidad de riesgos.

Comparación de dos modelos de regresión en fiabilidad

Page 35: Comparación de Dos Modelos de Regresión en Fiabilidad

30 Modelo de riesgos proporcionales de Cox

Las pruebas y los diagnósticos gráficos para riesgos proporcionales se puede basar en

los residuos vistos anteriormente, como son los residuos de Schoenfeld, scores y deviances.

Con mayor comodidad, la función cox.zph calcula la prueba de riesgos proporcionales

para cada covariable, mediante la correlación de los correspondientes residuos escalados

de Schoenfeld con una transformación adecuada del tiempo (por defecto se basa en la

estimación de Kaplan-Meier (1958), de la función de supervivencia.)

Vamos a probar el supuesto de riesgos proporcionales de nuestro ajuste del modelo de

regresión de CPH:

> ## Supuesto de Riesgos Proporcionales > cox.zph(cox2) rho chisq p log(volumen) 0.0436 0.637 0.425 x80 -0.0123 0.047 0.828 GLOBAL NA 0.693 0.707

Figura 2.6: Salidas de la prueba de verificación de riesgos proporcionales.

Por lo que, no existen evidencias significativas al 5 % de que se viole el supuesto de riesgos

proporcionales para ninguna de las dos covariables ni globalmente.

Comprobación de la hipótesis global de riesgos proporcionales: Residuos deCox-Snell

Después de ajustar el modelo, tenemos que calcular los residuos de Cox-Snell con el

fin de evaluar el ajuste del modelo de riesgos proporcionales. Si el modelo es correcto y

la estimación de los β’s son cercanas a los valores reales, entonces estos residuos deberían

tratarse como una muestra censurada de observaciones de una distribución exponencial.

Hemos calculado el estimador de Nelson-Aalen de la tasa de riesgo acumulado de los

residuos de Cox-Snell. Si una distribución exponencial ajusta a los datos, entonces, este

estimador debería aproximadamente describir una línea de pendiente igual a 1.

Comparación de dos modelos de regresión en fiabilidad

Page 36: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 31

Calculamos los residuos de Cox-Snell para nuestro ajuste de la forma

> ## Residuos de Cox-Snell ## > estado<-datos$estado > mresi<-residuals(cox2, type="martingale") > csresi<-estado-mresi > hazard.csresi<-survfit(Surv(csresi,estado)~1,type="fleming-harrington") > plot(hazard.csresi$time,-log(hazard.csresi$surv), xlab='residuos de Cox-Snell', ylab='riesgo acumulado',lty = 1:4, + main="Representación de los residuos de Cox-Snell") > lines(c(0,5),c(0,5))

Figura 2.7: Salidas de los residuos de Cox-Snell.

La gráfica de la Figura 2.7 nos sugiere que este modelo ajusta muy bien a los datos.

Comparación de dos modelos de regresión en fiabilidad

Page 37: Comparación de Dos Modelos de Regresión en Fiabilidad

32 Modelo de riesgos proporcionales de Cox

Comprobación de la hipótesis de riesgos proporcionales por covariables: Resi-duos escalados de Schoenfeld

Ahora estamos interesados en evaluar la hipótesis de riesgos proporcionales del modelo

de CPH, examinando si el impacto de una o más covariables sobre el riesgo de rotura

puede variar con el tiempo. Por ejemplo, las tuberías de agua hechas de un tipo particular

de material pueden degradarse con el tiempo, en el sentido de que el correspondiente

coeficiente β puede no ser constante, es decir que β(t). Si, por el contrario, la hipótesis

de riesgos proporcionales se mantiene, una gráfica de β(t) frente al tiempo describirá una

línea horizontal.

Calculamos los residuos escalados de Schoenfeld para nuestro caso de la forma

> ## Residuos de Schoenfeld ## > plot(cox.zph(cox2),var=1, main="Betas para log(volumen)")

Figura 2.8: Salidas de los residuos escalados de Schoenfeld para log(volumen).

Comparación de dos modelos de regresión en fiabilidad

Page 38: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 33

> plot(cox.zph(cox2),var=2, main="Betas para x80")

Figura 2.9: Salidas de los residuos escalados de Schoenfeld para x80.

Como podemos apreciar en las Figuras 2.8 y 2.9 no hay coeficientes dependientes del

tiempo admisibles en nuestro caso. La gráfica de la covariable x80 presenta una mejor forma

que la de la covariable log(volumen), por lo que podemos contrastar nuestros cálculos

numéricos.

La dependencia del tiempo del coeficiente del material queda captada por el modelo

estratificado en el que se considera λUr(t) y λFD(t).

Comparación de dos modelos de regresión en fiabilidad

Page 39: Comparación de Dos Modelos de Regresión en Fiabilidad

34 Modelo de riesgos proporcionales de Cox

Comprobación de la influencia sobre cada observación en el modelo: Residuosdfbeta

Otro uso de los residuos que se nos presenta es el de determinar la influencia de cada

observación en el modelo ajustado. Hemos calculado, por medio de los residuos dfbeta, que

están implementados en R, el cambio aproximado en el k-ésimo coeficiente (es decir, la

k-ésima covariable) si la observación i-ésima se elimina del conjunto de datos y se vuel-

ve a estimar el modelo sin esta observación. Para cada covariable, se ha representado la

observación (en orden de tiempo de fallo registrado) por el cambio de escala aproximada

(dividiendo por el error estándar del coeficiente) del coeficiente después de la eliminación

de la observación del modelo. Si la supresión de una observación hace que el coeficiente

incremente, el residuo dfbeta es negativo y viceversa.

Comparación de dos modelos de regresión en fiabilidad

Page 40: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 35

Calculamos los residuos dfbeta para nuestro caso de la forma

> ## Residuos dfbeta ## > dfbeta <- residuals(cox2, type="dfbetas") > par(mfrow=c(2,2)) > for (j in 1:2){ + plot(dfbeta[,j], ylab=names(coef(cox2))[j]) + abline(h=0, lty=2, col='black') + lines(c(0,0),c(0,0)) + }

Figura 2.10: Salidas de los residuos dfbeta para log(volumen).

Comparación de dos modelos de regresión en fiabilidad

Page 41: Comparación de Dos Modelos de Regresión en Fiabilidad

36 Modelo de riesgos proporcionales de Cox

Figura 2.11: Salidas de los residuos dfbeta para x80.

En las Figuras 2.10 y 2.11 se nos muestran los residuos dfbeta del modelo. Como vemos

estos residuos están centrados con respecto al origen, y no presentan patrones definidos. Se

nos presentan dos datos demasiados alejados del origen correspondientes a los dos diáme-

tros más grandes presentes en nuestros datos, a excepción de esto no se aprecia ninguna

irregularidad en las gráficas.

Comparación de dos modelos de regresión en fiabilidad

Page 42: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 37

Comprobación de la existencia de outliers en el modelo: Residuos de deviance

Los residuos tipo deviance pueden generarse a través de la sentencia

> ## Residuos de deviance ## > devresi <- resid(cox2, type="deviance") > plot(cox2$linear.predictor, devresi, ylab="Residuos de Deviance", + main='Residuos de deviance') > abline(h=0,lty=2, col='black')

Figura 2.12: Salidas de los residuos de deviance.

En las Figura 2.12 se nos muestran los residuos de deviance estratificados para los dos tipos

de material, no apreciamos patrones definidos ni tampoco apreciamos residuos alejados del

origen.

Comparación de dos modelos de regresión en fiabilidad

Page 43: Comparación de Dos Modelos de Regresión en Fiabilidad

38 Modelo de riesgos proporcionales de Cox

Comprobación de la forma funcional de las covariables del modelo: Residuosde martingala

Los residuos tipo martingala pueden generarse a través de la sentencia

> mres<-residuals(cox2, type=c("martingale")) > plot(datos[,1], mres, xlab=c("log(volumen)")[1], + ylab="Residuos martingale", main="Residuos de Martingala") > abline(h=0, lty=2) > lines(lowess(datos[,1], mres, iter=0))

Figura 2.13: Salidas de los residuos de martingala para log(volumen).

En la Figura 2.13 se nos muestran los residuos de martingala para la covariable volumen,

en la que podemos ver claramente una tendencia curva decreciente, estos residuos presentan

claramente una forma funcional definida. La forma funcional en la que hemos introducido

esta covariable en el modelo no es la adecuada, deberíamos elegir otro modelo más flexible,

el cual se estudiará en las futuras líneas de investigación, ver Apéndice C.

Comparación de dos modelos de regresión en fiabilidad

Page 44: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de riesgos proporcionales de Cox 39

2.5. Conclusiones

Se han estudiado las propiedades de fiabilidad de una red de suministro de agua insta-

lada en una ciudad de tamaño medio en la costa mediterránea española. Este estudio es

válido para cualquier otro sistema de suministro de agua que posea características simila-

res, y el objetivo principal es utilizar herramientas cuantitativas para dirigir estos sistemas

con el objetivo de evaluar su estado actual tan bien como la previsión del comportamiento

de sus infraestructuras en el futuro.

Se han utilizado métodos semi-paramétricos adaptados a las características particulares

de la base de datos con la que se ha trabajado. En particular, la muestra de datos que se

ha utilizado en el estudio viene caracterizada por la presencia de censura a la derecha. Se

ha considerado que esta opción es bastante interesante debido a que su implementación

mediante métodos computacionales es bastante fácil.

El análisis muestra la influencia de algunos factores que afectan a la supervivencia de

las tuberías, como son las dimensiones físicas (volumen), el material, la presión, el tráfico

rodado y una covariable que depende del tiempo de instalación de la tubería. Las tuberías

que presentan menos fallos presentan características, como la disminución del volumen de

la tubería, o que su material sea de fundición dúctil, así como que la tubería fuese instalada

después de 1980.

El análisis de los residuos ha llevado a validar el modelo de forma general. Principal-

mente la hipótesis de riesgos proporcionales global se ha verificado utilizando los residuos

de Cox-Snell, mostrando un buen ajuste. Seguidamente los residuos de Schoenfeld nos indi-

can un buen ajuste para cada covariable en el modelo de CPH. Finalmente los residuos de

martingala para el volumen nos indica que la forma funcional en la que hemos introducido

la covariable volumen no es la apropiada, se debería de utilizar un modelo más flexible.

Comparación de dos modelos de regresión en fiabilidad

Page 45: Comparación de Dos Modelos de Regresión en Fiabilidad

40 Modelo de riesgos proporcionales de Cox

Comparación de dos modelos de regresión en fiabilidad

Page 46: Comparación de Dos Modelos de Regresión en Fiabilidad

Capítulo 3

Modelo de tiempo de vida acelerada(AFT)

3.1. Modelo de tiempo de vida acelerada (AFT)

El modelo de vida acelerada Lawless (1982), relaciona linealmente el logaritmo del

tiempo de vida T con el vector de covariables X. Específicamente se puede escribir como

ln T = ψ(X) + ε, (3.1)

donde ε es un término de error aleatorio y ψ es una función desconocida. Este modelo forma

parte de la familia de modelos de regresión de la función de riesgo. De hecho, tenemos la

siguiente secuencia de igualdades

P [T > t] = P [ln T > ln t] = P [ε > ln (t exp(−ψ(X)))] =

= P [T0 > t exp(−ψ(X))](3.2)

donde es conveniente introducir la variable aleatoria no negativa T0 = exp(ε). Mirando la

relación entre T y T0, es cierto que

Λ(t) = Λ0(t exp(−ψ(X))),

donde Λ0 es la función de riesgo acumulado correspondiente a T0. Esta última ecuación

puede ser escrita en términos de las funciones de riesgo correspondientes, entonces, si

llamamos Ψ(X) = exp(−ψ(X)), tenemos

λ(t) = λ0(tΨ(X))Ψ(X),

41

Page 47: Comparación de Dos Modelos de Regresión en Fiabilidad

42 Modelo de tiempo de vida acelerada

que establece que el modelo de vida acelerada no mantiene proporcionalidad entre las

tasas de riesgo (excepto cuando tenemos un modelo de regresión de Weibull, que es cuando

λ0(t) = αγtγ−1, para un α= “parámetro de escala” y γ= “parámetro de forma” adecuada),

proporcionando así una alternativa interesante para el modelo de riesgos proporcionales de

Cox (1972). De hecho en algunos casos, constituye una opción de modelo más atractivo

que el modelo de riesgos proporcionales, debido a su directa interpretación física.

En relación a este tipo de modelos, las pruebas de vida acelerada se utilizan cada vez

más en las industrias de fabricación. La prueba de vida acelerada es un método que consiste

en exponer a los elementos del proceso a un mayor estrés que el que soportarían durante

su uso normal. El objetivo principal es inducir un fallo temprano y la motivación para

hacer esto se encuentra en el hecho de que, cuando la vida media de un dispositivo se

mide en décadas (por ejemplo) en condiciones normales de uso, sería necesario esperar

muchos años para establecer el grado de fiabilidad de estos dispositivos. Los avances en la

tecnología actual son hoy en día tan rápidos que un dispositivo en particular puede llegar a

ser obsoleto antes de que sus propiedades de fiabilidad puedan ser determinadas mediante

pruebas en condiciones normales de uso.

Las condiciones de uso de un sistema vienen normalmente expresadas en términos lla-

mados factores de estrés, como la temperatura, voltaje, humedad y presión. Las pruebas

de vida acelerada son llevadas a cabo a altos niveles de estos factores (niveles significativa-

mente más altos que en condiciones normales) para obligar a reducir los tiempos de fallo

del sistema. El objetivo consiste en deducir las propiedades de fiabilidad del sistema en un

nivel normal de estrés basándose en la observación de su comportamiento en un nivel de

estrés acelerado. Para llevar esto a cabo, es esencial utilizar un modelo que represente la

relación directa entre tiempo de vida y estrés, lo que hace que el modelo de tiempo de fallo

acelerado sea la mejor opción.

En el enfoque semi-paramétrico, el modelo puede suponer una relación física interpre-

table entre los tiempos de vida y los niveles de estrés, sin hacer ninguna suposición sobre

la distribución de los tiempos de vida. Se considera la posibilidad de un vector de estrés

p-dimensional X = (X1, X2, . . . , Xp)T . Sea T0 el tiempo de fallo aleatorio en un nivel de uso

normal, con S0 como la función de supervivencia correspondiente. Sea T , por otra parte,

Comparación de dos modelos de regresión en fiabilidad

Page 48: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 43

el tiempo de vida del nivel de estrés acelerado y especificado por el vector X. De acuerdo

con (3.2) tenemos

S(t) = S0(t exp(ψ(X))) = S0(tΨ(X)). (3.3)

El objetivo principal es estimar S0 a partir de las observaciones de los tiempos de vida en

los niveles de estrés acelerado. La función Ψ(X) se denomina factor aceleración.

La mayoría de los modelos de tiempos de vida acelerada adoptan una función lineal en

las covariables que se consideran constantes, que lleva al siguiente modelo semi-paramétrico

en una escala logarítmica de tiempos de vida

ln T = βT X + ε, (3.4)

donde ε se supone que tiene una distribución con parámetro de localización 0 y parámetro

de escala σ. Como casos especiales a menudo consideramos distribuciones Lognormales

o Weibull. Con este enfoque, el logaritmo del tiempo de vida se considera que tiene una

distribución con parámetro de localización µ(X) = βT X y el parámetro de escala σ, donde

los parámetros desconocidos son estimados de los datos proporcionados por la prueba

acelerada. En consecuencia el parámetro de localización del logaritmo del tiempo, µ, es

una función lineal de la variable de estrés que podría ser transformada previamente con

respecto a determinados argumentos físicos considerados en la formulación de modelos

como el modelo de Arrhenius, el modelo de la potencia inversa y el modelo exponencial,

que son ampliamente utilizados en apuntes prácticos. Utilizando estas aproximaciones y en

el caso particular de una única covariable, se podría expresar el modelo de la forma

S(u; x, β0, β1, σ) = S0

(u− β0 + β1x

σ

), (3.5)

donde S y S0(·/σ) son las funciones de supervivencia respectivas de ln T y ε = ln T0.

Por lo general, el objetivo principal es estimar un percentil específico de la distribución

del tiempo de vida en condiciones de uso, por ejemplo x0, que puede denotarse como tπ(x0),

para 0 < π < 1. Por ejemplo, el interés suele centrarse en la mediana del tiempo de vida.

Lo anterior se puede expresar de la forma:

tπ(x0) = β0 + β1x0 + uπσ, (3.6)

Comparación de dos modelos de regresión en fiabilidad

Page 49: Comparación de Dos Modelos de Regresión en Fiabilidad

44 Modelo de tiempo de vida acelerada

siendo uπ el percentil correspondiente en la distribución dada por S0. El problema de la

inferencia se reduce entonces a obtener los estimadores adecuados β0, β1 y σ. Estos modelos

han sido estudiados con detalle en Nelson (1990) y Meeker & Escobar (1998).

Aunque la mayoría de los trabajos en estos temas expresan el modelo de tiempo de vida

acelerada en términos de la media y determinan que la media del logaritmo del tiempo de

supervivencia se relaciona linealmente con las covariables, el sesgo causado por la censura

sugiere un procedimiento más robusto, y por lo tanto la mediana ofrece una alternativa

más conveniente. El modelo de regresión de la mediana con censura ha recibido reciente-

mente mucha atención, véase por ejemplo, los trabajos de Ying et al. (1995), Yang (1999),

Honoré, Khan & Powell (2002), Cho & Hong (2008), Zhao & Chen (2008), y Wang & Wang

(2009). Para una presentación completa de la teoría de regresión de cuantiles con datos no

censurados, véase a Koenker (2005).

3.2. Estimación del modelo AFT paramétrico

La función de supervivencia de Ti puede expresarse mediante la función de supervivencia

de εi, donde (ε = σεi), de la forma

Si(t) = P (Ti ≥ t) = P (ln Ti ≥ ln t) =

= P (β1X1i + β2X2i + · · ·+ βpXpi + σεi ≥ ln t) =

= P

(εi ≥ ln t− βXi

σ

)= Sεi

(ln t− βXi

σ

)=

= Sεi

(ln t− µ(Xi)

σ

)(3.7)

El modelo de tiempo de vida acelerada se ajusta utilizando el método de la máxima verosi-

militud. La verosimilitud de n observaciones de tiempos de vida, t1, t2, . . . , tn vienen dadas

por la expresión

L(µ, σ) =n∏

i=1

[fi(ti)]δi [Si(ti)]

1−δi ,

donde fi(ti) y Si(ti) son la función de densidad y de supervivencia respectivamente para el

i-ésimo individuo en el tiempo ti y δi es el indicador de censura para la i-ésima observación.

Utilizando la ecuación (3.7), se puede demostrar que la función de log-verosimilitud viene

Comparación de dos modelos de regresión en fiabilidad

Page 50: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 45

dada por la expresión

ln L(µ, σ) =n∑

i=1

[−δi ln(σti + δi ln fεi(zi) + (1− δi) ln Sεi

(zi))],

donde zi = (ln ti − β1X1i − β2X2i − · · · − βpXpi)/σ. La estimación máximo verosímil de

los parámetros desconocidos, µ, σ, β1, β2, . . . , βp, que pueden hallarse maximizando esta

función utilizando el método de Newton-Raphson, que es el mismo método que se utilizó

para maximizar la verosimilitud parcial en el modelo de CPH.

En la literatura reciente, se han propuesto varias aproximaciones para la estimación y la

inferencia del AFT. Los enfoques clásicos semi-paramétricos para el modelo AFT que hacen

hincapié en la estimación de los parámetros de regresión son el modelo de Buckley & James

(1979), el estimador de rangos, ver Jin, Lin, Wei & Ying (2003), el estimador de mínimos

cuadrados para datos censurados, ver Jin et al. (2006) o el estimador de mínimos cuadrados

ponderados de Stute (1999). A pesar de los avances teóricos, todas estas aproximaciones

son numéricamente complicadas y difíciles de implementar, especialmente cuando tenemos

un gran número de covariables.

3.3. Validación del modelo AFT paramétrico

Los métodos gráficos pueden utilizarse para validar si una distribución paramétrica

ajusta a los datos de supervivencia. En concreto si el tiempo sigue una distribución ex-

ponencial, una gráfica de ln[− ln S(t)] frente a ln t debería de mostrar una línea recta con

pendiente igual a la unidad. Si las gráficas no son del todo rectas entonces se mantiene

la hipótesis de riesgos proporcionales pero no lo hace para el modelo de Weibull. Si las

líneas para dos grupos son rectas pero no paralelas, la hipótesis del modelo de Weibull

es compatible, pero se violan las hipótesis de CPH y de AFT. La hipótesis del modelo

Loglogistico puede evaluarse gráficamente dibujando ln[(1 − S(t))/S(t)] frente a ln t. Si

la distribución de la función de supervivencia es loglogística, entonces el resultado de la

gráfica puede resultar ser una línea recta. Para la distribución Lognormal, la gráfica de

Φ−1[1 − S(t)] frente a ln t debería ser lineal. Todas estas gráficas se basan en la hipótesis

de que la muestra se escoge de una población homogénea, lo que implica que no se han

Comparación de dos modelos de regresión en fiabilidad

Page 51: Comparación de Dos Modelos de Regresión en Fiabilidad

46 Modelo de tiempo de vida acelerada

tenido en cuenta ciertas covariables. Por lo que estos métodos gráficos no son muy fiables

en la práctica. Existen otros métodos para validar el ajuste del modelo.

3.3.1. Mediante gráficos quantile-quantile plot (Q-Q plot)

Un método inicial para evaluar la fuerza de un modelo AFT es hacer las gráficas Q-Q

plot. Para cualquier valor de p en el intervalo (0, 100), el p-ésimo percentil es

t(p) = S−1

(100− p

100

).

Sea t0(p) y t1(p) el percentil p-ésimo estimado de la función de supervivencia de dos

grupos de datos de supervivencia. Los percentiles para los dos grupos pueden expresarse

de la forma

t0(p) = S−10

(100− p

100

), t1(p) = S−1

1

(100− p

100

),

donde S0(t) y S1(t) es la función de supervivencia para los dos grupos. Por lo que podemos

obtener

S1[t1(p)] = S0[t0(p)].

En el modelo AFT, S1(t) = S0(t/η), y entonces

S1[t1(p)] = S0[t1(p)/η].

Por tanto, tenemos

t0(p) = η−1t1(p)

Los percentiles de las distribuciones de supervivencia para los dos grupos pueden ser

estimados mediante las respectivas estimaciones de Kaplan-Meier de las funciones de su-

pervivencia. Una gráfica de los percentiles de la función de supervivencia estimada de

Kaplan-Meier para un grupo frente a otro debería dar una linea aproximadamente recta

a través del origen si el modelo AFT es apropiado. La pendiente de esta línea será una

estimación del factor aceleración η−1.

Comparación de dos modelos de regresión en fiabilidad

Page 52: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 47

3.3.2. Mediante el criterio de información de Akaike (AIC)

Podemos utilizar pruebas o criterios estadísticos para comparar todos estos modelos de

AFT. Los modelos anidados pueden compararse utilizando el test de razón de verosimilitud.

El modelo exponencial, el modelo de Weibull y el modelo Lognormal están anidados a

través del modelo gamma. Para comparar los modelos que no están anidados, el criterio de

información de Akaike (AIC) puede utilizarse en lugar del test de razón de verosimilitudes,

que viene definido como

AIC = −2l + 2(k + c),

donde l es la log-verosimilitud, k es el número de covariables en el modelo y c es el número

de parámetros auxiliares del modelo específico. La componente 2(k + c) puede considerarse

como una penalización si los parámetros no predictivos están en el modelo. Los valores más

pequeños del AIC indican un modelo mejor. Pero hay un problema en el uso del AIC en que

no hay pruebas estadísticas formales para comparar diferentes valores del AIC. Cuando dos

modelos presentan un AIC con valores similares, la elección del modelo puede ser difícil y

la verificación de modelos externos o los resultados anteriores pueden ser requeridos para

juzgar la verosimilitud relativa de los modelos en lugar de confiar sólo en los valores del

AIC .

3.3.3. Mediante el gráfico de los Residuos de Cox-Snell

Las gráficas de los residuos pueden utilizarse para validar la bondad de ajuste del

modelo. Los procedimientos basados en los residuos en el modelo AFT son particularmente

relevantes (como ya se vio) en el modelo de CPH. Una de las gráficas más utilizadas se

basan en la comparación de la distribución de los residuos de Cox-Snell con la distribución

exponencial unitaria exp(1). Los residuos de Cox-Snell para el i-ésimo individuo con tiempos

observados ti se definen de la forma

rcsi= H(ti|Xi) = − ln

[S(ti|Xi)

],

donde ti es el tiempo de supervivencia observado para el individuo i, Xi es el vector con los

valores de la covariable para el individuo i, y S(ti) es la función de supervivencia estimada

Comparación de dos modelos de regresión en fiabilidad

Page 53: Comparación de Dos Modelos de Regresión en Fiabilidad

48 Modelo de tiempo de vida acelerada

en el modelo ajustado. De la ecuación (3.7), la función de supervivencia estimada para el

i-ésimo individuo viene dada por

Si(t) = Sεi

(ln t− µ(Xi)

σ

),

donde µ y σ son los estimadores máximos verosímiles de µ y σ respectivamente, Sεi(ε) es

la función de supervivencia de εi en el modelo AFT, y

rsi=

ln t− µ(Xi)

σ,

son los llamados residuos estandarizados.

Los residuos de Cox-Snell pueden aplicarse en cualquier modelo paramétrico. Podemos

obtener la forma correspondiente de los residuos en el modelo AFT. Por ejemplo, bajo el

modelo Weibull, donde Sεi(ε) = exp(−eε), los residuos de Cox-Snell vienen entonces dados

por la expresión

rcsi= − ln

[S(ti)

]= − ln Sεi

(rsi) = exp(rsi

).

Si el modelo es apropiado, la gráfica de ln(− ln S(rcsi)) frente a ln rcsi

es una línea recta

con pendiente unitaria a través del origen.

Estos residuos nos llevan a los residuos de deviance para un modelo AFT en particular.

Puede utilizarse una gráfica de los residuos de deviance frente al tiempo de supervivencia

o variables explicativas para validar si hay tiempos particulares, o valores particulares de

las variables explicativas, para los que el modelo no ajusta bien.

Comparación de dos modelos de regresión en fiabilidad

Page 54: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 49

3.4. Ajuste del modelo AFT paramétrico para nuestrosdatos

Vamos a realizar el ajuste del modelo AFT mediante la función survreg del package

estadístico R. Comenzamos realizando el ajuste con todas las covariables supuestamente

influyentes presentes en nuestra base de datos, considerando el modelo de Weibull.

## Ajuste del modelo de vida acelerada para la distribución weibull ## aftm1<-survreg(formula=Surv(tiempo, estado)~longitud+diametro+material+presion+trafico+x80, data = datos, dist="weibull") summary(aftm1)

Call: survreg(formula = Surv(tiempo, estado) ~ longitud + diametro + material + presion + trafico + x80, data = datos, dist = "weibull") Value Std. Error z p (Intercept) 3.679350 0.083412 44.110 0.00e+00 longitud -0.000176 0.000194 -0.908 3.64e-01 diametro -0.000302 0.000214 -1.414 1.57e-01 materialUr 0.138444 0.038623 3.585 3.38e-04 presion -0.001169 0.001302 -0.897 3.69e-01 trafico 0.033382 0.027578 1.210 2.26e-01 x80 -0.722222 0.043004 -16.794 2.68e-63 Log(scale) -1.468342 0.043026 -34.127 2.98e-255 Scale= 0.23 Weibull distribution Loglik(model)= -1336.6 Loglik(intercept only)= -1453.7 Chisq= 234.1 on 6 degrees of freedom, p= 0 Number of Newton-Raphson Iterations: 9 n= 655

Figura 3.1: Ajuste del modelo AFT para todas las covariables.

Como vemos, se nos presentan covariables significativas como el material y el x80, cova-

riables significativas al igual que nos salieron en el modelo de CPH, por lo que haremos

será ajustar el modelo considerando el volumen (compuesto por longitud y diametro)

y también la ajustaremos para tres de las distribuciones más comunes en el análisis de

supervivencia y fiabilidad para estos datos, que son, la distribución Weibull, la Lognormal

y la Loglogística.

Comparación de dos modelos de regresión en fiabilidad

Page 55: Comparación de Dos Modelos de Regresión en Fiabilidad

50 Modelo de tiempo de vida acelerada

Para el modelo con distribución Weibull tenemos el ajuste

> ###### Re-ajuste del modelo de vida acelerada con weibull ###### > aftm2<-survreg(formula=Surv(tiempo, estado)~log(volumen)+strata(material)+x80, data = datos, dist="weibull") > summary(aftm2) Call: survreg(formula = Surv(tiempo, estado) ~ log(volumen) + strata(material) + x80, data = datos, dist = "weibull") Value Std. Error z p (Intercept) 3.6589 0.03003 121.85 0.00e+00 log(volumen) -0.0241 0.00725 -3.33 8.83e-04 x80 -0.7364 0.04114 -17.90 1.21e-71 material=FD -0.7738 0.09014 -8.58 9.15e-18 material=Ur -1.8037 0.04493 -40.15 0.00e+00 Scale: material=FD material=Ur 0.461 0.165 Weibull distribution Loglik(model)= -1280.2 Loglik(intercept only)= -1343.2 Chisq= 125.95 on 2 degrees of freedom, p= 0 Number of Newton-Raphson Iterations: 7 n= 655

Figura 3.2: Ajuste del modelo AFT con distribución Weibull.

Comparación de dos modelos de regresión en fiabilidad

Page 56: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 51

Para el modelo con distribución Lognormal tenemos el ajuste

> ## Re-ajuste del modelo de vida acelerada con lognormal ## > aftm3<-survreg(formula=Surv(tiempo, estado)~strata(material)+log(volumen)+x80, data = datos, dist="lognormal") > summary(aftm3) Call: survreg(formula = Surv(tiempo, estado) ~ strata(material) + log(volumen) + x80, data = datos, dist = "lognormal") Value Std. Error z p (Intercept) 3.6180 0.04144 87.3 0.00e+00 log(volumen) -0.0185 0.00977 -1.9 5.76e-02 x80 -0.8773 0.05370 -16.3 5.33e-60 material=FD -0.2165 0.07738 -2.8 5.15e-03 material=Ur -1.3771 0.04408 -31.2 3.02e-214 Scale: material=FD material=Ur 0.805 0.252 Log Normal distribution Loglik(model)= -1330.6 Loglik(intercept only)= -1421.5 Chisq= 181.79 on 2 degrees of freedom, p= 0 Number of Newton-Raphson Iterations: 5 n= 655

Figura 3.3: Ajuste del modelo AFT con distribución Lognormal.

Comparación de dos modelos de regresión en fiabilidad

Page 57: Comparación de Dos Modelos de Regresión en Fiabilidad

52 Modelo de tiempo de vida acelerada

Y para el modelo con distribución Loglogística tenemos el ajuste

> ## Re-ajuste del modelo de vida acelerada con loglogístico ## > aftm4<-survreg(formula=Surv(tiempo, estado)~strata(material)+log(volumen)+x80, data = datos, dist="loglogist") > summary(aftm4)

Call: survreg(formula = Surv(tiempo, estado) ~ strata(material) + log(volumen) + x80, data = datos, dist = "loglogist") Value Std. Error z p (Intercept) 3.5838 0.03511 102.07 0.00e+00 log(volumen) -0.0246 0.00837 -2.93 3.36e-03 x80 -0.7836 0.04907 -15.97 2.09e-57 material=FD -0.8974 0.09247 -9.70 2.89e-22 material=Ur -2.0779 0.05055 -41.11 0.00e+00 Scale: material=FD material=Ur 0.408 0.125 Log logistic distribution Loglik(model)= -1295.1 Loglik(intercept only)= -1368.9 Chisq= 147.7 on 2 degrees of freedom, p= 0 Number of Newton-Raphson Iterations: 5 n= 655

Figura 3.4: Ajuste del modelo AFT con distribución Loglogístico.

Como podemos ver en los tres casos tenemos las mismas covariables significativas, aunque

a simple vista podemos apreciar que hay alguno de ellos en el que los p-valores salen mucho

menores (más significativos) que otros, como son los modelos con distribución de Weibull

y Loglogística.

Comparación de dos modelos de regresión en fiabilidad

Page 58: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 53

Podemos comparar los tres modelos paramétricos anteriores de la forma

> anova(aftm2, aftm3, aftm4, test = "Chi") Terms Resid. Df -2*LL Test Df Deviance P(>|Chi|) los del modelo weibull 650 2560.375 NA NA NA los del modelo lognor 650 2661.245 0 -100.86941 NA los del modelo loglogís 650 2590.202 0 71.04307 NA

Figura 3.5: Comparación entre modelos paramétricos.

Como podemos ver, el modelo paramétrico que posee una menor -2*LL es el de la distri-

bución de Weibull, este es ligeramente mejor que los otros.

3.4.1. Validación del modelo

Vamos a validar el modelo como se ha explicado en teoría, de cuatro formas diferentes,

mediante la función de supervivencia, utilizando los gráficos QQPlots, mediante el criterio

de información de Akaike y utilizando las gráficas de los residuos de Cox-Snell.

Gráficos basados en la función de supervivencia

Realizaremos tres gráficos útiles con el fin de comprobar si la distribución de Weibull,

Lognormal y Loglogística son las adecuadas. Ambos se basan en las funciones de super-

vivencia. Si la distribución de Weibull es válida, vamos a esperar un patrón lineal en el

primer gráfico. Del mismo modo, si los tiempos de supervivencia siguen una distribución

Lognormal o Loglogística, la tendencia de los puntos en la segunda y tercera gráfica debería

ser lineal. Para realizar esto recurriremos a la función LIN.AFT(), para más detalle acerca

del algoritmo ver el Apéndice B.

Comparación de dos modelos de regresión en fiabilidad

Page 59: Comparación de Dos Modelos de Regresión en Fiabilidad

54 Modelo de tiempo de vida acelerada

> ### ajuste aft ### > p1<-survfit(Surv(tiempo, estado)~material,data=datos) > ### graficas de valoración de modelos mediante la función de supervivencia #### > par(mfrow=c(1,3)) > LIN.AFT(p1, dist="weibull") > LIN.AFT(p1, dist="lognormal") > LIN.AFT(p1, dist="loglogistic")

Figura 3.6: Comparación mediante la función de supervivencia entre los tres modelos.

Como podemos ver las distribuciones que mejor se aproximan a una línea recta son las de

Weibull y Loglogística para el tipo de material tUr (uralita). Como puede apreciarse, la

gráfica del modelo con la distribución Lognormal no sigue para ninguno de los dos tipos

de materiales la linealidad esperada.

Comparación de dos modelos de regresión en fiabilidad

Page 60: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 55

Mediante los gráficos QQPlots

Vamos a realizar el gráfico QQPlot para enfrentar los cuantiles de las dos categorías del

material, o sea tUr y tFD (uralita y fundación dúctil) para ver la apropiación del modelo.

Para ver el código del programa ir al Apéndice B.

> #### QQPlot para el material con datos censurados a la derecha ####

Figura 3.7: Gráfico QQPlot para ambos materiales.

Si el modelo AFT fuese apropiado para la covariable material, la recta ajustada a los puntos

“cuantiles tFD” frente a “cuantiles tUr” debería pasar por el origen y la pendiente de la

recta daría una estimación del factor de aceleración. En este caso la recta de regresión que

estimamos con la orden lm() no pasa por el origen por lo tanto podemos sospechar que un

modelo de tiempo de vida acelerada de la forma tUr = φtFD, no es apropiado. Por esto

parece ser una buena decisión considerar los dos grupos de material por separado y ajustar

Comparación de dos modelos de regresión en fiabilidad

Page 61: Comparación de Dos Modelos de Regresión en Fiabilidad

56 Modelo de tiempo de vida acelerada

en cada grupo un modelo de tiempo de vida acelerada considerando como factor de riesgo

el volumen.

Vamos a realizar los gráficos de (zi, ei) para probar la adecuación del modelo supuesto,

siendo ei el i-ésimo residuo estándar ordenado y zi el cuantil estándar correspondiente de

cualquiera de las distribuciones de Weibull, Loglogística o Lognormal. Si el modelo bajo

estudio es apropiado, los puntos de la gráfica (zi, ei), debería ser una recta con pendiente

aproximada a la bisectriz del primer cuadrante.

Para realizar lo anterior, vamos a utilizar la función qq.reg.resid.r(), para más

información al respecto ver el Apéndice B.

Separamos como hemos dicho antes, los datos en dos, según el material sea uralita o

fundición dúctil, y realizamos los QQPlots correspondientes:

Comparación de dos modelos de regresión en fiabilidad

Page 62: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 57

> ### QQPlot para el material tUr ### > fitweib1<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull", data=tUr) > fitlognorm1<-survreg(Surv(tiempo, estado)~log(volumen), dist="lognormal", data=tUr) > fitloglog1<-survreg(Surv(tiempo, estado)~log(volumen), dist="loglogist", data=tUr) > > par(mfrow=c(1,3)) > qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitweib1, "qweibull","Valores estremos estandar (cuantiles)") [1] "qq.reg.resid:done" > qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitlognorm1, "qnorm","Normal estandar (cuantiles)") [1] "qq.reg.resid:done" > qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitloglog1, "qlogis","Logística (cuantiles)") [1] "qq.reg.resid:done" >

Figura 3.8: Gráficos QQPlots de (zi, ei) para el material tUr.

Comparación de dos modelos de regresión en fiabilidad

Page 63: Comparación de Dos Modelos de Regresión en Fiabilidad

58 Modelo de tiempo de vida acelerada

Como podemos apreciar los datos que mejor se ajustan a la recta que pasa por el origen son

los del modelo con distribución de Weibull seguido por el de la distribución Loglogística,

aunque las tres en general presenta una forma adecuada para el material tUr.

Comparación de dos modelos de regresión en fiabilidad

Page 64: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 59

Si realizamos lo mismo pero en este caso con el material fundición dúctil tenemos:

> ### para el material tFD ### > fitweib2<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull", data=tFD) > fitlognorm2<-survreg(Surv(tiempo, estado)~log(volumen), dist="lognormal", data=tFD) > tFD2<-tFD[-163,] > fitloglog2<-survreg(Surv(tiempo, estado)~log(volumen), dist="loglogist", data=tFD) > > par(mfrow=c(1,3)) > qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitweib2, "qweibull","Valores estremos estandar (cuantiles)") [1] "qq.reg.resid:done" > qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitlognorm2, "qnorm","Normal estandar (cuantiles)") [1] "qq.reg.resid:done" > qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitloglog2, "qlogis","Logística (cuantiles)") [1] "qq.reg.resid:done" >

Figura 3.9: Gráficos QQPlots de (zi, ei) para el material tFD.

Comparación de dos modelos de regresión en fiabilidad

Page 65: Comparación de Dos Modelos de Regresión en Fiabilidad

60 Modelo de tiempo de vida acelerada

Apreciamos una similitud con respecto al otro material en la comparación de cada modelo, o

sea, apreciamos también que el modelo con distribuciones de Weibull y Loglogística ajustan

mejor los datos que el Lognormal, aunque en general los tres presentan buena forma.

Mediante el criterio de información de Akaike (AIC)

Como se explicó en teoría, cuanto menor sea el valor de este estadístico, mejor será el

modelo.

En el entorno R, este criterio viene implementado por la función extractAIC, ver

Venables & Ripley (2002), y nos proporciona las siguientes salidas:

> ### criterio de información de AIC ### > > extractAIC(aftm2) [1] 5.000 2570.375 > extractAIC(aftm3) [1] 5.000 2671.245 > extractAIC(aftm4) [1] 5.000 2600.202

Figura 3.10: AIC del modelo AFT para las tres distribuciones.

Como podemos ver, el menor de los estadísticos corresponde al ajuste aftm2 que corres-

ponde al modelo con distribución de Weibull, seguido muy de cerca por el ajuste aftm4 que

corresponde al modelo con la distribución Loglogística. Esto corrobora nuestra validación

anterior mediante los QQPlots arrojando conclusiones similares.

Comparación de dos modelos de regresión en fiabilidad

Page 66: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 61

También podemos validar con el AIC conjuntamente, la adecuación del modelo para-

métrico AFT con distribución de Weibull junto con el de CPH, ya que consideramos el de

Weibull un modelo anidado al de Cox, por lo que

> ###### Criterio de información de AIC para modelo de Weibull y ##### ####################### para el modelo PH de Cox ##################### > > extractAIC(aftm2) [1] 5.000 2570.375 > extractAIC(cox2) [1] 2.000 2978.588

Figura 3.11: AIC para el modelo con distribución de Weibull y para el modelo de PH deCox.

Como podemos apreciar el menor de los dos valores de los AIC corresponde al modelo AFT

con distribución de Weibull.

Mediante el gráfico de los residuos de Cox-Snell

Para realizar esta validación operaremos de la siguiente forma, primero realizaremos los

residuos de Cox-Snell para las tres distribuciones de Weibull, Lognormal y Loglogística.

Después separaremos los datos en función de los materiales y realizando las gráficas de

los residuos de Cox-Snell enfrentados al riesgo acumulado en cada caso, de esta forma

realizaremos una valoración global del modelo. Para ver el algoritmo en R que implementa

los siguientes gráficos ver Apéndice B.

Comparación de dos modelos de regresión en fiabilidad

Page 67: Comparación de Dos Modelos de Regresión en Fiabilidad

62 Modelo de tiempo de vida acelerada

> #### Residuos de Cox-Snell para los datos ####

Figura 3.12: Gráficos de residuos de los datos para las tres distribuciones.

Como podemos ver la recta a través del origen que mejor ajusta a los datos de los tres

modelos es la del modelo con distribución de Weibull.

Comparación de dos modelos de regresión en fiabilidad

Page 68: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 63

Ahora realizaremos lo mismo separando los datos en función de los materiales, para la

distribución de Weibull tenemos

> ############# Residuos para el modelo weibull ###############

Figura 3.13: Gráficos de residuos para la distribución de Weibull.

Comparación de dos modelos de regresión en fiabilidad

Page 69: Comparación de Dos Modelos de Regresión en Fiabilidad

64 Modelo de tiempo de vida acelerada

Para la distribución Lognormal tenemos

> ############## Residuos para el modelo lognormal ###############

Figura 3.14: Gráficos de residuos para la distribución Lognormal.

Comparación de dos modelos de regresión en fiabilidad

Page 70: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 65

Y para la distribución Loglogística

> ############## Residuos para el modelo loglogístico ################

Figura 3.15: Gráficos de residuos para la distribución Loglogística.

Como podemos apreciar, la recta a través del origen que mejor ajusta a los datos de los

tres modelos es la del modelo con distribución de Weibull para el material tUr (uralita),

seguido muy de cerca por el modelo con la distribución Loglogística que también presenta

un buen ajuste para los datos. Podemos decir que para ambos materiales el modelo con

distribución de Weibull es el que mejor ajusta a los datos o sea el más apropiado.

Comparación de dos modelos de regresión en fiabilidad

Page 71: Comparación de Dos Modelos de Regresión en Fiabilidad

66 Modelo de tiempo de vida acelerada

3.4.2. Elección e interpretación del modelo más apropiado

Según lo visto anteriormente, hemos decidido elegir el modelo paramétrico AFT con

distribución de Weibull como el más apropiado para nuestros datos ya que en todos los

casos de validación que se han visto (ya sea global o estratificado por material), los test así

nos lo han corroborado. Por lo que finalmente nos quedaremos con el modelo cuyo ajuste

es:

> ###### Re-ajuste del modelo de vida acelerada con weibull ###### > aftm2<-survreg(formula=Surv(tiempo, estado)~log(volumen)+strata(material)+x80, data = datos, dist="weibull") > summary(aftm2) Call: survreg(formula = Surv(tiempo, estado) ~ log(volumen) + strata(material) + x80, data = datos, dist = "weibull") Value Std. Error z p (Intercept) 3.6589 0.03003 121.85 0.00e+00 log(volumen) -0.0241 0.00725 -3.33 8.83e-04 x80 -0.7364 0.04114 -17.90 1.21e-71 material=FD -0.7738 0.09014 -8.58 9.15e-18 material=Ur -1.8037 0.04493 -40.15 0.00e+00 Scale: material=FD material=Ur 0.461 0.165 Weibull distribution Loglik(model)= -1280.2 Loglik(intercept only)= -1343.2 Chisq= 125.95 on 2 degrees of freedom, p= 0 Number of Newton-Raphson Iterations: 7 n= 655

Figura 3.16: Ajuste del modelo AFT con distribución de Weibull.

Es importante destacar que en los modelos de vida acelerada la interpretación de los

coeficientes β del modelo es diferente de los del modelo de CPH. El efecto de las covariables

(volumen, x80 y material) se analizan a partir del punto de vista del tiempo de fallo.

Vamos a aplicar la distribución de Weibull en el AFT ya que es el más apropiado en

nuestro caso debido seguramente a sus buenas propiedades en este tipo de análisis.

En la tabla anterior podemos ver en el ajuste, los valores de cada coeficiente de las

covariables , la exponencial de cada β, nos expresa el efecto de la correspondiente variable

Comparación de dos modelos de regresión en fiabilidad

Page 72: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 67

en el tiempo de fallo, el error estándar y el p-valor para cada uno de los coeficientes

El significado de los coeficientes β negativos puede interpretarse, por ejemplo, para el

volumen con un β negativo, como el tiempo de fallo es más pequeño en las tuberías con

mayor volumen que en las de menor volumen. Por el contrario si el coeficiente β fuese

positivo para el volumen diríamos que el tiempo de fallo es mayor en las tuberías con

mayor volumen. En nuestro caso tenemos todas los coeficientes de las covariables con β

negativos. Vamos a interpretar los β mediante sus exp(β) de la forma 1 − exp(β) en %.

por lo que tenemos:

Para la covariable volumen la disminución del tiempo de fallo en una diferencia 1 m3

de volumen es del 2.4 %.

Para la covariable x80 la disminución del tiempo de fallo para las tuberías instaladas

antes de 1980 es del 52.11 %.

Para la covariable material tenemos que, para la uralita la disminución del tiempo

de fallo es del 83.53 % y para la fundición dúctil tenemos que la disminución del

tiempo de fallo es del 53.87 %.

Como hemos visto en este caso la forma de interpretar los coeficientes es diferente a la del

modelo de CPH.

3.5. Modelo semi-paramétrico AFT para datos censura-dos

3.5.1. Estimador de Buckley-James

El modelo de regresión lineal, junto con el estimador de mínimos cuadrados, tiene un

papel fundamental en el análisis de datos. Para datos de tiempo potencialmente censurados,

el estimador de mínimos cuadrados no se puede calcular porque los tiempos de fallo son

desconocidos para las observaciones censuradas. Una serie de autores Miller (1976), Buckley

& James (1979), Koul et al (1981), ampliaron el principio de mínimos cuadrados para dar

cabida a la censura. El estimador de Miller, requiere que tanto el tiempo de censura como el

Comparación de dos modelos de regresión en fiabilidad

Page 73: Comparación de Dos Modelos de Regresión en Fiabilidad

68 Modelo de tiempo de vida acelerada

de fallo satisfagan al modelo de regresión, mientras que el estimador de Koul et al. (1981),

requiere que el tiempo de censura es independiente de las covariables. Miller & Halpern

(1982) encontraron que el estimador de Buckley-James es más fiable que los de Miller y

Koul et al.

En 1979 Buckley & James propusieron un estimador de mínimos cuadrados modificado.

Las propiedades teóricas del estimador de Buckley-James fueron investigadas por numero-

sos científicos como Ritov (1990) y Lai & Ying (1991). A pesar de los avances teóricos, el

modelo, en la práctica, es rara vez utilizado debido a su complejidad numérica. La función

de estimación del estimador de Buckley-James no es ni continua ni monótona y sus raíces

pueden no existir, ver James & Smith (1984). Como resultado de sus débiles requerimientos

en el mecanismo de censura y su comparable eficiencia con el clásico estimador de mínimos

cuadrados, el estimador de Buckley-James es una elección natural para el modelo de tiem-

po de vida acelerada. Aunque el algoritmo iterativo de Buckley & James presenta algunos

inconvenientes: Primero, no se garantiza la convergencia del algoritmo. Segundo, incluso si

el algoritmo convergiese, no está claro que nos lleve a un estimador consistente ya que los

resultados teóricos fueron establecidos basándose en la hipótesis de linealidad local. Ade-

más, la matriz de covarianzas del estimador de Buckley-James es difícil de obtener porque

implica a la función de riesgo no especificada del término del error no observado, que puede

no estar bien estimado mediante estimación no paramétrica con datos no censurados. La

dificultad numérica se incremente a la par que lo hacen las covariables del modelo.

Un paso clave en el algoritmo iterativo de Buckley-James es el estimador inicial. Como

se muestra en Ritov y Lai & Ying, la función de estimación a nivel local es asintóticamente

lineal.

Recordando el modelo de tiempo de vida acelerada visto anteriormente (AFT), supo-

nemos que tenemos una muestra aleatoria de n sujetos. Para i = 1, . . . , n, sea Ti y Ci el

tiempo de fallo y el tiempo de censura respectivamente para el i-ésimo sujeto, y sea Xi

el correspondiente p-vector de covariables. Como es habitual, suponemos que Ti y Ci son

independientes condicionadas a Xi. Los datos consisten en (Ti, δi, Xi) con i = 1, . . . , n,

Comparación de dos modelos de regresión en fiabilidad

Page 74: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 69

donde Ti = mın(Ti, Ci), δi = I[Ti ≤ Ci] y siendo I[·] la función indicadora.

δi =

{1 si Ti ≤ Ci

0 si Ti > Ci.

Si ponemos Yi = ln Ti. El modelo de regresión lineal semi-paramétrico toma la forma

Yi = XTi β + εi (3.8)

donde β es un p-vector de parámetros de regresión desconocidos, y εi con i = 1, . . . , n,

son los términos de error independiente con una común pero completamente inespecifica-

da función de distribución. La ecuación (3.8) es la comúnmente llamada AFT o modelo

de vida acelerada (Cox & Oakes (1984) y Kalbfleisch & Prentice (2002)). Este modelo es

intuitivamente atractivo, ya que proporciona una caracterización directa de los efectos de

las covariables en el tiempo de fallo. Se puede reemplazar la log-transformación del tiempo

de fallo en (3.8) por una transformación diferente.

Para datos no censurados, el estimador clásico de mínimos cuadrados se obtiene minimi-

zando la función objetivo1

n

n∑i=1

(Yi − α−XTi β)2 (3.9)

con respecto a α y β, donde α es la media de la distribución del error. La minimización de

(3.9) nos proporciona la siguiente expresión para la estimación de β

n∑i=1

(Xi −X)(Yi −XTi β) = 0, (3.10)

donde X =1

n

n∑i=1

Xi. Por supuesto, el estimador resultante posee una forma simple y su

matriz de covarianzas puede ser fácilmente estimada.

Con presencia de censura, los valores de Ti asociados con δi = 0 son desconocidos,

por lo que (3.10) no puede ser utilizada directamente para estimar a β. Buckley & James

modificaron la expresión (3.10) mediante la sustitución de cada Yi con E[Yi|Ti, δi, Xi] que

se aproxima de la forma

Yi(β) = δiYi + (1− δi)

∫ ∞

ei(β)

udFβ(u)

1− Fβ(ei(β))+ XT

i β

,

Comparación de dos modelos de regresión en fiabilidad

Page 75: Comparación de Dos Modelos de Regresión en Fiabilidad

70 Modelo de tiempo de vida acelerada

donde Yi = ln Ti, ei(β) = Yi −XTi β y Fβ es el estimador de Kaplan-Meier de F basada en

los datos transformados (ei(β), δi) con i = 1, . . . , n, esto es

Fβ(t) = 1−∏

i:ei(β)<t

1− δin∑

j=1

I [ej(β) ≥ ei(β)]

. (3.11)

Definimos

U(β, b) =n∑

i=1

(Xi −X)(Yi(b)−XTi β),

o

U(β, b) =n∑

i=1

(Xi −X)(Yi(b)− Y (b)− (Xi −X)T β

),

donde Y (b) =1

n

n∑i=1

Yi(b). Entonces el estimador de Buckley-James βBJ es la raíz de la

ecuación U(β, β) = 0. Es fácil ver que U(β, β) no es ni continua ni monótona en β. De este

modo resulta difícil de calcular el estimador, especialmente cuando β es multidimensional.

Podemos hacer algún comentario sobre el modelo:

1. Se deduce de los cálculos anteriores de que existen dos requisitos que se deben de

cumplir si se quiere utilizar el modelo de Buckley-James:

a) El modelo es lineal en los coeficientes

b) La distribución de los residuos no debería depender de los valores de las cova-

riables (homocedasticidad).

La comprobación de estos supuestos bajo censura puede resultar muy difícil, y

en algunos casos imposible.

2. Ya hemos mencionado anteriormente que, además de lo visto en el punto (1.a) an-

terior, no se realizan más hipótesis con respecto a la distribución residual. Esta es

la principal diferencia entre el modelo de Buckley-James y los modelos de tiempo de

vida acelerada paramétricos.

Comparación de dos modelos de regresión en fiabilidad

Page 76: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 71

3. Debido a la naturaleza discreta de la función de distribución Fβ(u) el modelo no

siempre converge, sino que puede oscilar entre dos o más valores. El promedio de estos

valores se toma como la estimación de un coeficiente de regresión. Las oscilaciones

son generalmente insignificantes en la práctica.

Una vez que decidimos no utilizar el modelo de CPH para un problema dado, existen

todavía muchas opciones que pueden ser consideradas, antes que el modelo de Buckley-

James, como son la familia de modelos paramétricos de tiempo de vida acelerada que se

han tratado anteriormente.

3.5.2. Estimador de mínimos cuadrados para datos censurados

En el 2006, Jin et al., desarrollaron un nuevo procedimiento de estimación basado

en el principio de mínimos cuadrados a través de rigurosas justificaciones teóricas. El

nuevo procedimiento nos lleva a una clase de estimadores consistentes y asintóticamente

normales. Además, el nuevo procedimiento estima también a la matriz de covarianzas de

los estimadores consistentes a través de una aproximación por remuestreo.

Siguiendo con los estudios de Buckley & James, podemos “linealizar” la función de

estimación primeramente fijando un valor b y entonces resolviendo la ecuación U(β, b) = 0

para β. Esta operación nos lleva a β = L(b) donde

β = L(b) =

[n∑

i=1

(Xi −X)⊗2

]−1 [n∑

i=1

(Xi −X)(Yi(b)− Y (b)

)].

donde a⊗0 = 1, a⊗1 = a y a⊗2 = aaT . Siguiendo este procedimiento se llega a un algoritmo

iterativo simple

β(m) = L(β(m−1)

), m ≥ 1 (3.12)

Se puede demostrar a través de los estudios de Lai & Ying (1991), que L(b) es asintóti-

camente lineal en b. De este modo, si elegimos un estimador consistente de β0 como valor

inicial en (3.12), entonces, para cualquier m fijado, β(m) debería también ser consistente.

Además, se espera que β(m) sea normal asintóticamente hablando si el estimador inicial es

asintóticamente normal.

Comparación de dos modelos de regresión en fiabilidad

Page 77: Comparación de Dos Modelos de Regresión en Fiabilidad

72 Modelo de tiempo de vida acelerada

Un estimador inicial asintóticamente normal y consistente de β0 puede ser obtenido por

el método rank-based de Jin et al.,(2003). Establecemos al estimador inicial β(0) como el

estimador de tipo Gehan, de Gehan E.A. (1965), β(G), que puede ser calculado minimizando

la función convexan∑

i=1

n∑j=1

δi (ei(β)− ej(β))− ,

donde a− = I [a < 0] |a|. Esta minimización es un simple problema de programación li-

neal (Jin et al.,(2003)). Dado β(0), la iteración en (3.12) implica cálculos triviales de los

estimadores de mínimos cuadrados.

Se puede demostrar que, para cada m fijada, β(m) es asintóticamente normal y consis-

tente. Además, β(m) es asintóticamente una combinación lineal del estimador de Gehan βG

y del estimador de Buckley-James βBJ en que

β(m) =(I−D−1A

)mβG +

(I− (

I−D−1A)m)

βBJ + op

(n−1/2

)(3.13)

donde I es la matriz identidad, D = lımn→∞

1

n

n∑i=1

(Xi −X

)⊗2 es la matriz pendiente de la

función de estimación de mínimos cuadrados para datos no censurados, y A es la matriz

pendiente de la función estimada de Buckley-James.

Cuando el nivel de la censura se reduce a cero la matriz A se aproxima a D. Entonces

el primer término en el lado derecho de la ecuación (3.13) se vuelve insignificante y cada

β(m) aproxima al estimador de mínimos cuadrados. Si el algoritmo iterativo dado en (3.12)

converge, entonces el límite resuelve exactamente la ecuación original de Buckley-James.

Incluso si la secuencia iterativa no converge, los estimadores siguen siendo consistentes y

asintóticamente normales. En términos de una gran muestra el comportamiento caracteri-

zado por (3.13), se puede demostrar que, si la función de riesgo λ(y) del error de distribución

es no decreciente en y, como es el caso en particular con las distribuciones Normal, Logís-

tica y doble exponencial, cuando la matriz D−A es definida no-negativa, que implica que

(I−D−1A)m se aproxima a 0 o β(m) se aproxima a βBJ cuando m tiende a ∞.

Se deduce que de (3.13) tenemos que β(m) es asintóticamente normal. Dado que las

matrices de covarianza están limitadas, tanto a βG como a βBJ implican a la función de

riesgo desconocida λ(·), la limitación de la matriz de covarianzas β(m) también lo hace. De

Comparación de dos modelos de regresión en fiabilidad

Page 78: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 73

este modo, desarrollamos un procedimiento de remuestreo para aproximar la distribución

de β(m).

Sea β∗G minimizada de la forma

n∑i=1

n∑j=1

ZiZjδi (ei(β)− ej(β))− ,

donde Zi con i = 1, . . . , n, son variables aleatorias independientes y positivas con E[Zi] =

var[Zi] = 1. Esto es una leve modificación del trabajo de Jin et al. (2003). Además definimos

L∗(b) =

[n∑

i=1

Zi(Xi −X)⊗2

]−1 [n∑

i=1

Zi(Xi −X)(Y ∗

i (b)− Y∗(b)

)],

donde

Y ∗i (b) = δiYi + (1− δi)

∫ ∞

ei(b)

udF ∗b (u)

1− F ∗b (ei(b))

+ XTi b

,

F ∗b (t) = 1−

i:ei(b)<t

1− Ziδin∑

j=1

ZjI [ej(b) ≥ ei(b)]

,

y Y∗(b) =

1

n

n∑i=1

Y ∗i (b). Finalmente, definimos la secuencia iterativa β∗(0) = β∗G y β∗(m) =

L∗(β∗(m−1)) con m ≥ 1.

Como hemos dicho antes, el valor inicial β∗(0) del proceso iterativo de β∗G, que es el minimi-

zador de

n∑i=1

n∑j=1

ZiZjδi |ei(β)− ej(β)|+∣∣∣∣∣M − βT

n∑

k=1

n∑

l=1

ZkZlδk(Xl −Xk)

∣∣∣∣∣ ,

donde M es un número especificado de antemano extremadamente grande.

Para la muestra aleatoria dada (Zi, . . . , Zn), el proceso de iteración β∗(k) = L∗(β∗(k−1))

nos conduce a β∗(k) con 1 ≤ k ≤ m. Mediante la generación de muestras aleatorias de

Comparación de dos modelos de regresión en fiabilidad

Page 79: Comparación de Dos Modelos de Regresión en Fiabilidad

74 Modelo de tiempo de vida acelerada

(Zi, . . . , Zn) repetidamente de N tiempos, podemos obtener N realizaciones de β∗(m), de-

notadas por β∗(m),j con j = 1, . . . , N . Para cada m ≥ 1, la matriz de covarianzas de β(m)

puede ser estimada de la forma

s2 =1

N − 1

N∑j=1

(β∗(m),j − β∗(m))(β

∗(m),j − β

∗(m))

T

donde β∗(m) =

1

N

N∑j=1

β∗(m),j, para más detalles ver Jin et al., (2006).

Comparación de dos modelos de regresión en fiabilidad

Page 80: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 75

3.6. Ajuste del modelo semi-paramétrico AFT para nues-tros datos

3.6.1. Estimador de Buckley-James

Vamos a realizar este ajuste mediante la sentencia bj() del paquete Design del entorno

R, ver Stare et al., (2001). Se realiza simplemente con la sentencia:

> ###### Buckley-James ###### > buckley<-bj(formula=Surv(tiempo, estado)~presion+trafico+log(volumen)+strata(material)+x80, + data = datos, + link="ident", method="fit", x=TRUE, y=TRUE) > buckley Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ presion + trafico + log(volumen) + strata(material) + x80, data = datos, link = "ident", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 655 Regression d.f. 5 g 7.965 Events 324 sigma 7.3581 d.f. 318 Coef S.E. Wald Z Pr(>|Z|) Intercept 31.3019 2.5599 12.23 <0.0001 presion -0.0033 0.0385 -0.09 0.9311 trafico 0.9369 0.8274 1.13 0.2575 volumen -0.4265 0.2875 -1.48 0.1380 material=material=Ur 5.9602 1.1849 5.03 <0.0001 x80 -18.2700 1.3612 -13.42 <0.0001

Figura 3.17: Ajuste del modelo de Buckley-James.

Comparación de dos modelos de regresión en fiabilidad

Page 81: Comparación de Dos Modelos de Regresión en Fiabilidad

76 Modelo de tiempo de vida acelerada

Realizando el mismo ajuste pero eliminando las covariables que menos significativas nos

han salido como son la presion y el trafico tenemos:

> #### Buckley-James reducido #### > buckleyred<-bj(formula=Surv(tiempo, estado)~log(volumen)+strata(material)+x80, + data = datos, + link="ident", method="fit", x=TRUE, y=TRUE) > buckleyred Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ log(volumen) + strata(material) + x80, data = datos, link = "ident", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 655 Regression d.f. 3 g 7.853 Events 324 sigma 7.3360 d.f. 320 Coef S.E. Wald Z Pr(>|Z|) Intercept 32.7504 1.5495 21.14 <0.0001 volumen -0.3818 0.2820 -1.35 0.1758 material=material=Ur 5.7153 1.1610 4.92 <0.0001 x80 -18.2203 1.3511 -13.49 <0.0001

Figura 3.18: Ajuste del modelo de Buckley-James con las covariables significativas.

De nuevo se nos presenta el caso en el que la covariable volumen no es significativa por lo

que focalizaremos nuestra atención en las covariables material y x80, por lo que tendremos

nuevamente el ajuste:

Comparación de dos modelos de regresión en fiabilidad

Page 82: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 77

> #### Buckley-James reducido final #### > buckleyfin<-bj(formula=Surv(tiempo, estado)~strata(material)+x80, + data = datos, + link="ident", method="fit", x=TRUE, y=TRUE) > buckleyfin

Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ strata(material) + x80, data = datos, link = "ident", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 655 Regression d.f. 2 g 7.575 Events 324 sigma 7.2892 d.f. 321 Coef S.E. Wald Z Pr(>|Z|) Intercept 34.2339 1.0939 31.30 <0.0001 material=material=Ur 5.8957 1.1535 5.11 <0.0001 x80 -18.3271 1.3332 -13.75 <0.0001

Figura 3.19: Ajuste final del modelo de Buckley-James con las covariables significativas.

Vamos a realizar un nuevo ajuste sin considerar la presion ni el trafico, separando de

igual forma que en el caso paramétrico el material en tUr y en tFD, para observar el ajuste

a ver que conclusiones podemos obtener. Por lo que tendremos:

Comparación de dos modelos de regresión en fiabilidad

Page 83: Comparación de Dos Modelos de Regresión en Fiabilidad

78 Modelo de tiempo de vida acelerada

> ##### Ajuste de Buckley-James para tUr ##### > buckley2<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data = tUr, + link="ident", method="fit", x=TRUE, y=TRUE ) > print.bj(buckley2) Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tUr, link = "ident", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 492 Regression d.f. 2 g 2.707 Events 246 sigma 7.2692 d.f. 243 Coef S.E. Wald Z Pr(>|Z|) Intercept 36.9755 1.3981 26.45 <0.0001 volumen -0.6870 0.3355 -2.05 0.0406 x80 -19.1622 2.2478 -8.52 <0.0001

Figura 3.20: Ajuste del modelo de Buckley-James para tUr.

Podemos interpretar el efecto de las covariables de este modelo, de la forma:

Para la covariable volumen la disminución del tiempo de fallo en una diferencia 1 m3

de volumen es del 49.69 %.

Para la covariable x80 la disminución del tiempo de fallo para las tuberías instaladas

antes de 1980 es del 99 %.

Volvemos a hacer hincapié en el hecho de que la covariable x80 nos da un valor tan elevado

probablemente debido al efecto de no haber considerado el truncamiento por la izquierda.

Comparación de dos modelos de regresión en fiabilidad

Page 84: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 79

Ahora considerando el material tFD tenemos el ajuste de la forma

> ##### Ajuste de Buckley-James para tFD ##### > buckley4<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data = tFD, + link="log", method="fit", x=TRUE, y=TRUE ) > print.bj(buckley4) Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tFD, link = "log", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 163 Regression d.f. 2 g 0.550 Events 78 sigma 0.6587 gr 1.733 d.f. 75 Coef S.E. Wald Z Pr(>|Z|) Intercept 3.6503 0.2095 17.43 <0.0001 volumen 0.0056 0.0458 0.12 0.9021 x80 -1.1162 0.1523 -7.33 <0.0001

Figura 3.21: Ajuste del modelo de Buckley-James para tFD.

Como podemos apreciar en este caso, la covariable volumen no nos ha salido significativa,

por lo que para este caso tendremos que considerar sólo la covariable x80. Nuevamente se

nos presenta un ajuste de la forma

Comparación de dos modelos de regresión en fiabilidad

Page 85: Comparación de Dos Modelos de Regresión en Fiabilidad

80 Modelo de tiempo de vida acelerada

> buckley6<-bj(formula=Surv(tiempo, estado)~x80, data = tFD, + link="log", method="fit", x=TRUE, y=TRUE ) > print.bj(buckley6) Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ x80, data = tFD, link = "log", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 163 Regression d.f. 1 g 0.545 Events 78 sigma 0.6548 gr 1.725 d.f. 76 Coef S.E. Wald Z Pr(>|Z|) Intercept 3.6347 0.1091 33.30 <0.0001 x80 -1.1143 0.1487 -7.49 <0.0001

Figura 3.22: Re-ajuste del modelo de Buckley-James para tFD.

Como podemos apreciar, no se nos presenta un buen ajuste para el tipo de material fun-

dición dúctil (tFD), la única covariable significativa para este caso es la covariable que

depende del año de instalación de la tubería (x80).

3.6.2. Estimador de mínimos cuadrados para datos censurados

Vamos a realizar este ajuste de mínimos cuadrados mediante la sentencia lss() del

paquete lss del entorno R, ver Huang & Jin (2007). Pasamos directamente a realizar el

ajuste a las covariables que nos han salido significativas en los casos anteriores

Comparación de dos modelos de regresión en fiabilidad

Page 86: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 81

> ### Ajuste de mínimos cuadrados para los datos ### > mcuad4<-lss(formula=Surv(tiempo, estado)~strata(material)+log(volumen)+x80, data=datos, + trace=T, mcsize=500, gehanonly=F, maxiter=50, + tolerance=0.001, cov = T, na.action = na.exclude) betag: 6.7811440 -0.3755889 -17.6720616 Iteration: 1 Beta: 6.0074328 -0.3838247 -18.0615900 Iteration: 2 Beta: 5.8017504 -0.3833769 -18.1618404 Iteration: 3 Beta: 5.738189 -0.382689 -18.199581 Iteration: 4 Beta: 5.7235912 -0.3824344 -18.2114342 Iteration: 5 Beta: 5.718821 -0.382359 -18.215878 Converged. Criteria Satisfied: 0.001 Call: lss(formula = Surv(tiempo, estado) ~ strata(material) + log(volumen) + x80, data = datos, trace = T, mcsize = 500, maxiter = 50, tolerance = 0.001, gehanonly = F, cov = T, na.action = na.exclude) Number of Observations: 655 Number of Events: 324 Number of Censored: 331 Number of Iterations: 5 Resampling Number: 500 Gehan Estimator: Estimate Std. Error Z value Pr(>|Z|) strata(material)material=Ur 6.7811440 1.020232 6.646671 2.997957e-11 log(volumen) -0.3755889 0.287801 -1.305030 1.918826e-01 x80 -17.6720616 1.214418 -14.551875 0.000000e+00 Gehan Covariance Matrix: strata(material)material=Ur log(volumen) x80 strata(material)material=Ur 1.04087261 -0.03615938 0.58613997 log(volumen) -0.03615938 0.08282939 -0.07715294 x80 0.58613997 -0.07715294 1.47481149 Least-Squares Estimator: Estimate Std. Error Z value Pr(>|Z|) strata(material)material=Ur 5.718821 1.1156563 5.125970 2.960092e-07 log(volumen) -0.382359 0.2800622 -1.365265 1.721699e-01 x80 -18.215878 1.2713900 -14.327530 0.000000e+00 LSE Covariance Matrix: strata(material)material=Ur log(volumen) x80 strata(material)material=Ur 1.24468902 -0.01941822 0.86823722 log(volumen) -0.01941822 0.07843483 -0.07453969 x80 0.86823722 -0.07453969 1.61643247

Figura 3.23: Ajuste del modelo de mínimos cuadrados con las covariables significativas.

Comparación de dos modelos de regresión en fiabilidad

Page 87: Comparación de Dos Modelos de Regresión en Fiabilidad

82 Modelo de tiempo de vida acelerada

Al igual que en caso anterior vamos a separar de igual forma que en el caso paramétrico

el material en tUr y en tFD. Por lo que tendremos:

> ### Ajuste de mínimos cuadrados para el material tUr ### > mcuad1<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tUr, + trace=T, mcsize=500, gehanonly=F, maxiter=50, + tolerance=0.001, cov = T, na.action = na.exclude) betag: -0.687385 -18.818601 Iteration: 1 Beta: -0.6873417 -19.0569426 Iteration: 2 Beta: -0.6880548 -19.1349082 Iteration: 3 Beta: -0.6880696 -19.1627678 Iteration: 4 Beta: -0.6880649 -19.1744265 Converged. Criteria Satisfied: 0.001 Call: lss(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tUr, trace = T, mcsize = 500, maxiter = 50, tolerance = 0.001, gehanonly = F, cov = T, na.action = na.exclude) Number of Observations: 492 Number of Events: 246 Number of Censored: 246 Number of Iterations: 4 Resampling Number: 500 Gehan Estimator: Estimate Std. Error Z value Pr(>|Z|) log(volumen) -0.687385 0.3015323 -2.27964 0.02262905 x80 -18.818601 1.6775807 -11.21770 0.00000000 Gehan Covariance Matrix: log(volumen) x80 log(volumen) 0.09092170 -0.06861122 x80 -0.06861122 2.81427716 Least-Squares Estimator: Estimate Std. Error Z value Pr(>|Z|) log(volumen) -0.6880649 0.2833069 -2.428691 0.01515344 x80 -19.1744265 1.7166712 -11.169540 0.00000000 LSE Covariance Matrix: log(volumen) x80 log(volumen) 0.08026280 -0.06445246 x80 -0.06445246 2.94695991

Figura 3.24: Ajuste del modelo de mínimos cuadrados para tUr.

Comparación de dos modelos de regresión en fiabilidad

Page 88: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 83

Considerando el estimador de Gehan o el de mínimos cuadrados dados en las salidas del

ajuste anterior podemos interpretar el efecto de las covariables de este modelo, de la forma:

Para la covariable volumen la disminución del tiempo de fallo en una diferencia 1 m3

de volumen es del 49.74 %.

Para la covariable x80 la disminución del tiempo de fallo para las tuberías instaladas

antes de 1980 es del 99 %.

Como podemos ver, las conclusiones y los resultados son casi idénticos a los del modelo de

Buckley-James. Volvemos a hacer hincapié en el hecho de que la covariable x80 nos da un

valor tan elevado probablemente debido al efecto de no haber considerado el truncamiento

por la izquierda.

Comparación de dos modelos de regresión en fiabilidad

Page 89: Comparación de Dos Modelos de Regresión en Fiabilidad

84 Modelo de tiempo de vida acelerada

Para el material tFD tenemos el ajuste

> ### Ajuste de mínimos cuadrados para el material tFD ### > mcuad2<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tFD, + trace=T, mcsize=500, gehanonly=F, maxiter=50, + tolerance=0.001, cov = T, na.action = na.exclude) betag: 0.328691 -17.486119 Iteration: 1 Beta: 0.2783885 -17.6186183 Iteration: 2 Beta: 0.2715742 -17.6311282 Iteration: 3 Beta: 0.2707383 -17.6369316 Iteration: 4 Beta: 0.2704592 -17.6398482 Iteration: 5 Beta: 0.2703833 -17.6413343 Converged. Criteria Satisfied: 0.001 Call: lss(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tFD, trace = T, mcsize = 500, maxiter = 50, tolerance = 0.001, gehanonly = F, cov = T, na.action = na.exclude) Number of Observations: 163 Number of Events: 78 Number of Censored: 85 Number of Iterations: 5 Resampling Number: 500 Gehan Estimator: Estimate Std. Error Z value Pr(>|Z|) log(volumen) 0.328691 0.5083365 0.6466011 0.5178902 x80 -17.486119 1.6056723 -10.8902163 0.0000000 Gehan Covariance Matrix: log(volumen) x80 log(volumen) 0.2584060 -0.2080217 x80 -0.2080217 2.5781836 Least-Squares Estimator: Estimate Std. Error Z value Pr(>|Z|) log(volumen) 0.2703833 0.5369633 0.5035414 0.6145837 x80 -17.6413343 1.7085912 -10.3250760 0.0000000 LSE Covariance Matrix: log(volumen) x80 log(volumen) 0.2883296 -0.2789458 x80 -0.2789458 2.9192840

Figura 3.25: Ajuste del modelo de mínimos cuadrados para tFD.

Comparación de dos modelos de regresión en fiabilidad

Page 90: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 85

Como podemos ver la covariable volumen no nos sale significativa en este caso, por lo que

la eliminaremos la covariable volumen

> ## Ajuste de mínimos cuadrados sólo con x80 para el material tFD ## > mcuad3<-lss(formula=Surv(tiempo, estado)~x80, data=tFD, + trace=T, mcsize=500, gehanonly=F, maxiter=50, + tolerance=0.001, cov = T, na.action = na.exclude) betag: -17 Iteration: 1 Beta: -17.38947 Iteration: 2 Beta: -17.47548 Iteration: 3 Beta: -17.52001 Iteration: 4 Beta: -17.54307 Iteration: 5 Beta: -17.55501 Converged. Criteria Satisfied: 0.001 Call: lss(formula = Surv(tiempo, estado) ~ x80, data = tFD, trace = T, mcsize = 500, maxiter = 50, tolerance = 0.001, gehanonly = F, cov = T, na.action = na.exclude) Number of Observations: 163 Number of Events: 78 Number of Censored: 85 Number of Iterations: 5 Resampling Number: 500 Gehan Estimator: Estimate Std. Error Z value Pr(>|Z|) [1,] -17 1.592271 -10.67658 0 Gehan Covariance Matrix: [,1] [1,] 2.535327 Least-Squares Estimator: Estimate Std. Error Z value Pr(>|Z|) [1,] -17.55501 1.67535 -10.47841 0 LSE Covariance Matrix: [,1] [1,] 2.806798

Figura 3.26: Ajuste del modelo de mínimos cuadrados sólo con la covariable x80 para tFD.

Comparación de dos modelos de regresión en fiabilidad

Page 91: Comparación de Dos Modelos de Regresión en Fiabilidad

86 Modelo de tiempo de vida acelerada

Al igual que en el modelo de Buckley-James, no se nos presenta un buen ajuste para el

tipo de material fundición dúctil (tFD), la única covariable significativa para este caso es

la covariable que depende del año de instalación de la tubería (x80).

3.7. Comparación entre los modelos de CPH y AFT enanálisis de supervivencia

Como ya dijimos anteriormente, en el análisis de supervivencia, en general se nos van a

presentar observaciones censuradas, los métodos estadísticos usuales no pueden aplicarse a

estos tipos de datos. Como consecuencia, encontramos métodos específicos en la literatura

estadística para los datos de supervivencia. Si consideramos modelos de regresión los más

utilizados mundialmente son el modelo de CPH y el modelo de AFT.

El primero de estos y sus diversas generalizaciones se utiliza principalmente en campos

como el de la Medicina y la Bioestadística, mientras la otra alternativa (AFT), se utiliza

principalmente en teoría de la fiabilidad y en experimentos industriales.

El modelo de CPH se utiliza principalmente cuando la estimación y la inferencia sobre

los parámetros de interés son posibles sin asumir ningún tipo de función de riesgo base, esto

es, no es necesario especificar una distribución de supervivencia para modelar los efectos de

las covariables explicativas sobre la variable explicada. Sin embargo, este modelo se basa

en la hipótesis de riesgos proporcionales y quizás dicha hipótesis puede no mantenerse en

algunos estudios de supervivencia. Si esta hipótesis no se mantiene, no debemos utilizar el

modelo estándar de Cox ya que esto nos puede suponer la presencia de un gran sesgo y la

pérdida de poder en la estimación, todo esto puede verse en los trabajos de Abrahamowicz

et al. (1996) y Hess (1994). La mayoría de las técnicas de evaluación de la bondad de

ajuste en modelos de regresión de riesgos proporcionales y de los métodos de detección

de la violación del supuesto de riesgos proporcionales, pueden encontrarse en los estudios

de Nagelgerke et al. (1984), Wei (1984), Kay (1977), Hess (1995), Moreau et al. (1985),

Kooperberg et al. (1995) entre otros. En los años noventa varios métodos flexibles fueron

propuestos para tener en cuenta la suposición de no-proporcionalidad de riesgos como los

de Abrahamowicz et al. (1996), Hess (1994), Kooperberg et al. (1995), Gray (1992).

Comparación de dos modelos de regresión en fiabilidad

Page 92: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 87

Por otro lado, si consideramos los modelos de AFT, estos, pueden ser de bastante

interés porque se pueden escribir especificando una relación directa entre el logaritmo del

tiempo de supervivencia y las covariables explicativas, en el mismo sentido que el modelo

de regresión lineal múltiple. Sin embargo, su principal desventaja es que por lo general

la estimación de estos modelos se realiza asumiendo una distribución para el tiempo de

supervivencia o duración, que en la mayoría de los casos es desconocida.

La distribución semi-paramétrica en los modelos de AFT con una distribución de error

desconocida ha sido ampliamente estudiada en la literatura para datos censurados. En

particular, existen dos métodos que han recibido especial atención. Uno de ellos es el

estimador de Buckley-James que ajusta observaciones censuradas utilizando el estimador

de Kaplan-Meier. El otro método es el conocido estimador de rangos que viene motivado

por la función score de la verosimilitud parcial, ver por ejemplo, Prentice (1978), Buckley

& James (1979), Ritov (1990), Tsiatis (1990), Wei, Yin & Lin (1990) y Ying (1993) entre

otros.

Teniendo en cuenta que el modelo de CPH es el modelo principal de elección para los

datos de supervivencia, tal vez la pregunta es “¿Por qué no utilizar el modelo de CPH?”.

Presentamos aquí tres razones: Las razones principales para el uso del modelo de Backley-

James son:

1. El supuesto básico del modelo de CPH, o sea la proporcionalidad de los riesgos, no

siempre se cumple. A pesar de los excelentes diagnósticos que hay disponibles para

el modelo de CPH, este hecho es a menudo pasado por alto, probablemente porque

las alternativas involucran cálculos complejos.

2. Los resultados del ajuste con el modelo de CPH no permiten su uso con fines de

predicción. Para ser capaces de predecir esto, se necesita estimar el riesgo base, del

cual, no siempre se dispone.

3. Los resultados de los ajustes del modelo de CPH son a veces difíciles de explicar con

estadísticos y a consecuencia de esto tenemos que dar menos información directa de

los resultados del ajuste lineal en el tiempo o con el log-tiempo.

Comparación de dos modelos de regresión en fiabilidad

Page 93: Comparación de Dos Modelos de Regresión en Fiabilidad

88 Modelo de tiempo de vida acelerada

Sin embargo, el modelo de Buckley-James no es ampliamente usado en la práctica, prin-

cipalmente debido a las dificultades en el cálculo de los estimadores semi-paramétricos

mencionados antes, incluso en situaciones donde el número de covariables es relativamente

pequeño (Jin et al., (2003)). Para las covariables de grandes dimensiones, estos modelos

son aún más difíciles de aplicar, o sus versiones regularizadas, especialmente cuando la

selección de variables es necesaria junto con la estimación.

Una metodología bastante interesante es la propuesta de Stute (1999), que puede uti-

lizarse para estimar modelos de regresión lineales con observaciones censuradas. Esta pro-

puesta tiene buenas propiedades teóricas estudiadas también por Stute (1993) y (1996a) y

parece ser un modelo interesante para su uso en el análisis de supervivencia. El modelo pro-

puesto por Stute puede ser considerado como un modelo de AFT, pero con la característica

importante que nos permite estimar y hacer inferencia sobre los parámetros del modelo,

sin suponer la distribución de la variable tiempo de vida, por lo general desconocida. Por lo

tanto, se evita el problema de asumir una distribución de probabilidad específica, y desde

este punto de vista, se podría considerar una importante alternativa al modelo CPH.

Además, este modelo presenta varias ventajas al compararlo con el modelo de CPH:

No se necesita la verificación de la hipótesis de riesgos proporcionales.

Modeliza directamente el efecto de las covariables explicativas sobre la supervivencia,

por lo que la interpretación de los resultados es más clara y más fácil (en términos de

efectos sobre el tiempo de supervivencia, como en los modelos estadísticos clásicos,)

no como en los modelos de CPH, donde modelizamos el efecto de las covariables

en una probabilidad condicionada. Además, mediante el uso de esta metodología se

puede estimar la vida media residual de un sujeto que ya ha sobrevivido hasta el

tiempo t.

Es fácil de evaluar y puede extenderse para considerar situaciones más complejas,

como, por ejemplo, las interacciones entre las covariables y el tiempo de supervivencia

o considerar los efectos no paramétricos de algunas covariables o de covariables con

parámetros dependientes del tiempo.

Comparación de dos modelos de regresión en fiabilidad

Page 94: Comparación de Dos Modelos de Regresión en Fiabilidad

Modelo de tiempo de vida acelerada 89

Por lo tanto, puede ser de interés para comparar, bajo ciertas condiciones, la mejora de la

propuesta de Stute basada en el modelo semi-paramétrico de AFT. Dicha propuesta queda

pendiente en futuras líneas de investigación, ver Apéndice C.

3.8. Conclusiones

El modelo de regresión de CPH es el modelo mayoritariamente utilizado para analizar

el pronóstico de los factores en la investigación biomédica. Esto se debe probablemente al

hecho de que este modelo nos permite estimar y hacer inferencia sobre los parámetros sin

la presunción de ninguna distribución para los tiempos de vida, que a menudo suele ser

desconocida. Sin embargo, este modelo requiere el cumplimiento de la proporcionalidad

de riesgos, que no siempre se satisface para los datos. En estas situaciones, los modelos

de tiempos de vida acelerada AFT proporcionan una herramienta alternativa para ajustar

los datos. Además, bajo estos modelos podemos medir de forma directa el efecto de las

covariables explicativas sobre el tiempo de supervivencia y no sobre el concepto de razón de

riesgo que es la razón de dos probabilidades condicionadas, como hacíamos en el modelo de

CPH. Esta característica permite una interpretación de los resultados ya que los parámetros

miden el efecto de la covariable correspondiente con respecto a la media del tiempo de vida.

Realizados todos los cálculos necesarios para las valoraciones de ambos modelos se

puede concluir que las tuberías que tienen menos tendencia al fallo poseen las siguientes

características, como la disminución del volumen de la tubería, o que su material sea de

fundición dúctil, así como que la tubería fuese instalada después de 1980, como ya se

contrastó en el modelo de CPH.

Se han comparado dos modelos diferentes, el modelo semi-paramétrico de CPH y el

modelo paramétrico de tiempo de vida acelerada. Especialmente, el modelo de CPH y el

paramétrico de tiempo vida acelerada para tres de las distribuciones más comunes en el

ámbito de la fiabilidad y la supervivencia, como son la distribución deWeibull, la Lognormal

y la Loglogística.

Si tratamos el modelo de AFT mediante estimadores semi-paramétricos, se piensa que

el estimador de Buckley-James para el ajuste de modelos lineales para datos censurados

Comparación de dos modelos de regresión en fiabilidad

Page 95: Comparación de Dos Modelos de Regresión en Fiabilidad

90 Modelo de tiempo de vida acelerada

es una alternativa viable al modelo de CPH, y su uso puede ser mejor si se dispone de un

software adecuado. Sin embargo, la mejora del estimador de Buckley-James bajo censura

no ha sido aún lo suficientemente investigada, por lo que tenemos que tenerlo en cuenta

en nuestro caso. En teoría, se nos presentan dos estimadores, el de Gehan y el de mínimos

cuadrados, ambos son utilizados muy a menudo en el análisis de regresión lineal para datos

no censurados. El test de Wald para los coeficientes de regresión proporciona una guía de

ayuda para la selección de covariables en el modelo. Por otra parte, la manera de validar

la bondad de ajuste para este tipo de modelos de regresión lineal, es un tema aún abierto

que requiere de más investigación.

La comparación nos ha llevado a elegir al modelo de tiempo de vida acelerada

paramétrico con distribución de Weibull como el modelo que mejor ajusta a los

datos, según todos los criterios de bondad de ajuste mencionados en este trabajo. Además

nos va a interesar más la capacidad predictiva de este modelo en estudios posteriores.

Comparación de dos modelos de regresión en fiabilidad

Page 96: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice A

Detalle del software utilizado

Todo el análisis estadístico se ha llevado a acabo utilizando el software R, que se en-

cuentra disponible gratuitamente en:

http://www.r-project.org/

Se emplearon específicamente:

survival: Es un package de R para el análisis de supervivencia, específicamente de

este paquete se han utilizado la función Surv() empleada para crear un objeto de

tipo supervivencia (una variable). Hemos empleado también la función survfit(),

esta función permite crear curvas de supervivencia utilizando el método de Kaplan-

Meier (opción por defecto) o de Fleming y Harrington. También permite predecir

la función de supervivencia para modelos de Cox, o un modelo de tiempo de vida

acelerada. Utilizamos la función survreg() que permite ajustar modelos de regresión

paramétricos en análisis de supervivencia. Éstos son modelos localización y escala pa-

ra transformaciones de la variable tiempo. Las distribuciones que se pueden modelar

directamente a través de la función survreg son la Weibull, la exponencial, la Nor-

mal, la Lognormal, la Logística y la Loglogística. Utilizamos la función strata(), que

es una función especial usada en el contexto del modelo de supervivencia de Cox y en

AFT. Esta función identifica las variables de estratificación cuando ellas aparecen a

la derecha de una fórmula. También se ha utilizado la función coxph(), utilizada para

ajustar un modelo de riesgos proporcionales, en este trabajo se ha utilizado especí-

ficamente para obtener el modelo de riesgos proporcionales de Cox. Hemos utilizado

91

Page 97: Comparación de Dos Modelos de Regresión en Fiabilidad

92 Apéndice: Detalle del software utilizado

la función cox.zph() para verificar el supuesto de riesgos proporcionales del modelo

de Cox. Para más información sobre el package survival ver:

http://cran.r-project.org/web/packages/survival/survival.pdf

Design: Sirve para realizar modelos de regresión, gráficos, pruebas, validaciones, pre-

dicciones. Design es una colección de alrededor de 180 funciones que ayudan en el

tema de los modelos de regresión, especialmente en el campo de la Bioestadística

y la Epidemiología. También contiene nuevas funciones para modelos de regresión

binarios y logísticos y también posee una buena implementación para el modelo de

regresión múltiple de Buckley-James para datos censurados a la derecha e implemen-

ta una estimación de la máxima verosimilitud para modelos lineales y logísticos. El

package Design trabaja con casi cualquier modelo de regresión y está especialmente

creado para trabajar con modelos de regresión logísticos, con el modelo de Cox, con

el modelo de tiempo de vida acelerada, con modelos lineales ordinarios, con el mé-

todo de Buckley-James y con el método de mínimos cuadrados generalizados para

observaciones especialmente correlacionadas. En nuestro trabajo, hemos utilizado es-

pecialmente este package para el uso de la función bj() para el cálculo del estimador

de Buckley-James Para más información sobre el package Design ver:

http://cran.r-project.org/web/packages/Design/Design.pdf

eha: Se utiliza este package de R para el análisis de los eventos históricos en general:

En el muestreo de los conjuntos en riesgo en la regresión de Cox, las selecciones en

el diagrama de Lexis y en el bootstrapping. El ajuste de riesgos proporcionales para-

métricos con truncamiento a la izquierda y censura a la derecha para las familias de

distribución más comunes, los riesgos constantes a trozos, y los modelos discretos. El

modelo de regresión de AFT para datos truncados a la izquierda y censurados a la

derecha. La regresión binaria y de Poisson para datos agrupados, los efectos fijos y

aleatorios con el bootstrapping. En nuestro caso, el package eha nos propone alguna

extensión de la función coxph(). El package eha también nos propone una imple-

mentación alternativa del modelo de AFT, en particular con la función aftreg().

Comparación de dos modelos de regresión en fiabilidad

Page 98: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice: Detalle del software utilizado 93

Para más información sobre el package eha ver:

http://cran.r-project.org/web/packages/eha/eha.pdf

emplik: Se utiliza este package de R para realizar pruebas de razón de verosimili-

tud empírica para el análisis de riesgos/cuantiles/medias para datos censurados y/o

truncados, también para casos de regresión. Este package implementa una solución al-

ternativa para el estimador de Buckley-James mediante la función BJnoint sin tener

en cuenta el término independiente. Para más información sobre el package emplik

ver:

http://cran.r-project.org/web/packages/emplik/emplik.pdf

rms: Se utiliza este package de R para los modelos de regresión, pruebas de diagnós-

tico, estimaciones, validaciones, gráficos, predicciones, y la composición tipográfica

mediante el almacenamiento de los atributos de diseño en el ajuste. Éste package es

un conjunto de 229 funciones que ayudan a optimizar en la temática de los modelos

de regresión. También contiene funciones para modelos de regresión logística binaria

y ordinal, para el método de regresión múltiple de Buckley-James para datos con

censura a la derecha, y tiene una implementación penalizada del estimador máximo

verosímil para modelos lineales logísticos y ordinales. Éste package funciona con ca-

si cualquier modelo de regresión, pero fue creado especialmente para trabajar con

regresión logística binaria u ordinal, la regresión de Cox, el modelo de tiempo de vi-

da acelerada, los modelos lineales ordinarios, el método de Buckley-James, mínimos

cuadrados generalizados para observaciones en serie o especialmente correlaciona-

das, modelos lineales generalizados y regresión de cuantiles. Este package nos brinda

una solución alternativa para el cálculo del estimador de Buckley-James sin tener en

cuenta el término independiente. Para más información sobre el package rms ver:

http://cran.r-project.org/web/packages/rms/rms.pdf

lss: Se utiliza este package de R, básicamente para realizar el ajuste por mínimos

cuadrados del modelo AFT con datos censurados a la derecha, con la función con el

Comparación de dos modelos de regresión en fiabilidad

Page 99: Comparación de Dos Modelos de Regresión en Fiabilidad

94 Apéndice: Detalle del software utilizado

mismo nombre lss() como se ha hecho en nuestro trabajo. Para más información

sobre el package lss ver:

http://cran.r-project.org/web/packages/lss/lss.pdf

quantreg: Este package de R sirve para poder implementar el modelo de regresión

de cuantiles condicionado para datos censurados. Se ha utilizado para el cálculo de

la función quantile(). Para más información sobre el package quantreg ver:

http://cran.r-project.org/web/packages/quantreg/quantreg.pdf

Comparación de dos modelos de regresión en fiabilidad

Page 100: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice B

Códigos de las funciones utilizadas

####################################################################

######################### TRABAJO FIN DE MASTER ####################

####################################################################

####################################################################

######################## MODELO SEMI-PARAMETRICO ###################

####################################################################

###################### Modelo de Regresion de Cox ##################

#### Pasamos la base de datos del .txt al R ####

ejm1.dat<-read.table("C:/Users/Antonio Jesus

Lopez/Desktop/UNIVERSIDAD/MASTER EN ESTADISTICA APLICADA/TRABAJO DE

INVESTIGACION/Datos_Tuberia/tuberias.txt",header=TRUE)

#### Pasamos la variable volumen a m3 ####

ejm1.dat$volumen<-ejm1.dat$volumen/1000 ejm1.dat

#### Muestra las covariables que tenemos ####

95

Page 101: Comparación de Dos Modelos de Regresión en Fiabilidad

96 Apéndice: Códigos de las funciones utilizadas

names(ejm1.dat)

#### Covertimos los datos en forma de dataframe ####

datos<-as.data.frame(ejm1.dat) tUr<-datos[datos$material=="Ur",]

#selecciono las tuberias de uralita

tFD<-datos[datos$material=="FD",] #selecciono las tuberias de

#fundicion ductil

#### Realizamos la regresion de Cox ####

# volumen=longitud(m)*(diametro(m)/2)^2*pi=m3; suponemos que los

#tramos son rectos x80<-1 si se instalo despues de 1980, 0 en otro

#caso hacemos log(volumen) para centrar la variable

cox1<-coxph(Surv(tiempo,estado)~material+presion+trafico+log(volumen)+x80,

data=datos)

cox1

#### Una salida mas completa seria mediante la sentencia ####

summary(cox1)

#### Realizamos de nuevo la regresion de Cox con las variables

#### mas significativas ####

cox2<-coxph(Surv(tiempo, estado)~log(volumen)+strata(material)+x80,

data=datos, method=’breslow’)

summary(cox2)

Comparación de dos modelos de regresión en fiabilidad

Page 102: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice: Códigos de las funciones utilizadas 97

#### Funcion de Supervivencia ajustada mediante el modelo de Cox ###

summary(survfit(cox2))

#### Grafica de la Supervivencia estimada para el material ####

plot(survfit(Surv(tiempo,estado)~material,data=datos), xlab=’anos’,

ylim=c(0, 1), ylab=’Supervivencia’,lty = 1:4, col = 2:5,

main="Curvas de Supervivencia para el material")

legend("topright", legend=c("material=FD","material=Ur"), lty=1:4,

col=c("red","green"))

#### Grafica del riesgo estimado para el material ####

plot(survfit(Surv(tiempo,estado)~material,data=datos), fun="cumhaz",

xlab=’anos’, ylim=c(0, 4), ylab=’Riesgo acumulado’, lty = 1:4,

col = 2:5, main="Curvas de riesgo acumulado para el material")

legend("topright", legend=c("material=FD","material=Ur"), lty=1:4,

col=c("red","green"))

#### Supuesto de Riesgos Proporcionales ####

cox.zph(cox2)

################################################################

################### Analisis de los residuos ###################

################################################################

#### Residuos de Cox-Snell ####

Comparación de dos modelos de regresión en fiabilidad

Page 103: Comparación de Dos Modelos de Regresión en Fiabilidad

98 Apéndice: Códigos de las funciones utilizadas

estado<-datos$estado mresi<-residuals(cox2, type="martingale")

csresi<-estado-mresi

hazard.csresi<-survfit(Surv(csresi,estado)~1,type="fleming-harrington")

plot(hazard.csresi$time,-log(hazard.csresi$surv), xlab=’residuos de

Cox-Snell’, ylab=’riesgo acumulado’,lty = 1:4, main="Representacion

de los residuos de Cox-Snell") lines(c(0,5),c(0,5))

#### Residuos de martingala ####

mres<-residuals(cox2, type=c("martingale"))

plot(datos[,1], mres, xlab=c("log(volumen)")[1], ylab="Residuos martingale",

main="Residuos de Martingala")

abline(h=0, lty=2)

lines(lowess(datos[,1], mres, iter=0))

#### Residuos escalados de Schoenfeld ####

plot(cox.zph(cox2),var=1, main="Betas para log(volumen)")

plot(cox.zph(cox2),var=2, main="Betas para x80")

#### Residuos dfbeta ####

dfbeta <- residuals(cox2, type="dfbetas") par(mfrow=c(2,2))

for (j in 1:2){

plot(dfbeta[,j], ylab=names(coef(cox2))[j])

abline(h=0, lty=2, col=’black’)

lines(c(0,0),c(0,0)) }

Comparación de dos modelos de regresión en fiabilidad

Page 104: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice: Códigos de las funciones utilizadas 99

#### Residuos de deviance ####

devresi <- resid(cox2, type="deviance")

plot(cox2$linear.predictor, devresi, ylab="Residuos de Deviance",

main=’Residuos de deviance’)

abline(h=0,lty=2, col=’black’)

####################################################################

########################### MODELO PARAMETRICO #####################

####################################################################

################# MODELO DE TIEMPO DE VIDA ACELERADA AFT ###########

####################################################################

####################################################################

#### Ajuste del modelo de vida acelerada para la distribucion de

#### Weibull ####

aftm1<-survreg(formula=Surv(tiempo,estado)~longitud+diametro+material+

presion+trafico+x80, data = datos, dist="weibull")

summary(aftm1)

#### Re-ajuste del modelo de vida acelerada con Weibull ####

aftm2<-survreg(formula=Surv(tiempo,estado)~strata(material)+log(volumen)+x80,

data = datos, dist="weibull")

summary(aftm2)

Comparación de dos modelos de regresión en fiabilidad

Page 105: Comparación de Dos Modelos de Regresión en Fiabilidad

100 Apéndice: Códigos de las funciones utilizadas

#### Re-ajuste del modelo de vida acelerada con lognormal ####

aftm3<-survreg(formula=Surv(tiempo,estado)~strata(material)+log(volumen)+x80,

data = datos, dist="lognormal")

summary(aftm3)

#### Re-ajuste del modelo de vida acelerada con loglogistico ####

aftm4<-survreg(formula=Surv(tiempo,estado)~strata(material)+log(volumen)+x80,

data = datos, dist="loglogist")

summary(aftm4)

####################################################################

####################### Validacion de los modelos AFT ##############

####################################################################

#### Comparacion entre modelos mediante -2*LL ####

anova(aftm2, aftm3, aftm4, test = "Chisq")

#### Validacion mediante la funcion de supervivencia ####

LIN.AFT<-function(survfit.obj,dist="weibull",ylim=c(-3,1)) {

## Utiliza estimaciones de K-M para comprobar hipotesis de idoneidad

## para el modelo parametrico AFT.

## strata creara lineas rectas mas o menos paralelas bajo el modelo

## AFT con una distribucion correcta

n<-cumsum(survfit.obj$strata)

Comparación de dos modelos de regresión en fiabilidad

Page 106: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice: Códigos de las funciones utilizadas 101

logt<-log(survfit.obj$time)

if (dist=="weibull" | dist=="exponential")

{Sinv<-log(-log(survfit.obj$surv));ylab="ln(-ln(S))"}

else if (dist=="lognormal") {Sinv<-qnorm(1-survfit.obj$surv);

ylab="z(1-S)"}

else if (dist=="loglogistic") {Sinv<-log(1/survfit.obj$surv - 1);

ylab="ln(1/S - 1)"}

else stop("distribucion no reconocida por esta funcion")

plot(logt[1:n[1]],Sinv[1:n[1]],xlab="log(time)",ylab=ylab,ylim=ylim,

main=dist)

for (i in 2:length(n)) {

ind<-(n[i-1]+1):n[i]

points(logt[ind],Sinv[ind],pch=i)

}

legend(min(logt),max(ylim),names(survfit.obj$strata),pch=1:length(n))

}

#### ajuste AFT para este caso ####

p1<-survfit(Surv(tiempo, estado)~material,data=datos)

### graficas de valoracion de modelos mediante la funcion de

#supervivencia ####

par(mfrow=c(1,3))

LIN.AFT(p1, dist="weibull")

LIN.AFT(p1, dist="lognormal")

Comparación de dos modelos de regresión en fiabilidad

Page 107: Comparación de Dos Modelos de Regresión en Fiabilidad

102 Apéndice: Códigos de las funciones utilizadas

LIN.AFT(p1, dist="loglogistic")

### Weibull QQPlot para datos censurados a la derecha ###

n<-length(p1$surv) splt<-sum((1:(n-1))*(p1$surv[-n]<p1$surv[-1]))

ap<-p1$surv[1:splt] bp<-p1$surv[(splt+1):n] at<-p1$time[1:splt]

bt<-p1$time[(splt+1):n] max.c<-max(min(ap),min(bp))

times<-(1-max.c)*((0:99)/100)+max.c q1<-c() q2<-c() for (i in 1:100)

{

q1[i]<-at[(abs(ap-times[i]))==(min(abs(ap-times[i])))]

q2[i]<-bt[(abs(bp-times[i]))==(min(abs(bp-times[i])))]

}

plot(q1,q2, main="Q-QPlot para el material", xlab="cuantiles de

tFD", ylab="cuantiles de tUr")

myline.fit <- lm(q2~q1)

abline(myline.fit, col="blue")

####################################################################

###### Criterio de informacion de AIC para comparar ################

############ los tres modelos parametricos #########################

####################################################################

####################################################################

extractAIC(aftm2) #distribucion de Webull

extractAIC(aftm3) #distribucion Lognormal

extractAIC(aftm4) #distribucion Loglogistica

####################################################################

Comparación de dos modelos de regresión en fiabilidad

Page 108: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice: Códigos de las funciones utilizadas 103

###### Criterio de informacion de AIC para modelo de Weibull y #####

####################### para el modelo PH de Cox ###################

####################################################################

extractAIC(aftm2) #modelo AFT con dist. de Weibull

extractAIC(cox2) #modelo de PH de Cox

####################################################################

########################## Funcion para QQPlots ####################

####################################################################

##=====================================================================

qq.reg.resid.r<-function(data,time,status,fit,quantile,xlab){

##=====================================================================

## Objetivo : Para modelos de regresion parametricos, esto construye

## la qq-plot de los residuos ordenados e_i=(y_i-yhat_i)/sigmahat

#frente a los cuantiles estandar log-parametricos z_i de cualquiera

## de las distribuciones "Weibull", "lognormal" o "loglogistica".

##---------------------------------------------------------------------

## NOTA: Esto tambien se puede utilizar para el ajuste de una sola

## muestra de los tiempos de supervivencia de un modelo parametrico.

## Puesto que no hay covariables, recuerde escribir survreg (Surv

#(...,...)~ 1, dist ="...", =...) datos con el fin de estimar el

#coeficiente mu.

##---------------------------------------------------------------------

## Argumentos: data = data.frame time = nombre del tiempo de

#supervivencia de la variable en data.frame status = nombre de la

##variable estado en data.frame ## fit = un objeto survreg quantile

#= "qweibull", "qnorm" o "qlogis" ## xlab = "escriba su etiqueta"

#p.e., "valores extremos estandar (cuantiles)"

Comparación de dos modelos de regresión en fiabilidad

Page 109: Comparación de Dos Modelos de Regresión en Fiabilidad

104 Apéndice: Códigos de las funciones utilizadas

##---------------------------------------------------------------------

##=====================================================================

temp<-data temp$time<-time temp$status<-status

temp$ei<-(log(temp$time)-predict(fit,type="lp"))/fit$scale

temp<-temp[order(temp$ei), ] con<-abs(min(temp$ei))+.00001

temp$ei<-temp$ei+con

km.fit<-survfit(Surv(ei,status)~1,data=temp,type="kaplan-meier")

temp$km.surv<-summary(km.fit,times=temp$ei)$surv if (quantile ==

"qweibull") { zi<-as.numeric(qweibull(1-temp$km.surv,1,1))

k<-nrow(temp) for (i in 1:k){

if (zi[i]!=-Inf && zi[i]!=Inf ) zi[i]<-log(zi[i])

} temp$zi<-zi for(i in 1:k){ if (temp$zi[i]==-Inf) {

surv.max.1<-max(temp$km.surv[temp$status==1])

d<-1-surv.max.1

surv.pu<-1-d/2

temp$zi[i]<-log(qweibull(1-surv.pu,1,1))}

} for (i in 1:k){ if (temp$zi[i]==Inf) {

d<-min(temp$km.surv[temp$km.surv > 0])

surv.pl<-d/2

temp$zi[i]<-log(qweibull(1-surv.pl,1,1))}

} }

if (quantile == "qnorm"){ zi<-as.numeric(qnorm(1-temp$km.surv,0,1))

k<-nrow(temp) for (i in 1:k){

if (zi[i]!=-Inf && zi[i]!=Inf ) zi[i]<-zi[i]

} temp$zi<-zi for(i in 1:k){ if (temp$zi[i]==-Inf) {

surv.max.1<-max(temp$km.surv[temp$status==1])

d<-1-surv.max.1

surv.pu<-1-d/2

temp$zi[i]<-qnorm(1-surv.pu,0,1)}

Comparación de dos modelos de regresión en fiabilidad

Page 110: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice: Códigos de las funciones utilizadas 105

} for (i in 1:k){ if (temp$zi[i]==Inf) {

d<-min(temp$km.surv[temp$km.surv > 0])

surv.pl<-d/2

temp$zi[i]<-qnorm(1-surv.pl,0,1)}

} } if (quantile == "qlogis") {

zi<-as.numeric(qlogis(1-temp$km.surv,0,1)) k<-nrow(temp) for (i in

1:k){

if (zi[i]!=-Inf && zi[i]!=Inf ) zi[i]<-zi[i]

} temp$zi<-zi for(i in 1:k){ if (temp$zi[i]==-Inf) {

surv.max.1<-max(temp$km.surv[temp$status==1])

d<-1-surv.max.1

surv.pu<-1-d/2

temp$zi[i]<-qlogis(1-surv.pu,0,1)}

} for (i in 1:k){ if (temp$zi[i]==Inf) {

d<-min(temp$km.surv[temp$km.surv > 0])

surv.pl<-d/2

temp$zi[i]<-qlogis(1-surv.pl,0,1)}

} }

temp$ei<-temp$ei-con

##print(temp) plot(temp$zi,temp$ei,xlab=xlab,ylab="Residuos

ordenados ei",type="n",

xlim=c(min(temp$zi),max(temp$zi)),ylim=c(min(temp$ei),max(temp$ei)+.15))

points(temp$zi[temp$status==0],temp$ei[temp$status==0],pch=".",cex=3)

points(temp$zi[temp$status==1],temp$ei[temp$status==1],pch="o",cex=1)

lines(temp$zi[temp$status==1],temp$ei[temp$status==1],lty=1,lwd=1)

k<-nrow(temp) for(i in 1:k) { if (temp$status[i]==0)

arrows(temp$zi[i],temp$ei[i],temp$zi[i],temp$ei[i]+.15,code=2,length=.12,

lwd=2.01)}

abline(a=0,b=1,lty=4,lwd=2) usr<-par("usr")

Comparación de dos modelos de regresión en fiabilidad

Page 111: Comparación de Dos Modelos de Regresión en Fiabilidad

106 Apéndice: Códigos de las funciones utilizadas

arrows(.9*usr[1]+.1*usr[2],.07*usr[3]+.93*usr[4],.9*usr[1]+.1*usr[2],

.07*usr[3]+.93*usr[4]+.15,

code=2,length=.09,lwd=2.01)

text(.8*usr[1]+.2*usr[2],.05*usr[3]+.95*usr[4]," =

Censurados")

points(.9*usr[1]+.1*usr[2],.11*usr[3]+.89*usr[4],pch="o")

text(.79*usr[1]+.21*usr[2],.1*usr[3]+.90*usr[4], " = No

censurados")

on.exit()

"qq.reg.resid:done" }

##=====================================================================

#### Para el material tUr ####

fitweib1<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull",

data=tUr)

fitlognorm1<-survreg(Surv(tiempo, estado)~log(volumen),

dist="lognormal", data=tUr)

fitloglog1<-survreg(Surv(tiempo, estado)~log(volumen),

dist="loglogist", data=tUr)

par(mfrow=c(1,3))

qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitweib1, "qweibull",

"Valores estremos estandar (cuantiles)")

qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitlognorm1, "qnorm",

"Normal estandar (cuantiles)")

qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitloglog1, "qlogis",

Comparación de dos modelos de regresión en fiabilidad

Page 112: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice: Códigos de las funciones utilizadas 107

"Logistica (cuantiles)")

#### Para el material tFD ####

fitweib2<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull",

data=tFD)

fitlognorm2<-survreg(Surv(tiempo, estado)~log(volumen),

dist="lognormal", data=tFD)

#### Para que no falle ####

tFD2<-tFD[-163,]

fitloglog2<-survreg(Surv(tiempo, estado)~log(volumen),

dist="loglogist", data=tFD2)

par(mfrow=c(1,3))

qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitweib2, "qweibull",

"Valores estremos estandar (cuantiles)")

qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitlognorm2, "qnorm",

"Normal estandar (cuantiles)")

#### Para que no falle (le quitamos la ultima fila a tUr) ####

qq.reg.resid.r(tFD2, tFD2$tiempo, tFD2$estado, fitloglog2, "qlogis",

"Logistica (cuantiles)")

Comparación de dos modelos de regresión en fiabilidad

Page 113: Comparación de Dos Modelos de Regresión en Fiabilidad

108 Apéndice: Códigos de las funciones utilizadas

####################################################################

############### Residuos de Cox-Snell para los datos ###############

####################################################################

par(mfrow=c(3,1))

#### Residuos para el modelo de Weibull ####

aft.w<-survreg(Surv(tiempo,estado)~log(volumen)+strata(material)+x80,

data=datos, dist="weibull")

mu.i<-aft.w$linear.predictors

r.cs.i<-exp((log(datos$tiempo)-mu.i)/aft.w$scale)

fit.u<-survfit(Surv(r.cs.i,datos$estado)~1,type="fleming-harrington")

plot(fit.u$time,-log(fit.u$surv),main="AFT Weibull",

xlab="Residuos de Cox-Snell", ylab="Func. ries. acumul.")

lines(c(0,5),c(0,5))

#### Residuos para el modelo Lognormal ####

aft.ln<-survreg(Surv(tiempo,estado)~log(volumen)+strata(material)+x80,

data=datos, dist="lognormal")

mu.i<-aft.ln$linear.predictors

res.i<-(log(datos$tiempo)-mu.i)/aft.ln$scale

ui<-1-pnorm(res.i,mean=0,sd=1) r.cs.i<--log(ui)

fit.u<-survfit(Surv(r.cs.i,datos$estado)~1,type="fleming-harrington")

plot(fit.u$time,-log(fit.u$surv),main="AFT Lognormal",

xlab="Residuos de Cox-Snell", ylab="Func. ries. acumul.")

lines(c(0,5),c(0,5))

Comparación de dos modelos de regresión en fiabilidad

Page 114: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice: Códigos de las funciones utilizadas 109

#### Residuos para el modelo Loglogistico ####

aft.log<-survreg(Surv(tiempo,estado)~log(volumen)+strata(material)+x80,

data=datos,dist="loglogistic")

mu.i<-aft.log$linear.predictors

res.i<-(log(datos$tiempo)-mu.i)/aft.log$scale

ui<-1-plogis(res.i,location=0,scale=1) r.cs.i<--log(ui)

fit.u<-survfit(Surv(r.cs.i,datos$estado)~1,type="fleming-harrington")

plot(fit.u$time,-log(fit.u$surv),main="AFT Log-logistic",

xlab="Residuos de Cox-Snell", ylab="Func. ries. acumul.")

lines(c(0,5),c(0,5))

####################################################################

##################### Residuos para el modelo weibull ##############

####################################################################

dev.off()

#### Para el material tUr ####

par(mfrow=c(1,2))

aft.w<-survreg(Surv(tiempo,estado)~log(volumen),data=tUr,dist="weibull")

mu.i<-aft.w$linear.predictors

r.cs.i<-exp((log(tUr$tiempo)-mu.i)/aft.w$scale)

fit.u<-survfit(Surv(r.cs.i,tUr$estado)~1,type="fleming-harrington")

plot(fit.u$time,-log(fit.u$surv),main="AFT Weibull para tUr",

xlab="Residuos de Cox-Snell",

ylab="Funcion de riesgo acumulado")

lines(c(0,5),c(0,5),col="blue")

#### Para el material tFD ####

aft.w<-survreg(Surv(tiempo,estado)~log(volumen),data=tFD,dist="weibull")

Comparación de dos modelos de regresión en fiabilidad

Page 115: Comparación de Dos Modelos de Regresión en Fiabilidad

110 Apéndice: Códigos de las funciones utilizadas

mu.i<-aft.w$linear.predictors

r.cs.i<-exp((log(tFD$tiempo)-mu.i)/aft.w$scale)

fit.u<-survfit(Surv(r.cs.i,tFD$estado)~1,type="fleming-harrington")

plot(fit.u$time,-log(fit.u$surv),main="AFT Weibull para tFD",

xlab="Residuos de Cox-Snell",

ylab="Funcion de riesgo acumulado")

lines(c(0,5),c(0,5), col="red")

####################################################################

#################### Residuos para el modelo lognormal #############

####################################################################

#### Para el material tUr ####

par(mfrow=c(1,2))

aft.ln<-survreg(Surv(tiempo,estado)~log(volumen),data=tUr,dist="lognormal")

mu.i<-aft.ln$linear.predictors

res.i<-(log(tUr$tiempo)-mu.i)/aft.ln$scale

ui<-1-pnorm(res.i,mean=0,sd=1) r.cs.i<--log(ui)

fit.u<-survfit(Surv(r.cs.i,tUr$estado)~1,type="fleming-harrington")

plot(fit.u$time,-log(fit.u$surv),main="AFT Lognormal para tUr",

xlab="Residuos de Cox-Snell",

ylab="Funcion de riesgo acumulado")

lines(c(0,5),c(0,5), col="blue")

#### Para el material tFD ####

aft.ln<-survreg(Surv(tiempo,estado)~log(volumen),data=tFD,dist="lognormal")

mu.i<-aft.ln$linear.predictors

res.i<-(log(tFD$tiempo)-mu.i)/aft.ln$scale

ui<-1-pnorm(res.i,mean=0,sd=1) r.cs.i<--log(ui)

fit.u<-survfit(Surv(r.cs.i,tFD$estado)~1,type="fleming-harrington")

plot(fit.u$time,-log(fit.u$surv),main="AFT Lognormal para tFD",

Comparación de dos modelos de regresión en fiabilidad

Page 116: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice: Códigos de las funciones utilizadas 111

xlab="Residuos de Cox-Snell",

ylab="Funcion de riesgo acumulado")

lines(c(0,5),c(0,5), col="red")

####################################################################

################## Residuos para el modelo loglogistico ############

####################################################################

#### Para el material tUr ####

par(mfrow=c(1,2))

aft.log<-survreg(Surv(tiempo,estado)~log(volumen),data=tUr,dist="loglogistic")

mu.i<-aft.log$linear.predictors

res.i<-(log(tUr$tiempo)-mu.i)/aft.log$scale

ui<-1-plogis(res.i,location=0,scale=1)

r.cs.i<--log(ui)

fit.u<-survfit(Surv(r.cs.i,tUr$estado)~1,type="fleming-harrington")

plot(fit.u$time,-log(fit.u$surv),main="AFT Log-logistico para tUr",

xlab="Residuos de Cox-Snell", ylab="Funcion de riesgo acumulado")

lines(c(0,5),c(0,5), col="blue")

### para el material tFD ###

aft.log<-survreg(Surv(tiempo,estado)~log(volumen),data=tFD,dist="loglogistic")

mu.i<-aft.log$linear.predictors

res.i<-(log(tFD$tiempo)-mu.i)/aft.log$scale

ui<-1-plogis(res.i,location=0,scale=1)

r.cs.i<--log(ui)

fit.u<-survfit(Surv(r.cs.i,tFD$estado)~1,type="fleming-harrington")

plot(fit.u$time,-log(fit.u$surv),main="AFT Log-logistico para tFD",

xlab="Residuos de Cox-Snell", ylab="Funcion de riesgo acumulado")

lines(c(0,5),c(0,5), col="red")

Comparación de dos modelos de regresión en fiabilidad

Page 117: Comparación de Dos Modelos de Regresión en Fiabilidad

112 Apéndice: Códigos de las funciones utilizadas

####################################################################

####################################################################

##################### modelos semi-parametricos bajo AFT ###########

####################################################################

####################################################################

#### Buckley-James ####

buckley<-bj(formula=Surv(tiempo,estado)~presion+trafico+log(volumen)+

strata(material)+x80, data = datos,

link="ident", method="fit", x=TRUE, y=TRUE)

buckley

#### Buckley-James reducido ####

buckleyred<-bj(formula=Surv(tiempo,estado)~x80+strata(material)+

log(volumen), data = datos,

link="ident", method="fit", x=TRUE, y=TRUE)

buckleyred

#### Buckley-James reducido final ####

buckleyfin<-bj(formula=Surv(tiempo, estado)~strata(material)+x80,

data = datos,link="ident", method="fit", x=TRUE, y=TRUE)

buckleyfin

####################################################################

################### Ajuste de Buckley-James para tUr ###############

####################################################################

buckley2<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data =

tUr,link="ident", method="fit", x=TRUE, y=TRUE )

print.bj(buckley2)

Comparación de dos modelos de regresión en fiabilidad

Page 118: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice: Códigos de las funciones utilizadas 113

#### Para dibujar los residuos el modelo no debe tener ####

buckley3<-bj(formula=Surv(tiempo, estado)~log(volumen), data = tUr,

link="ident", method="fit", x=TRUE, y=TRUE )

rbj1<-residuals.bj(buckley2, type=c("censored.normalized"))

par(mfrow=c(2,3))

bjplot(buckley3)

####################################################################

################### Ajuste de Buckley-James para tFD ###############

####################################################################

buckley4<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data =

tFD,link="log", method="fit", x=TRUE, y=TRUE )

print.bj(buckley4)

#### Re-ajuste de Buckley-James para tFD ####

buckley6<-bj(formula=Surv(tiempo, estado)~x80, data = tFD,

link="log", method="fit", x=TRUE, y=TRUE )

print.bj(buckley6)

#### Para dibujar los residuos el modelo no debe tener ####

buckley5<-bj(formula=Surv(tiempo, estado)~log(volumen), data = tFD,

link="ident", method="fit", x=TRUE, y=TRUE )

rbj2<-residuals.bj(buckley4, type=c("censored.normalized"))

par(mfrow=c(2,3))

bjplot(buckley5)

####################################################################

######## Ajuste de minimos cuadrados para AFT con datos censurados #

Comparación de dos modelos de regresión en fiabilidad

Page 119: Comparación de Dos Modelos de Regresión en Fiabilidad

114 Apéndice: Códigos de las funciones utilizadas

####################################################################

#### Ajuste de minimos cuadrados para los datos ####

mcuad4<-lss(formula=Surv(tiempo,estado)~strata(material)+

log(volumen)+x80,data=datos,trace=T, mcsize=500,

gehanonly=F, maxiter=50,tolerance=0.001, cov = T,

na.action = na.exclude)

mcuad4

#### Ajuste de minimos cuadrados para el material tUr ####

mcuad1<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tUr,

trace=T, mcsize=500, gehanonly=F, maxiter=50,

tolerance=0.001, cov = T, na.action = na.exclude)

mcuad1

#### Ajuste de minimos cuadrados para el material tFD ####

mcuad2<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tFD,

trace=T, mcsize=500, gehanonly=F, maxiter=50,

tolerance=0.001, cov = T, na.action = na.exclude)

mcuad2

#### Ajuste de minimos cuadrados solo con x80 para el material tFD #

mcuad3<-lss(formula=Surv(tiempo, estado)~x80, data=tFD,

trace=T, mcsize=500, gehanonly=F, maxiter=50,

tolerance=0.001, cov = T, na.action = na.exclude)

mcuad3

Comparación de dos modelos de regresión en fiabilidad

Page 120: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice C

Futuras líneas de investigación:Regresión Isotónica

C.1. Estimador de mínimos cuadrados ponderados deStute

En el marco del modelo de AFT, en el que

ln T = Xγ + ε (C.1)

donde X = [X1, . . . ,Xp], γ = (β1, . . . , βp)T y γj = −βj para j = 1, . . . , p. En la mayoría de

las situaciones, la estimación de este modelo se lleva a cabo mediante la presunción de una

distribución para el tiempo de supervivencia o duración y maximizando la log-verosimilitud.

los modelos de regresión paramétricos comúnmente utilizados en el análisis de super-

vivencia (estos son, el modelo exponencial, el Weibull, el Lognormal, el Loglogístico o el

gamma) pueden considerarse en el modelo AFT. Además, los modelos de regresión expo-

nencial y Weibull pueden ser considerados como casos particulares de los modelos de CPH

y AFT.

Desafortunadamente, debido al efecto de la censura, el tiempo de vida real T no siempre

es observable y en su lugar se observa

Yi = mın(Ti, Ci), δi =

{1 si Ti ≤ Ci

0 si Ti > Ci

donde C1, . . . , Cn son los valores de la variable de censura C, que se supone independiente

115

Page 121: Comparación de Dos Modelos de Regresión en Fiabilidad

116 Apéndice: Regresión Isotónica

del tiempo de supervivencia o duración de la variable T , y δi es un indicador de que si Ti

ha sido observada o no.

En el marco de los modelos AFT, Stute (1993), presentó una nueva metodología que

requiere unas hipótesis muy generales y donde los estimadores se pueden obtener utilizando

los mínimos cuadrados ponderados, es decir, utilizando el modelo AFT (C.1), bajo la

suposición de que E[ε |X] = 0. Aquí, la relación entre las covariables y el tiempo de

supervivencia o duración, o alguna transformación monótona de esta, como, por ejemplo,

la logarítmica, que se considera lineal. Bajo este modelo, el estimador de γ minimiza

n∑i=1

Win

[ln Y(i) −X[i]γ

]2 (C.2)

donde el ln Y(i) es el valor i-ésimo ordenado de la variable de respuesta observada ln Y , X[i]

es la covariable asociada a ln Y(i) y Win son los pesos de Kaplan-Meier. Estos pesos pueden

ser calculados utilizando la expresión

W1n = Fn(ln Y(1))− Fn(ln Y(0)) =δ[1]

n

Win = Fn(ln Y(i))− Fn(ln Y(i−1)) =δ[i]

n− i + 1

i−1∏j=1

[n− j

n− j + 1

]δ[j]

con i = 2, . . . , n.

(C.3)

donde Fn es el estimador de Kaplan-Meier (1958) de la función de distribución F para la

variable T y δ[i] es el valor δ asociado a ln Y(i). Estos pesos pueden ser también calculados

utilizando la redistribución del algoritmo apropiado presentado por Efron (1967). De este

modo, después de calcular los pesos W[in], la minimización de (C.2) conduce al estimador

de γ dado por

γ =(XT WX

)−1XT W ln Y

donde ln Y =(ln Y(1), . . . , ln Y(n)

)T , W es una matriz diagonal con los pesos de Kaplan-

Meier ver Pepe & Fleming (1989), en su diagonal principal y X se define como antes.

Stute (1993 y 1996a) realizó estudios de consistencia para este estimador y su distribución

normal asintótica. Como la varianza asintótica tiene una expresión muy difícil de calcular,

Stute (1996b), propuso el uso de un simple estimador de Jackknife. Una de las ventajas del

Comparación de dos modelos de regresión en fiabilidad

Page 122: Comparación de Dos Modelos de Regresión en Fiabilidad

Apéndice: Regresión Isotónica 117

planteamiento de Stute es que el coste computacional es relativamente insensible al número

de covariables y considerablemente menor que el de la estimación de Buckley-James y la

estimación por rangos. Esto es especialmente valioso para los datos con un número alto de

covariables.

El análisis llevado a cabo sobre nuestros datos nos lleva a la conclusión de que la forma

funcional en que algunas de las covariables consideradas es introducida en los modelos no

es la adecuada. Concretamente las variables X1 = longitud y X2 = diametro, que se han

introducido en el modelo a través de la transformación f(X1, X2) = ln(π/2 ∗X1 ∗X22 ).

Este es el diagnóstico que, sobre los modelos ajustados, hemos establecido a la vista de

determinados gráficos de residuos como son los residuos de martingalas que presentamos

en la Figura 2.13.

Ante esta situación sugerimos la formulación de un modelo más flexible como puede ser

el siguiente

ln T = φ (Z1 . . . , Zq; X1, . . . , Xp) + ε

donde no asumimos ninguna forma funcional para la variable ε y modelizamos la función

de las covariables mediante

φ (Z1 . . . , Zq; X1, . . . , Xp) = β0 + β1Z1 + . . . + βqZq + f1(X1) + . . . + fp(Xp)

De manera que consideramos un modelo semi-paramétrico, en el que las variables de tipo

cualitativo (a los que denominamos factores, Zj) se introcuden en el modelo a través de

una función lineal desconocida y las variables cuantitativas (covariables, Xk) se introducen

mediante una función cuya forma funcional no especificamos.

Puesto que trabajamos con datos filtrados (censurados y/o truncados) el procedimiento

de estimación que proponemos también se basa en el criterio de mínimos cuadrados pon-

derados, tal como se sugiere en Stute (C.2), es decir, buscamos el mínimo de la siguiente

expresión

S(φ) =n∑

i=1

Win (ln Yi − φ (Xi1, . . . , Xip, Zi1, . . . , Ziq))2 ,

donde los pesos Win se definen análogamente al estimador de Stute, teniendo en cuenta,

en su caso, el truncamiento a la izquierda, es decir, Fn es el estimador producto-límite de

la función de distribución propuesto por Tsai, Jewell & Wang (1987).

Comparación de dos modelos de regresión en fiabilidad

Page 123: Comparación de Dos Modelos de Regresión en Fiabilidad

118 Apéndice: Regresión Isotónica

Por otra parte, dada la naturaleza del problema que estamos manejando, necesitamos

que las funciones fj sean monótonas (todas o algunas de ellas, además elegimos el sentido

de la monotonía en cada caso) de manera que imponemos en nuestro modelo de tiempo

de vida acelerada esta condición así que proponemos enfrentar el problema usando técni-

cas de regresión isotónica. En otras palabras, en el modelo anterior se supone que cada

componente no paramétrica (o algunas de ellas) es una función monótona de la covariable

correspondiente. Este trabajo supondría una extensión de trabajos recientes sobre estima-

ción isotónica en modelos con estructura aditiva, ver por ejemplo Cheng (2009) y Mammen

& Kyusang (2007), al caso de datos sujetos a esquemas muestrales con censura a la derecha

y truncamiento por la izquierda.

Comparación de dos modelos de regresión en fiabilidad

Page 124: Comparación de Dos Modelos de Regresión en Fiabilidad

Bibliografía

[1] Aalen, O.O. (1978). Nonparametric inference for a family of counting processes. An-

nals. of Statistics, 6, 701–726.

[2] Aalen, O.O. (1980). A Model for Non-parametric Regression Analysis of Counting

Processes. In Lecture Notes in Statistics 2 (eds. W. Klonecki et al), pp. 1–25. New

York: Springer-Verlag.

[3] Abrahamowicz M., Mackenzie T., Esdaile J.M. (1996). Time-dependent hazard ratio:

modelling and hypothesis testing with application in Lupus Nephritis. Journal of the

American Statistical Association 91, 1432–1439.

[4] Andersen, P.K., Borgan, O., Gill, R.D. & Keiding, N. (1993). Statistical models based

on counting processes. Springer-Verlag, New York.

[5] Andersen, P.K., Gill, R.D. (1982). Cox’s regression model for counting processes: a

large sample study. Annals of Statistics 10, 1100–1120.

[6] Andreou, S. (1987). Maintenance decisions for deteriorating water pipelines. J. Pipe-

lines 7, 21–31.

[7] Andreou S.A., Marks, D.H. & Clark R.M. (1987a). A new methodology for modelling

break failure patterns in deteriorating water distribution systems: Theory. Adv. Water

Resour 10, 2–10.

[8] Andreou S.A., Marks, D.H. & Clark R.M. (1987b). A new methodology for modelling

break failure patterns in deteriorating water distribution systems: Applications. Adv.

Water Resour 10, 11–20.

119

Page 125: Comparación de Dos Modelos de Regresión en Fiabilidad

120 Bibliografía

[9] Barlow, W.E. & Prentice, R.L. (1988). Residuals for relative risk regression. Biome-

trika 75, 65–74,

[10] Breslow, N.E. (1975). Analysis of survival data under the proportional hazards model.

International Statistics Review 43, 45–58,

[11] Breslow, N.E. (1974). Covariance analysis of censored survival data. Biometrics 30,

89–99. Lecture Notes in Math. 876, 1–72.

[12] Buckley, J. & James, I. (1979). Linear regression with censored data. Biometrika 66,

429–436.

[13] Carrión, A., Solano, H., Gámiz, M.L. & Debón, A.: Evaluation of the Reliability of a

Water Supply Network from Right-Censored and Left-Truncated Break Data, Water

Resources Management, (DOI 10.1007/s11269-010-9587-y).

[14] Cheng, W. (2009). Semiparametric isotonic regression. Journal of Statistical Planning

and Inference, 139, 1980–1991.

[15] Cho, H.J. & Hong, S.-M. (2008). Median Regression Tree for Analysis of Censored

Survival Data. IEEE Transactions on Systems. Man, and Cybernetics-Part A: Systems

and Humans, 38 (3), 715–726.

[16] Christodoulou, S. & Deligianni, A. (2010). A neurofuzzy decision framework for the

management of water distribution networks. Water Resour Manag 24, 139–156.

[17] Collett, D. (1994). Modelling Survival Data in Medical Research. London: Chapman

and Hall.

[18] Cox, D.R. (1972). Regression models and life-tables (with discussion). Journal of the

Royal Statistical Society, Series B, 34, 187–220.

[19] Cox, D.R. & Oakes, D. (1984). Analysis of Survival Data. London: Chapman and

Hall.

Comparación de dos modelos de regresión en fiabilidad

Page 126: Comparación de Dos Modelos de Regresión en Fiabilidad

Bibliografía 121

[20] Cox, D.R. & Snell, E.J. (1968). A general definition of residuals (with discussion).

J.R. Statist. Soc. B 30, 248–275.

[21] Crowley, J. & Hu, M. (1977). Covariance analysis of heart transplant survival data.

Journal of the American Statistical Association, 72, 27–36.

[22] Debón, A., Carrión, A., Cabrera, E. & Solano, H. (2010). Comparing risk of failure

models in water supply networks using ROC curves. Reliab. Eng. Syst. Saf. 95, 43–48.

[23] Debt, A.K., Hasit, Y., Grablutz, J.F.M. & Herz R.K. (1998). Quantifying future reha-

bilitation and replacement needs of water mains. AWWA Research Foundation, Den-

ver.

[24] Efron, B. (1967). The two sample problem with censored data. Proceedings of the

Fifth Berkeley Symposium on Mathematical Statistics and Probability, 4, 831–853.

[25] Eisenbeis, P. (1994). Modélisation statistique de la prévision des défaillances sur les

conduites d’eau potable. Ph.D. thesis, University Louis Pasteur of Strasbourg, collec-

tion Etudes Cemagref no. 17.

[26] Fleming, T. R., & Harrington, D. P. (1991). Counting Processes and Survival Analysis.

Wiley, New York.

[27] Fleming, T. & Harriton, D. (2002). Counting processes and survival analysis. New

York: Wiley.

[28] Gámiz, M.L., Kulasekera, K.B., Limnios, N., & Lindquist, B.H. (2011). Applied Non-

parametric Statistic in Reliability. Springer Series in Reliability Engineering.

[29] Gehan, E.A. (1965). A generalized Wilcoxon test for comparing arbitrarily single-

censored samples. Biometrika 52, 203–223.

[30] Gill, R.D. (1984). Understanding Cox’s regression model: a martingale approach. J.

Amer. Statist. Assoc. 79, 441–447,

Comparación de dos modelos de regresión en fiabilidad

Page 127: Comparación de Dos Modelos de Regresión en Fiabilidad

122 Bibliografía

[31] Gray, R.J. (1992). Flexible methods for analyzing survival data using splines, with

application to breast cancer prognosis. Journal of the American Statistical Association,

87, 942–951.

[32] Gustafson, J.M. & Clancy, D.V. (1999). Modelling the occurrence of breaks in cast

iron water mains using methods of survival analysis. In: Proceedings of the AWWA

annual conference, Chicago.

[33] Harrington, D.P. & Fleming T.R. (1982).A class of rank procedures for censored sur-

vival data. Biometrika 52, 203–223.

[34] Herz, R.K. (1996). Ageing processes and rehabilitation needs of drinking water distri-

bution networks. J. Water Supply Res Technol Aquan 45, 221–231.

[35] Herz, R.K. (1998). Exploring rehabilitation needs and strategies for water distribution

networks. J. Water Supply Res Technol Aquan 45, 275–283.

[36] Hess, K.R. (1994). Assessing time-by-covariate interactions in proportional hazards

regression models using cubic spline functions. Statistics in Medicine, 13, 1045–1062.

[37] Hess, K.R. (1995). Graphical methods for assessing violations of the proportional ha-

zards assumption in Cox regression. Statistics in Medicine 14, 1707–1723.

[38] Honoré, B., Khan, S. & Powell, J.L. (2002). Quantile regression under random cen-

soring. Journal of Econometrics, 109, 67–105.

[39] Hosmer, D.W. & Lemeshow, S. (1999). Applied survival analysis: Regression modeling

of time to event data. New York: John Wiley and Sons, Inc.

[40] Huang, L. & Jin, Z. (2007). LSS: An S-Plus/R program for the accelerated failure

time model to right censored data based on least-squares principle. Comput. Methods

Programs Biomed. 86, 45–50.

[41] James I.R. & Smith P.J. (1984) Consistency Results for Linear Regression with Cen-

sored Data. Ann. Statist. Volume 12, 2, 590–600.

Comparación de dos modelos de regresión en fiabilidad

Page 128: Comparación de Dos Modelos de Regresión en Fiabilidad

Bibliografía 123

[42] Jin, Z., Lin, D.Y., Wei, L.J. & Ying, Z. (2003). Rank-based inference for the accelerated

failure time model. Biometrika, 90, 341–353.

[43] Jin, Z., Lin D.Y. & Ying, Z. (2006). On least-squares regression with censored data.

Biometrika, 93, 147–161.

[44] Kaplan, E.L. & Meier, P. (1958). Nonparametric estimation from incomplete obser-

vations. Journal of the American Statistical Association, 53, 457–481.

[45] Kay, R. (1977). Proportional hazard regression models and the analysis of censored

survival data. Appl. Statist. 26, 227–237.

[46] Kalbfleisch, J. D. & Prentice, R. L. (2002). The Statistical Analysis of Failure Time

Data. Wiley.

[47] Klein, M. & Moeschberger, W. (1997). Survival Analysis. Techniques for censored and

truncated data. Springer Verlag, New York.

[48] Kleinbaum, D.G. & Klein, M. (2005). Survival Analysis: A self-learning text. Springer.

[49] Koenker, R. (2005). Quantile Regression. Cambridge University Press.

[50] Kooperberg. C., Stone, C.J. & Truong, Y.K. (1995). Hazard regression. Journal of

the American Statistical Association, 90, 78–94.

[51] Koul, H., Susarla, V. & Van Ryzin, J. (1981). Regression analysis with randomly

right-censored data. Ann. Statist.9, 1276–1288.

[52] Lai, T.L. & Ying, Z. (1991). Large sample theory of a modified Buckley-James esti-

mator for regression analysis with censored data. Ann. Statist. 10, 1370–1402.

[53] Lawless J.F. (1982). Statistical Models and Methods for Lifetime Data Analysis.Wiley,

New York.

[54] Lin, D.Y. & Geyer, C.J. (1992). Computational methods for semiparametric linear

regression with censored data. J.Comp. Graph. Statist. 1, 77–90.

Comparación de dos modelos de regresión en fiabilidad

Page 129: Comparación de Dos Modelos de Regresión en Fiabilidad

124 Bibliografía

[55] Mailhot, A., Duchesne, S., Musso, E. & Villeneuve, J.P. (2000). Modélisation de

l’évolution de l’état structural des réseaux d’égout: application à une municipalité

du Québec. Can. J. Civ. Eng. 27, 65–72.

[56] Malandain, J. (1999). Modélisation de l’état de santé des réseaux de distribution d’eau

pour l’organisation de la maintenance. Etude du patrimoine de l’agglomération de

Lyon. Ph. D. Disertationt no. 99 ISAL 0040. Institut National des Sciences Appliquées

de Lyon, Laboratoire URGC/Hydrologie Urbaine, 206 p.

[57] Malandain, J., Le Gauffre, P. & Miramond, M. (1999). Modeling the aging of water

infraestructure. In: Proceedings of the 13th EJSW, Dresden University of Technology.

[58] Mammen, E. y Kyusang, Y. (2007). Additive Isotone Regression. IMS Lecture Notes,

Vol. 55, 179–195

[59] Marks, D.H., et al. (1985). Predicting urban water distribution maintenance strategies:

a case study of New Haven Connecticut. US Environmental Protection Agency (Co-

operative Agreement R8 1 0558-01-0).

[60] Martinussen, T. & Scheike, T.H. (2006). Dynamic Regression Models for Survival

Data. Springer.

[61] Meeker, W.Q. & Escobar, L.A. (1998). Statistical Methods for Reliability Data. Wiley,

New York.

[62] McCullagh, P. & Nelder, J.A. (1983). Generalized Linear Models. Chapman and Hall,

London.

[63] Miller, R.G. (1976). Least squares regression with censored data. Biometrika 63, 449–

464.

[64] Miller, R.G. & Halpern, J. (1982). Regression with censored data. Biometrika 69,

521–531.

[65] Moreau, T., O’Quigley, J., Mesbah, M. (1985). A global goodness-of-fit statistics for

the proportional hazards model. Applied Statistics, 3, 212–218.

Comparación de dos modelos de regresión en fiabilidad

Page 130: Comparación de Dos Modelos de Regresión en Fiabilidad

Bibliografía 125

[66] Nagelgerke, N.J.D., Oosting J. & Hart A.A.M. (1984). A simple test for goodness of

fit of Cox’s proportional hazards model. Biometrics, 40, 483–486.

[67] Nelson, W. (1990). Accelerated Testing: Statistical Models, Test Plans, and Data

Analyses. Wiley, New York.

[68] Park, S., Kim, B.J. & Im G.C. (2008). Modeling of water main failure rates using the

log-linear ROCOF and the power law process. Water Resour Manag 22, 1311–1324.

[69] Pepe M.S. & Fleming TR. (1989). Weighted Kaplan-Meier Statistics: A Class of Dis-

tance Tests for Censored Survival Data. Biometrika, 45, 497–507.

[70] Prentice, R.L. (1978). Linear rank tests with right censored data. Biometrika 65, 167–

179.

[71] Ritov, Y. (1990). Estimation in a linear regression model with censored data. Ann.

Statist. 18, 303–328.

[72] Sagrov, S. Köning, A. et al. (2001) Evaluation of UtilNets-a decision support systems

for water mains rehabilitation. In: Proceedings of the IWA international conference

in Brno, Czech Republic.

[73] Schoenfeld, D. (1982). Partial residuals for the proportional hazards regression model.

Biometrika, 69, 239–241.

[74] Sigurdsson, H., Baldetorp, B., Borg, A., Dalberg, M., Fernö, M., Killander, D., &

Olsson, H. (1990). Indicators of prognosis in node-negative breast cancer. New England

Journal of Medicine 322, 1045–1053.

[75] Stare, J., Harrell, F.E. & Heinzl, H. (2001). BJ: an S-plus program ti fit linear re-

gression models to censored data using the Buckley-James method. Comput. Methods

Programs Biomed. 64, 45–52.

[76] Stute, W. (1999). Nonlinear censored regression. Statistica Sinica, 9, 1089–1102.

Comparación de dos modelos de regresión en fiabilidad

Page 131: Comparación de Dos Modelos de Regresión en Fiabilidad

126 Bibliografía

[77] Stute, W. (1993). Consistent estimation under random censorship when covariables

are present. Journal of Multivariate Analysis, 45, 89–103.

[78] Stute, W. (1996a). Distributional convergence under random censorship when cova-

riables are present. Scandinavian Journal of Statistics, 23, 461–471.

[79] Stute, W. (1996b). The jackknife estimate of variance of a Kaplan-Meier integral.

Annals of Statistics, 24, 2679–2704.

[80] Therneau, T.M. & Gramsch, P.M. (2000). Modeling survival data. Extending the Cox

model. Springer.

[81] Therneau, T., Gramsch, P. & Fleming, T. (1990). Martingale based residual for sur-

vival models. Biometrika, 77, 147–160.

[82] Tsai, W.Y., Jewel, N.P. & Wang, M.C. (1987). A note on the product-limit estimator

under right censoring and left truncation. Biometrika, 74, 883–886.

[83] Tsiatis, A.A. (1990). Estimating regression parameters using linear rank tests for cen-

sored data. Ann. Statist. 18, 354–372.

[84] Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with S. New York:

Springer (4th ed).

[85] Wang, J.L. (2003). Smoothing hazard rates. Encyclopedia of Biostatistics.

[86] Wang, H.J. & Wang, L. (2009). Locally weighted censored quantile regression. Journal

of the American Statistical Association, to appear.

[87] Wei, J. (1984). Testing goodness of fit for proportional hazards model with censored

observations., Journal of the American Statistical Association, 79, 649–652.

[88] Wei, L.J. (1992). The accelerated failure time model: a useful alternative to the Cox

regression model in survival analysis. Statistics in Medicine, 11, 1871–1879.

[89] Wei, L.J., Ying, Z. and Lin, D.Y. (1990). Linear regression analysis of censored sur-

vival data based on rank tests., Biometrika, 77, 845–851.

Comparación de dos modelos de regresión en fiabilidad

Page 132: Comparación de Dos Modelos de Regresión en Fiabilidad

Bibliografía 127

[90] Yang, S. (1999). Censored median regression using weighted empirical survival and

hazard functions. Journal of the American Statistical Association, 94 (445), 137–145.

[91] Ying, Z.L. (1993). A large sample study of rank estimation for censored regression

data. Annals of Statistics, 21, 76–99.

[92] Ying, Z., Jung, S.H. & Wei, L.J. (1995). Survival analysis with median regression

models. Journal of the American Statistical Association, 90 (429), 178–184.

[93] Zhao, Y. & Chen, F. (2008). Empirical likelihood inference for censored median re-

gression model via nonparametric kernel estimation. Journal of Multivariate Analysis,

99, 215–231.

Comparación de dos modelos de regresión en fiabilidad