49
J.Muro(16/01/2004) 1 Modelos de duración. Siga

Modelos de duración. - Universidad de Alcalá (UAH) Madrid · que nace su primer hijo o entre sus sucesivas maternidades; • el tiempo que transcurre entre las sucesivas compras

Embed Size (px)

Citation preview

J.Muro(16/01/2004) 1

Modelos de duración.

Siga

J.Muro(16/01/2004) 2

Modelos de duración.• Introducción.• Enfoques:

1. Continuo.2. Discreto.

• Lo que no trataremos:1. Modelos de duración para múltiples

periodos (análisis de la historia de sucesos).

Siga

J.Muro(16/01/2004) 3

Introducción.

• Junto a los modelos de datos de panel es una de las áreas de más amplio desarrollo en microeconometríaen los últimos tiempos.

• Prometedora en el terreno de proporcionar respuestas razonables a un conjunto clásico de preguntas formuladas sobre aspectos sustanciales de la realidad socioeconómica.

• Siga.

J.Muro(16/01/2004) 4

Introducción.

• Botón de muestra: el problema de los efectos de los tratamientos.

• Caso de tratamientos eficaces, o ineficaces, ¿son los resultados alcanzados debidos al efecto de nuestro tratamiento?

• ¿Cuál es el porcentaje de eficacia, positiva o negativa, de nuestro tratamiento?

• Ejemplo.

• Las ideas y los métodos se han importado de los previamente desarrollados en otras disciplinas científicas.

• Estadística, ingeniería y estudios bioestadísticos que se remontan a comienzos del siglo pasado; a partir de finales de los setenta es cuando se incorporan a la econometría y a la sociología (sociometría).

• Siga.

J.Muro(16/01/2004) 5

Introducción.• La literatura econométrica sobre datos de duración es

reciente. Entre los compendios de mayor utilidad se encuentran Kalbfleisch y Prentice (1980), Heckman y Singer (1984a), Kiefer (1988) y Lancaster (1991).

• En la literatura econométrica los estudios de duración han incorporado ciertos avances.

• Sustancialmente, el fenómeno de la heterogeneidad individual inobservada y, en estudios recientes, la heterogeneidad inobservable vinculada al periodo de análisis.

• La jerga del análisis de duración.

• Atrás.

J.Muro(16/01/2004) 6

Introducción.• Conceptos fundamentales del análisis de

duración.• Definiciones.

• Siga.

J.Muro(16/01/2004) 7

Conceptos fundamentales.

• Existen fenómenos en los que el tiempo no es sólo su rasgo distintivo sino el que suscita el interés de los investigadores.

• Ejemplos:• La duración de una huelga;• el tiempo que una persona permanece en el desempleo;• el periodo de tiempo que hay entre que una mujer tiene pareja hasta

que nace su primer hijo o entre sus sucesivas maternidades;• el tiempo que transcurre entre las sucesivas compras de bienes

duraderos, etc.

• ¿Qué entendemos por suceso?• ¿Qué es la duración de un suceso?

• Siga.

J.Muro(16/01/2004) 8

¿Qué entendemos por suceso?• En este contexto entendemos por suceso el resultado de

cualquier acontecimiento que ocurre en la biografía de cualquier individuo o empresa.

• Ej. Situación laboral de un individuo; situación financiera de una empresa.

• Cabría utilizar como sinónimos: evento o acontecimiento.

• Una biografía es el resultado del devenir de sucesos.

• Atrás.

J.Muro(16/01/2004) 9

¿Qué entendemos por la duración de un suceso?

• La medida del tiempo que transcurre entre su inicio y su final.

• Datos de duración: aquellos que suministran información sobre la duración de un suceso.

• Los datos de duración se obtienen de un seguimiento longitudinal de los individuos o colectivos y se extraen, generalmente, bien de encuestas de panel, bien de registros administrativos.

• Muestras del fondo (representatividad del stock).• Muestras del flujo (representatividad del flujo).

• Atrás.

J.Muro(16/01/2004) 10

Conceptos fundamentales.• Estado: aquella situación descrita por una o varias

características fundamentales que son permanentes a lo largo del tiempo.

• Tránsito: cuando esta o estas características fundamentales definidoras del estado se alteran.

• Siga.

J.Muro(16/01/2004) 11

Conceptos fundamentales.• ¿Qué ocurre cuando la duración del suceso se

prolonga? Caben dos respuestas (tres).• En primer lugar, que a medida que dure más un suceso

más riesgo habrá de que haya un tránsito: Dependencia de la duración positiva.

• En segundo lugar, que a medida que dure más un suceso menor riesgo habrá de que haya un tránsito: Dependencia de la duración negativa.

• Siga.

J.Muro(16/01/2004) 12

Conceptos fundamentales.• Censura. Si disponemos de una muestra de

observaciones de la duración de N sucesos, la censura ocurre cuando al medir la duración de algún suceso, éste todavía permanece en el estado inicial, sin haber transitado hasta otro estado. El resultado en este caso nos dice que el fenómeno ha durado al menos la medida tomada, sin ninguna información sobre la duración real del fenómeno hasta la transición. Tránsito que ocurrirá, con seguridad, un tiempo después de nuestra medida. Así, la censura es, en general, no informativa sobre la duración de un suceso.

• Siga.

J.Muro(16/01/2004) 13

Conceptos fundamentales.• El fenómeno de la censura ocurre por dos motivos:

• El primero es que el observador mida la duración antes de que eltránsito ocurra.

• El segundo es la posibilidad de que el fenómeno desaparezca de nuestra observación antes de que el tránsito suceda.

• Los datos no censurados se llaman duraciones completas mientras que los censurados se conocen como duraciones incompletas.

• La censura puede ser por la izquierda, cuando no se conoce la duración inicial del suceso; por la derecha, en el caso de que no se conozca la duración final; y por intervalos, cuando se desconocen ambos.

• Siga.

J.Muro(16/01/2004) 14

Conceptos fundamentales.• Efecto calendario: Las observaciones de datos de

duración pueden tener un instante inicial común o pueden comenzar en instantes distintos del tiempo.

• Variables que tratan de introducir la heterogeneidad observada en el modelo varían a lo largo de la propia duración, lo que se denomina covariantes que dependen del tiempo o que varían con el tiempo.

• Modelos de un único periodo o con múltiples periodos.• Atrás.

J.Muro(16/01/2004) 15

Definiciones.• Periodo o lapso (spell). • Tránsito. • Función de densidad de probabilidad (fdp) y de

distribución.• Función de Supervivencia.• Tasa de riesgo.• Función del riesgo integrado.

• Atrás.

J.Muro(16/01/2004) 16

Periodo o lapso de tiempo (spell).• El intervalo temporal entre el inicio de un suceso y

su final, es decir, entre el comienzo de un estado y el paso desde éste a otro estado.

• La longitud de un periodo un fenómeno aleatorio al que llamamos T.

• La duración observada es una realización de la variable aleatoria T.

• Atrás.

J.Muro(16/01/2004) 17

Tránsito.• El paso de un estado a otro.• El final del suceso, el tránsito a otro estado, es un

fenómeno dinámico. • A medida que el periodo transcurre, siempre, en

cada momento, existe un riesgo de que se produzca un tránsito.

• Hay una dualidad entre duración y tránsito.

• Atrás.

J.Muro(16/01/2004) 18

Fdp y de distribución.• Consideremos una población de individuos. De

cada uno de ellos observamos el tiempo hasta el tránsito (failure) o hasta la pérdida (censura).

• Llamamos f(t) a la función de densidad de probabilidad (fdp) de la variable T en el tiempo t. Puede ser continua o discreta.

• Su función de distribución F(t) es

• Atrás.∫ ≤==

ttTobdssftF

0).(Pr)()(

J.Muro(16/01/2004) 19

Función de supervivencia.• Función de supervivencia (survival function): es la

probabilidad de que la longitud de un periodo sea al menos t.

• Atrás.

).(Pr)(1)( tTobtFtS ≥=−=

J.Muro(16/01/2004) 20

Tasa de riesgo.• Tasa de riesgo (hazard rate): es la probabilidad de que el

periodo finalice, haya un tránsito, en el intervalo t + ∆t, supuesto que la longitud del periodo sea al menos t.

• Tasa de salida, es un sinónimo, entre otros. • Cabe decir que la tasa de riesgo es la probabilidad de que

algo ocurra después de la duración t, condicionada a que al menos su duración sea t.

• Siga.

.)()(

)()()()|(Pr)(

00 tStf

tStFttFlim

ttTdttTtoblimth

tt=

∆−∆+=

∆≥+≤≤=

→∆→∆

J.Muro(16/01/2004) 21

Tasa de riesgo.• Desde un planteamiento dinámico esta última

variable es la que más interesa a la hora de modelizar la duración.

• Los modelos de duración se caracterizan por el modo en que especifican la tasa de riesgo.

• La función de riesgo recoge los valores de la tasa de riesgo para cualquier valor de t.

• Siga.

J.Muro(16/01/2004) 22

Tasa de riesgo.• Su expresión en términos de la función de

supervivencia es

• La relación entre la función de riesgo, la función de supervivencia y la fdp es

• Atrás.

.)(ln)()(

)())(1(

)()()(

dttSd

tdtStdS

tdtStSd

tdtStdFth −=−=−==

)()()( thtStf =

J.Muro(16/01/2004) 23

Función del riesgo integrado.

• Su relación con la función de supervivencia es

• Y por tanto,

• Podemos considerar a la función de riesgo integrado como un residuo generalizado, Chesher y Irish (1987).

• Atrás.

∫=t

dsshtH0

.)()(

.)( )(tHetS −=

)(ln)( tStH −=

J.Muro(16/01/2004) 24

Enfoque continuo.• Modelos de la tasa de riesgo (de duración)• Enfoque no paramétrico.• Enfoque semiparamétrico.• Enfoque paramétrico.

• Una orientación para el trabajo empírico.

Atrás

J.Muro(16/01/2004) 25

Enfoque no paramétrico.• Kaplan-Meier(1958).• Llamado estimador del producto límite.• Consiste en estimar probabilidades

condicionales que están en exacta concordancia con las frecuencias condicionales observadas.

• Se obtienen estimaciones de la tasa de riesgo y de la función de supervivencia.

• Siga

J.Muro(16/01/2004) 26

Enfoque no paramétrico.• Ej.• Se divide el rango de t en K intervalos

iguales.• Para cada intervalo j =1,2,…K se calcula

• El número de observaciones nj;• Tamaño del conjunto en riesgo: rj = nj- Cj/2, donde

Cj es el número de observaciones censuradas.• El número de observaciones que salen mj.• La proporción de salidas sobre las que están en

riesgo: qj = mj/rj.• Siga

J.Muro(16/01/2004) 27

Enfoque no paramétrico.• La función de supervivencia es la proporción

acumulada de las observaciones que permanecen al principio del intervalo

• La tasa de riesgo es

• Atrás

.1;)1( 111 ====−−−−==== −−−−−−−− PPqP jjj

.:.)2(

2intervalodimensiónh

qhq

j

jj −−−−

====λλλλ

J.Muro(16/01/2004) 28

Enfoque semiparamétrico.• Cox (1972, 1975).• Modelo.• Método de verosimilitud parcial.

Atrás

J.Muro(16/01/2004) 29

Modelo.• Cox (1972) introduce su modelo de riesgo

proporcional (proportional hazard) para estimar los efectos de las variables incluidas en el modelo sobre la tasa de riesgo. El modelo es un ph

Atrás

).'exp()()( 0 tXthth δ=

J.Muro(16/01/2004) 30

Estimación.• Para eliminar el riesgo básico, Cox sugiere

emplear el método de verosimilitud parcial.• Este estimador es en cierta forma similar al

de Chamberlain (1980) para estimar un modelo logit con datos de panel.

Atrás

J.Muro(16/01/2004) 31

Enfoque paramétrico.

• Unicidad o multiplicidad de destinos.• Tránsito entre un estado inicial y uno final.• Tránsito entre un estado inicial y varios estados de destino

alternativos.

• Ejemplos: duración del desempleo (al menos dos estados de destino).

• Desempleo-no desempleo.• Desempleo-inactividad y desempleo-ocupación.

• Modelo de duración.• Modelo de riesgos en competencia. Atrás

J.Muro(16/01/2004) 32

Modelo de riesgos en competencia: enfoque paramétrico.

• Independientes y dependientes.• Independientes: las salidas alternativas se

consideran independientes y se modelizancomo un modelo de duración. Las salidas a alternativas diferentes de la contemplada en cada caso entran en el modelo de la salida de interés en la forma de observaciones censuradas (no informativas del proceso a estudio).

Atrás

J.Muro(16/01/2004) 33

Modelo de duración: enfoque paramétrico.

• Modelos ph y mph.• El riesgo básico.• Las covariantes.• La heterogeneidad individual inobservada o

debilidad (frailty).• Estimación.• Ejemplo.

Atrás

J.Muro(16/01/2004) 34

Modelos ph y mph.• Modelo de mixtura de riesgos proporcionales (mph). Este

modelo especifica la tasa de riesgo como el producto de tres factores: el riesgo básico (base line), las variables que recogen la heterogeneidad observada (covariantes) y la heterogeneidad no observada (random effects). Su expresión es

• El primer factor del producto es el riesgo básico, el segundo la influencia de la heterogeneidad observada (siempre en forma exponencial) y el último la heterogeneidad inobservada. Atrás

.)'exp()(),,( 0 ηηηηδδδδηηηη tXthXth ====

J.Muro(16/01/2004) 35

El riesgo básico.• El riesgo de que ocurra un tránsito, si suponemos que el

efecto de la heterogeneidad (observada e inobservada) es unitario, es decir la heterogeneidad no influye en el riesgo.

• Se modeliza el riesgo básico en términos de la duración, como una variable aleatoria de distribución conocida. Especificaciones usuales son la exponencial, la Weibull, la gamma, la logística, la lognormal, la loglogística, la Gompertz, etc.

• Hoy en día es corriente modelizar el riesgo básico como una Gompertz cuadrática ya que es una forma lo suficientemente flexible como para englobar a otras distribuciones.

Siga.)( )(0

2210 tteth βββ ++=

J.Muro(16/01/2004) 36

El riesgo básico.• Si la expresión tiene una pendiente positiva hay

dependencia de la duración positiva y en el caso contrario la dependencia de la duración es negativa. Si analizamos este efecto en alguna distribución conocida, podemos apreciar que la distribución exponencial no admite dependencia de la duración ninguna (la tasa de salida es constante).

• La distribución de Weibull que es una de las más utilizadas tiene como función de riesgo

• Por lo que según el valor de p la dependencia de la duración será positiva (p>1) o negativa (p<1). Si p =1 la distribución de Weibull degenera en una distribución exponencial.

Atrás

.)( 10

−= pptth γ

J.Muro(16/01/2004) 37

Covariantes (regresores).• Los regresores se colocan en la forma habitual

pero su influencia sobre la tasa de salida siempre obedece a la distribución exponencial. Este criterio se deriva tradicionalmente de la sustitución del parámetro de una distribución exponencial por la combinación lineal de regresores. La misma operación se realiza en la distribución de Weibully otras.

• La conversión del parámetro fijo λ en una función de los regresores es un cambio en las unidades de medida en el eje del tiempo por lo que estos modelos se llaman también modelos de tiempo de fallo acelerado (accelerated failure time). Atrás

J.Muro(16/01/2004) 38

La debilidad.• La inclusión de un término de heterogeneidad no

observada o de efectos aleatorios específico de cada individuo se realiza habitualmente como una distribución aleatoria conocida, por ejemplo, la distribución gamma.

• Si esto se realiza así, surge un problema de identificación en el modelo que ha sido estudiado ampliamente en la literatura. Entre otros Elbers y Ridder (1982), Heckman y Singer (1984b), Ridder(1990) y Honoré (1993).

• La distribución a considerar en este caso es una mixtura de las distribuciones para el riesgo básico y la heterogeneidad. Siga

J.Muro(16/01/2004) 39

La debilidad.• Para evitar los problemas de identificación y

además eliminar la sensibilidad de los parámetros estimados a las distintas especificaciones posibles de la heterogeneidad, Heckman y Singer (1984b), han propuesto estimar el modelo con una especificación no paramétrica del término de heterogeneidad inobservada.

• En su artículo establecen que la especificación de una distribución para el término de heterogeneidad sobreparametriza el modelo y puede llevar a grandes errores (inconsistencia) al realizar inferencia en el modelo.

J.Muro(16/01/2004) 40

La debilidad.• El problema de la inconsistencia es una

manifestación en lo modelos de duración del clásico problema de los modelos con efectos aleatorios.

• En dichos modelos la posible correlación entre covariantes y la debilidad deriva en estimaciones inconsistentes de los parámetros.

Atrás

J.Muro(16/01/2004) 41

Estimación.• La estimación de los modelos mph y ph se suele realizar

mediante la maximización de la correspondiente función de verosimilitud.

• Función de verosimilitud.• La interpretación de los coeficientes estimados de las

variables incluidas en un modelo de duración no es simple en todos los casos. Si la función de riesgo es monótona el signo nos puede indicar la dirección de la influencia de las variables sobre la duración. Si el riesgo no es una función monótona la interpretación es ambigua. Una interpretación puede extraerse de la expresión de la media condicionada de la variable duración en forma de una regresión de las variables incluidas en el modelo de duración.

Atrás

J.Muro(16/01/2004) 42

Función de verosimilitud.• Muestra de N datos de duración.• Representativa del flujo de entrada en el estado

inicial al mismo tiempo (t0).• Se incluyen las contribuciones de las duraciones

completas e incompletas, es decir, de las observaciones censuradas y no censuradas.

• Las últimas contribuyen con la función de densidad de probabilidad y las primeras con la función de supervivencia.

Siga∑ ∑=

censuradasno censuradastStfL ).|(ln)|(lnln θθ

J.Muro(16/01/2004) 43

Función de verosimilitud.• La expresión anterior no incluye la función

de riesgo. Una expresión equivalente, que la incluye es

• Para maximizar la función de verosimilitud se utiliza el método de Newton-Raphson o el BHHH.

Atrás

∑ ∑=censuradasno todas

tSthL ).|(ln)|(lnln θθ

J.Muro(16/01/2004) 44

Orientaciones para el trabajo empírico.

• Utilizar siempre K-M. Para la descripción de la muestra disponible.

• Estimar modelo de Cox (para, al menos, disponer de una orientación sobre la magnitud y el signo del efecto de las covariantes).

• Estimar un modelo paramétrico que sea robusto a las críticas de inconsistencia (H-S).

Atrás

J.Muro(16/01/2004) 49

Arranz, J.M., R. Blundell, and J. Muro (2000), "A hazard model with a sequential exit", mimeo.

Cebrián, I., C. García, J. Muro, L. Toharia, and E. Villagómez(1996), “The Influence of unemployment benefits on unemployment duration: Evidence from Spain”, Labour, 10, págs. 239-267.

Cox, D.R. (1972), “Regression models and life-tables”. Journal of Royal Statistical Society, B, 34, págs. 187-220.

Cox, D.R. (1975), “Partial likelihood”. Biometrika, 62, págs. 269-276.

Heckman, J. and B. Singer (1984a), “Econometric duration analysis” Journal of Econometrics, 24, págs. 63-132.

J.Muro(16/01/2004) 50

Heckman, J. and B. Singer (1984b), “A method for minimizing the impact of distributional assumptions in econometric models for duration data”, Econometrica, 52, págs. 271-320.

Heckman, J., V. J. Hotz, y J. Walker (1985), “New evidence on the timing and spacing of births”. American Economic Review, 75, págs. 179-184.

Holford, T.R. (1976). “Life tables with concomitant information”. Biometrics, 32, págs. 587-597.

Jain, D. and N. J. Vilcassim (1991),” Investigating household purchase timing decisions: A conditional hazard function approach”. Marketing Science,10, págs. 1-23.

Kaplan, E.L. y P. Meier (1958), “Nonparametric estimation from incomplete observations. Journal of American Statistical Association, 53, págs. 457-481.”

Kalbfleisch, J. y R. Prentice (1980). The Statistical Analysis of failure time data. John Wiley and sons. Nueva York.

J.Muro(16/01/2004) 51

Katz, L.F. and B.D. Meyer (1990), ”The impact of the potential duration of unemployment benefits on the duration of unemployment”. Journal of Public Economics, 41, págs. 45-72.

Kiefer, N. (1988), “Economic duration data and hazard functions”. Journal of Economic Literature, 26, págs. 646-679.

Lancaster, R. (1979), ”Econometric methods for the duration of unemployment”. Econometrica, 47, págs. 939-956.

Lancaster, T. (1991). The econometric analysis of transition data. Cambridge University Press. Nueva York.

Lynch, L. M. (1985), “State dependency in youth unemployment”. Journal of Econometrics, 28, págs. 71-84.

Lynch, L. M. (1989), “ The youth labor market in the eighties : Determinants of re-employment probabilities for young men and women“. Review of Economics and Statistics, February, págs. 37-45.

J.Muro(16/01/2004) 52

Moffit, R. and W. Nicholson (1982), “The effect of unemployment insurance on unemployment: the case of federal supplemental benefits”. The Rewiew of Economics and Statistics, 64, 1, February, págs. 1-12.

Mortensen, D. T. and G.R. Neumann (1989),”Choice or chance? A structural interpretation of individual labor market histories”. En G.R.Neumann and N.C.Westergaard-Nielsen (eds.) Studies in Labor Market Dynamics.

Narendranathan, W. y P. Elias (1993), " Influences of past history on the incidence of youth unemployment: Empirical findings for the U.K.", Oxford Bulletin of Economics and Statistics, 55 (2), págs. 161-185.

Omori, Y. (1997), “ Stigma effects of nonemployment”, Economic Inquiry, Vol. XXXV, April, págs. 394-416.

J.Muro(16/01/2004) 53

Ridder, G. (1990),” The non-parametric identification of generalized hazard models”. Review of Economics Studies, 57, págs. 167-182.

Tannery, F. (1983), ”Search effort and unemployment insurance reconsidered”. Journal of Human Resources, 18, págs. 432-440.

Yi, K-M, B. Honore y J. Walker (1987), "A program for the estimation and testing of continuous time multi state multi spell models", Program Manual. Chicago: Economic ResearchCenter/National Opinion Research Center.