29
Captura i recaptura: Captura i recaptura: un mètode per calcular un mètode per calcular el nombre de el nombre de consumidors de drogues consumidors de drogues Pere Puig Pere Puig Servei d’Estadística de la UAB Servei d’Estadística de la UAB

Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Embed Size (px)

Citation preview

Page 1: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Captura i recaptura: un Captura i recaptura: un mètode per calcular el mètode per calcular el

nombre de consumidors nombre de consumidors de droguesde drogues

Pere PuigPere Puig

Servei d’Estadística de la UABServei d’Estadística de la UAB

Page 2: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Quants peixos hi ha en aquest Quants peixos hi ha en aquest estany ?estany ?

Page 3: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Mètode per calcular Mètode per calcular l’abundància de la poblaciól’abundància de la població

Capturem un nombre determinat de peixos, Capturem un nombre determinat de peixos, els marquem i els deixem una altra vegada els marquem i els deixem una altra vegada a l’estany.a l’estany.

Passat un temps prudencial per que els Passat un temps prudencial per que els marcats es barregin amb els altres, tornem marcats es barregin amb els altres, tornem a fer una segona captura.a fer una segona captura.

Amb aquesta segona captura trobarem que Amb aquesta segona captura trobarem que uns peixos ja estan marcats (recapturats) i uns peixos ja estan marcats (recapturats) i que d’altres no. Aquesta informació ens que d’altres no. Aquesta informació ens permet calcular l’abundància de la població.permet calcular l’abundància de la població.

Page 4: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Capturem uns quants i els Capturem uns quants i els marquemmarquem

Page 5: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Els marcats queden repartits Els marcats queden repartits homogèniament entre els altres.homogèniament entre els altres.

Page 6: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Tornem a fer una segona Tornem a fer una segona capturacaptura

Hem capturat 8, dels quals 2 estan marcats.

Page 7: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Si Si nn11 és la quantitat de peixos obtinguts (i posteriorment és la quantitat de peixos obtinguts (i posteriorment marcats) a la primera captura, marcats) a la primera captura, nn22 el nombre de peixos de el nombre de peixos de la segona captura, la segona captura, mm la quantitat dels que es troben la quantitat dels que es troben marcats en aquesta segona captura i marcats en aquesta segona captura i NN és el nombre total és el nombre total de peixos a l’estany, es verifica de peixos a l’estany, es verifica

i, per tant,i, per tant,

n

n2

1 m

N

mN nn 21

Page 8: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Pel nostre exemple, Pel nostre exemple,

nn1 1 = 5= 5

nn2 2 = 8= 8

m = 2m = 2

202

85N̂

mN̂ nn 21

Això és el que es coneix com l’estimador de Lincoln-Petersen de la grandàriapoblacional.

Page 9: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

L’estimador de Lincoln-Petersen no té L’estimador de Lincoln-Petersen no té sentit quan m=0.sentit quan m=0.

És una variable aleatòria.És una variable aleatòria. Té un biaix que es pot corregir utilitzant Té un biaix que es pot corregir utilitzant

l’estimador de Chapman (1951): l’estimador de Chapman (1951):

11)(m

)1)(1( nnN̂

21

c

Pel nostre exemple:

1711)(2

)18)(15(N̂c

Page 10: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

L’estudi d’aquests estimadors es basa en el fet L’estudi d’aquests estimadors es basa en el fet que, fixats que, fixats nn11 i i nn22, el nombre de peixos de la , el nombre de peixos de la segona captura segona captura mm segueix una distribució segueix una distribució hipergeomètrica. És a dir, hipergeomètrica. És a dir,

Els valors que pot prendre Els valors que pot prendre m m es troben a l’intervales troben a l’interval

2

2

11

n

N

kn

nN

k

n

k)P(m

),(),,0( 2112 nnminNnnmax

Page 11: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

La seva variància es pot estimar fent servir l’expressió,

22121

c 1)2)(m(m

)m)(m)(1)(1()(V nnnn

i això ens permet calcular un interval de confiança aproximat (95%):

)(V96.1 N̂N̂N cc

Pel nostre exemple,

1017 2796.117N

Page 12: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

La precisió de l’estimació es pot augmentaragafant n1 i n2 més grans.

El procés de captura i marcatge es pot repetir unes quantes vegades més. A cada pas es verificaria si els individus capturats estan marcats i, en cas contrari, es marcarien abans de deixar-los anar.

Estimador de Schnabel (1938)

Page 13: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Els divulgadors del mètode

Page 14: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Condicions bàsiques del modelCondicions bàsiques del model

La població és tancada. La població és tancada. Cada mostra és aleatòria.Cada mostra és aleatòria. Tots els animals tenen la mateixa Tots els animals tenen la mateixa

probabilitat de ser capturats a cada probabilitat de ser capturats a cada mostra.mostra.

Captura i marcatge no afecten a la Captura i marcatge no afecten a la probabilitat de recaptura.probabilitat de recaptura.

Les marques no desapareixen o es Les marques no desapareixen o es perden. perden.

Page 15: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Laplace, el 1783, va utilitzar aquest mètode per estimar el nombre d'habitants de França.

Un cens incomplet va ser la primera captura (n1). Els individus d’una enquesta van constituir la segona (n2). Els individus coincidents en ambdues llistes o fonts varen configurar la quantitat m.

El precursor

Page 16: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

En Ciències Socials i en Epidemiologia els mètodesde captura i recaptura es fan servir analitzant diverses llistes d’individus o fonts i mirant les coincidències.

Exemple (àrea de Casale Monferrato 1988)

-Llista de pacients de diabetis de centres hospitalaris públics i privats de la regió. Total pacients: 452.

-Llista computeritzada de prescripcions d’insulina.Total: 1135.

-Individus coincidents en ambdues llistes: 249.

Page 17: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Per aquest exemple, Per aquest exemple,

nn1 1 = 452= 452

nn2 2 = 1135= 1135

m = 249m = 249

11)(m

)1)(1( nnN̂

21

c

205711)(249

)11135)(1452(N̂c

5900)(V N̂c

1512057 590096.12057N

Page 18: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Problemes al treballar amb Problemes al treballar amb llistesllistes

Heterogeneïtat: Diferents individus tenen diferents probabilitats de ser “capturats”. Els valors poden dependre del sexe, edat, situació social, etc. Dependència: El fet de que un individu estigui en una llista afecta a la probabilitat de que estigui en una altra.

Page 19: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Possibles solucionsPossibles solucions

Heterogeneïtat: Estratificació. Considerar un model independent per cada agrupació o estrat. Dependència: Models més complicats. Per exemple els models log-lineals.

Page 20: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Models Log-LinealsModels Log-Lineals

Si NoSi n11 n10

No n01 n00

La informació procedent de dues llistes la podem representar en una taula de contingència.

Llista 1

Llista 2

n00 no és observable

N= n11 + n10 + n01 + n00Grandària de la població:

Page 21: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Si NoSi 249 203

No 886 n00

Centres hospitalaris

Prescripcions Insulina

Per l’exemple dels pacients de diabetis,

N= 1338 + n00Grandària de la població:

Page 22: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

La idea dels models log-lineals es basa en suposar que

log(E(nij))= a + b L1 + c L2 + d L1 L2 ,

on L1 i L2 són variables indicadores de cadascuna de les llistes i a,b,c,d són paràmetres a estimar.

El paràmetre que més ens interessa és l’a.

El coeficient d mesura la dependència existent entre ambdues llistes.

Page 23: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Malauradament aquest model no és estimable per què hi ha massa paràmetres. Quan tenim dues llistes només s’utilitza el model en que es suposa independència ,

log(E(nij))= a + b L1 + c L2

Una justificació intuïtiva del model log-lineal la podem fer considerant que en un model multinomial, tindríem

)plog()plog()Nlog())E(nlog(

pNp)E(n

2111

2111

Page 24: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Model amb tres llistes.Model amb tres llistes.

Es vol conèixer la quantitat d’atacs de gossos que hiha hagut en una determinada ciutat en un cert períodede temps.

Disposem de tres llistes de registres: C. Animal Hospital Policia N. atacs 1 1 1 1 0 1 1 7 1 0 1 15 0 0 1 326 1 1 0 27 0 1 0 323 1 0 0 91 0 0 0 ?

Page 25: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

El model log-lineal més general que podem considerar és,

log(E(nij))= a + b L1 + c L2 + d L3 + e L1 L2 + f L1 L3+g L2 L3

on L1 , L2 i L3 són les variables indicadores de cadascuna de les llistes.

El paràmetre d’interès és l’a.

No podem incloure una interacció d’ordre 3 (L1 L2 L3)

per què el model estaria sobre-parametritzat.

Per ajustar el model farem servir un paquet estadístic adient: GLIM, SAS, S-Plus, etc.

Page 26: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Programa SAS per ajustar les Programa SAS per ajustar les dades:dades:

data a;input l1 l2 l3 n;l12=l1*l2;l13=l1*l3;l23=l2*l3;cards;1 1 1 10 1 1 71 0 1 150 0 1 3261 1 0 270 1 0 3231 0 0 91;proc genmod;model n=l1 l2 l3 l12 l13 l23/d=poisson;estimate 'missing' intercept 1/exp;run;

Page 27: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

El model s’ha d’afinar eliminant els termes que no siguin rellevants.

Pel nostre exemple el submodel més adient ha estat el següent:

log(E(nij))= a + b L1 + c L2 + d L3 + g L2 L3

El nombre estimat d’atacs no registrats (missing) ha estat de 1388.

Afegint els registrats, això ens dóna un total de 2178.

Page 28: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 2 3.8174 1.9087 Scaled Deviance 2 3.8174 1.9087 Pearson Chi-Square 2 3.8535 1.9268 Scaled Pearson X2 2 3.8535 1.9268 Log Likelihood 3514.5195

SAS output 1:

Page 29: Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei d’Estadística de la UAB

SAS output 2:

Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq

Intercept 1 7.2358 0.1891 6.8651 7.6065 1463.75 <.0001 l1 1 -2.7250 0.1574 -3.0335 -2.4164 299.65 <.0001 l2 1 -1.4414 0.1889 -1.8116 -1.0712 58.24 <.0001 l3 1 -1.4674 0.1891 -1.8380 -1.0969 60.24 <.0001 l23 1 -2.3111 0.4045 -3.1038 -1.5183 32.65 <.0001 Scale 0 1.0000 0.0000 1.0000 1.0000

Standard Chi- Label Estimate Error Alpha Confidence Limits Square Pr > ChiSq

missing 7.2358 0.1891 0.05 6.8651 7.6065 1463.7 <.0001 Exp(missing) 1388.279 262.5616 0.05 958.2769 2011.232