Captura i recaptura: un mètode per calcular el nombre de consumidors de drogues Pere Puig Servei...

Preview:

Citation preview

Captura i recaptura: un Captura i recaptura: un mètode per calcular el mètode per calcular el

nombre de consumidors nombre de consumidors de droguesde drogues

Pere PuigPere Puig

Servei d’Estadística de la UABServei d’Estadística de la UAB

Quants peixos hi ha en aquest Quants peixos hi ha en aquest estany ?estany ?

Mètode per calcular Mètode per calcular l’abundància de la poblaciól’abundància de la població

Capturem un nombre determinat de peixos, Capturem un nombre determinat de peixos, els marquem i els deixem una altra vegada els marquem i els deixem una altra vegada a l’estany.a l’estany.

Passat un temps prudencial per que els Passat un temps prudencial per que els marcats es barregin amb els altres, tornem marcats es barregin amb els altres, tornem a fer una segona captura.a fer una segona captura.

Amb aquesta segona captura trobarem que Amb aquesta segona captura trobarem que uns peixos ja estan marcats (recapturats) i uns peixos ja estan marcats (recapturats) i que d’altres no. Aquesta informació ens que d’altres no. Aquesta informació ens permet calcular l’abundància de la població.permet calcular l’abundància de la població.

Capturem uns quants i els Capturem uns quants i els marquemmarquem

Els marcats queden repartits Els marcats queden repartits homogèniament entre els altres.homogèniament entre els altres.

Tornem a fer una segona Tornem a fer una segona capturacaptura

Hem capturat 8, dels quals 2 estan marcats.

Si Si nn11 és la quantitat de peixos obtinguts (i posteriorment és la quantitat de peixos obtinguts (i posteriorment marcats) a la primera captura, marcats) a la primera captura, nn22 el nombre de peixos de el nombre de peixos de la segona captura, la segona captura, mm la quantitat dels que es troben la quantitat dels que es troben marcats en aquesta segona captura i marcats en aquesta segona captura i NN és el nombre total és el nombre total de peixos a l’estany, es verifica de peixos a l’estany, es verifica

i, per tant,i, per tant,

n

n2

1 m

N

mN nn 21

Pel nostre exemple, Pel nostre exemple,

nn1 1 = 5= 5

nn2 2 = 8= 8

m = 2m = 2

202

85N̂

mN̂ nn 21

Això és el que es coneix com l’estimador de Lincoln-Petersen de la grandàriapoblacional.

L’estimador de Lincoln-Petersen no té L’estimador de Lincoln-Petersen no té sentit quan m=0.sentit quan m=0.

És una variable aleatòria.És una variable aleatòria. Té un biaix que es pot corregir utilitzant Té un biaix que es pot corregir utilitzant

l’estimador de Chapman (1951): l’estimador de Chapman (1951):

11)(m

)1)(1( nnN̂

21

c

Pel nostre exemple:

1711)(2

)18)(15(N̂c

L’estudi d’aquests estimadors es basa en el fet L’estudi d’aquests estimadors es basa en el fet que, fixats que, fixats nn11 i i nn22, el nombre de peixos de la , el nombre de peixos de la segona captura segona captura mm segueix una distribució segueix una distribució hipergeomètrica. És a dir, hipergeomètrica. És a dir,

Els valors que pot prendre Els valors que pot prendre m m es troben a l’intervales troben a l’interval

2

2

11

n

N

kn

nN

k

n

k)P(m

),(),,0( 2112 nnminNnnmax

La seva variància es pot estimar fent servir l’expressió,

22121

c 1)2)(m(m

)m)(m)(1)(1()(V nnnn

i això ens permet calcular un interval de confiança aproximat (95%):

)(V96.1 N̂N̂N cc

Pel nostre exemple,

1017 2796.117N

La precisió de l’estimació es pot augmentaragafant n1 i n2 més grans.

El procés de captura i marcatge es pot repetir unes quantes vegades més. A cada pas es verificaria si els individus capturats estan marcats i, en cas contrari, es marcarien abans de deixar-los anar.

Estimador de Schnabel (1938)

Els divulgadors del mètode

Condicions bàsiques del modelCondicions bàsiques del model

La població és tancada. La població és tancada. Cada mostra és aleatòria.Cada mostra és aleatòria. Tots els animals tenen la mateixa Tots els animals tenen la mateixa

probabilitat de ser capturats a cada probabilitat de ser capturats a cada mostra.mostra.

Captura i marcatge no afecten a la Captura i marcatge no afecten a la probabilitat de recaptura.probabilitat de recaptura.

Les marques no desapareixen o es Les marques no desapareixen o es perden. perden.

Laplace, el 1783, va utilitzar aquest mètode per estimar el nombre d'habitants de França.

Un cens incomplet va ser la primera captura (n1). Els individus d’una enquesta van constituir la segona (n2). Els individus coincidents en ambdues llistes o fonts varen configurar la quantitat m.

El precursor

En Ciències Socials i en Epidemiologia els mètodesde captura i recaptura es fan servir analitzant diverses llistes d’individus o fonts i mirant les coincidències.

Exemple (àrea de Casale Monferrato 1988)

-Llista de pacients de diabetis de centres hospitalaris públics i privats de la regió. Total pacients: 452.

-Llista computeritzada de prescripcions d’insulina.Total: 1135.

-Individus coincidents en ambdues llistes: 249.

Per aquest exemple, Per aquest exemple,

nn1 1 = 452= 452

nn2 2 = 1135= 1135

m = 249m = 249

11)(m

)1)(1( nnN̂

21

c

205711)(249

)11135)(1452(N̂c

5900)(V N̂c

1512057 590096.12057N

Problemes al treballar amb Problemes al treballar amb llistesllistes

Heterogeneïtat: Diferents individus tenen diferents probabilitats de ser “capturats”. Els valors poden dependre del sexe, edat, situació social, etc. Dependència: El fet de que un individu estigui en una llista afecta a la probabilitat de que estigui en una altra.

Possibles solucionsPossibles solucions

Heterogeneïtat: Estratificació. Considerar un model independent per cada agrupació o estrat. Dependència: Models més complicats. Per exemple els models log-lineals.

Models Log-LinealsModels Log-Lineals

Si NoSi n11 n10

No n01 n00

La informació procedent de dues llistes la podem representar en una taula de contingència.

Llista 1

Llista 2

n00 no és observable

N= n11 + n10 + n01 + n00Grandària de la població:

Si NoSi 249 203

No 886 n00

Centres hospitalaris

Prescripcions Insulina

Per l’exemple dels pacients de diabetis,

N= 1338 + n00Grandària de la població:

La idea dels models log-lineals es basa en suposar que

log(E(nij))= a + b L1 + c L2 + d L1 L2 ,

on L1 i L2 són variables indicadores de cadascuna de les llistes i a,b,c,d són paràmetres a estimar.

El paràmetre que més ens interessa és l’a.

El coeficient d mesura la dependència existent entre ambdues llistes.

Malauradament aquest model no és estimable per què hi ha massa paràmetres. Quan tenim dues llistes només s’utilitza el model en que es suposa independència ,

log(E(nij))= a + b L1 + c L2

Una justificació intuïtiva del model log-lineal la podem fer considerant que en un model multinomial, tindríem

)plog()plog()Nlog())E(nlog(

pNp)E(n

2111

2111

Model amb tres llistes.Model amb tres llistes.

Es vol conèixer la quantitat d’atacs de gossos que hiha hagut en una determinada ciutat en un cert períodede temps.

Disposem de tres llistes de registres: C. Animal Hospital Policia N. atacs 1 1 1 1 0 1 1 7 1 0 1 15 0 0 1 326 1 1 0 27 0 1 0 323 1 0 0 91 0 0 0 ?

El model log-lineal més general que podem considerar és,

log(E(nij))= a + b L1 + c L2 + d L3 + e L1 L2 + f L1 L3+g L2 L3

on L1 , L2 i L3 són les variables indicadores de cadascuna de les llistes.

El paràmetre d’interès és l’a.

No podem incloure una interacció d’ordre 3 (L1 L2 L3)

per què el model estaria sobre-parametritzat.

Per ajustar el model farem servir un paquet estadístic adient: GLIM, SAS, S-Plus, etc.

Programa SAS per ajustar les Programa SAS per ajustar les dades:dades:

data a;input l1 l2 l3 n;l12=l1*l2;l13=l1*l3;l23=l2*l3;cards;1 1 1 10 1 1 71 0 1 150 0 1 3261 1 0 270 1 0 3231 0 0 91;proc genmod;model n=l1 l2 l3 l12 l13 l23/d=poisson;estimate 'missing' intercept 1/exp;run;

El model s’ha d’afinar eliminant els termes que no siguin rellevants.

Pel nostre exemple el submodel més adient ha estat el següent:

log(E(nij))= a + b L1 + c L2 + d L3 + g L2 L3

El nombre estimat d’atacs no registrats (missing) ha estat de 1388.

Afegint els registrats, això ens dóna un total de 2178.

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 2 3.8174 1.9087 Scaled Deviance 2 3.8174 1.9087 Pearson Chi-Square 2 3.8535 1.9268 Scaled Pearson X2 2 3.8535 1.9268 Log Likelihood 3514.5195

SAS output 1:

SAS output 2:

Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq

Intercept 1 7.2358 0.1891 6.8651 7.6065 1463.75 <.0001 l1 1 -2.7250 0.1574 -3.0335 -2.4164 299.65 <.0001 l2 1 -1.4414 0.1889 -1.8116 -1.0712 58.24 <.0001 l3 1 -1.4674 0.1891 -1.8380 -1.0969 60.24 <.0001 l23 1 -2.3111 0.4045 -3.1038 -1.5183 32.65 <.0001 Scale 0 1.0000 0.0000 1.0000 1.0000

Standard Chi- Label Estimate Error Alpha Confidence Limits Square Pr > ChiSq

missing 7.2358 0.1891 0.05 6.8651 7.6065 1463.7 <.0001 Exp(missing) 1388.279 262.5616 0.05 958.2769 2011.232

Recommended