Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Muestreo en Poblaciones FinitasEstimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz
José A. Mayor Gallego
Departamento de Estadística e Investigación OperativaUniversidad de Sevilla
Septiembre de 2011
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 1/26
Contenidos
1 Objetivos
2 Estimador de Horvitz-ThompsonEjemplo. Estimación de yU . Diseño MAS(N,n)Ejemplo. Estimación de yU . Diseño MB(N,p)Reducción de Varianza
Método de Sampford
3 Estimador de Hájek de la Media Poblacional
4 Muestreo con reemplazamientoEstimador de Hansen-HurwitzUtilidad del muestreo con reemplazamiento
5 Bibliografía
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 2/26
Objetivos
Estimador de Horvitz-Thompson.
Diseños Muestrales ΠPS.
Estimador de Háyek.
Muestreo con Reemplazamiento. Estimador de Hansen-Hurwitz.
Muestreos PPS.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 3/26
Estimador de Horvitz-Thompson del Total
Consideremos una muestra, m, obtenida mediante un diseñomuestral con probabilidades de inclusión πi y πij .
Total Poblacional.ty =
∑i∈U
yi
Ponderaciones o Pesos.
ωi =1πi
Estimador de Horvitz-Thompson o π-estimador.
tyπ =∑i∈m
yi
πi=∑i∈m
ωiyi
Estimador Insesgado.
E [tyπ] = E[∑
i∈m
yi
πi
]= E
[∑i∈U
Iiyi
πi
]=∑i∈U
E [Ii ]yi
πi=∑i∈U
πiyi
πi= ty
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 4/26
Estimador de Horvitz-Thompson del Total. Varianza
Fórmulas Generales
Varianza.
V [tyπ] =∑ij∈U
∆ijyi
πi
yj
πj
Estimador Insesgado de la Varianza. Diseño Cuantificable.
V [tyπ] =∑ij∈m
∆ij
πij
yi
πi
yj
πj
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 5/26
Estimador de Horvitz-Thompson del Total. Varianza
Tamaño Muestral Fijo. Fórmula de Yates-Grundy-Sen
Varianza.
V [tyπ] = −12
∑ij∈U
∆ij
(yi
πi−
yj
πj
)2
Estimador Insesgado de la Varianza. Diseño Cuantificable.
V [tyπ] = −12
∑ij∈m
∆ij
πij
(yi
πi−
yj
πj
)2
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 6/26
Estimador de Horvitz-Thompson de la Media
Estimador de Horvitz-Thompson.
yUπ =1N
∑i∈m
yi
πi
Varianza.
V [yUπ] =1
N2
∑ij∈U
∆ijyi
πi
yj
πj
Estimador Insesgado de la Varianza. Diseño Cuantificable.
V [yUπ] =1
N2
∑ij∈m
∆ij
πij
yi
πi
yj
πj
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 7/26
Ejemplo: Estimación de yU . Diseño MAS(N, n)
Muestreo MAS(N,n): πi = n/N, πij = n(n − 1)/(N(N − 1)),∆ij = −f (1− f )/(N(N − 1)) si i 6= j , ∆ii = f (1− f )
Estimación de Horvit-Thopmson.
yUπ =1N
∑i∈m
yi
πi=
1N
∑i∈m
yi
n/N=
1n
∑i∈m
yi = ym
Varianza.
V [yUπ] =1
N2
∑ij∈U
∆ijyi
πi
yj
πj=
1N2
∑i∈U
f (1− f )
n2/N2 y2i
− 1N2
∑i 6=j∈U
f (1− f )
N(N − 1)n2/N2 yiyj = · · · =1− f
nS2
yU
Estimación de la Varianza.
V [yUπ] =1
N2
∑ij∈m
∆ij
πij
yi
πi
yj
πj= · · · 1− f
nS2
ym
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 8/26
Ejemplo: Estimación de yU . Diseño MB(N, p)
Muestreo MB(N,p): πi = p, πij = p2, ∆ij = p2 − p2 = 0 si i 6= j ,∆ii = p(1− p)
Estimación de Horvit-Thopmson.
yUπ =1N
∑i∈m
yi
πi=
1N
∑i∈m
yi
p=
1Np
∑i∈m
yi
Varianza.
V [yUπ] =1
N2
∑ij∈U
∆ijyi
πi
yj
πj=
1N2
∑i∈U
p(1− p)
p2 y2i =
1− pp N2
∑i∈U
y2i
Estimación de la Varianza.
V [yUπ] =1
N2
∑ij∈m
∆ij
πij
yi
πi
yj
πj=
1N2
∑i∈m
p(1− p)
p2py2
i =1− pp2 N2
∑i∈m
y2i
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 9/26
Reducción de Varianza
Estimación del Total. Fórmula de Yates-Grundy-Sen
V [tyπ] = −12
∑ij∈U
∆ij
(yi
πi−
yj
πj
)2
Si πi = αyi , ∀i ∈ U
(yi
πi−
yj
πj
)2
= 0, ∀i , j ∈ U ⇒ V [tyπ] = 0⇒ NO HAY ERROR
También se cumple para la estimación de la media.
Imposible de llevar a la práctica pues los valores yi no seconocen de antemano.
Empleando variables conocidas y relacionadas con Y no seconseguirá que la varianza sea nula pero sí que se reduzcaconsiderablemente.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 10/26
Diseños Muestrales ΠPS. Tamaño Muestral Fijo, n
X es una variable conocida, correlacionada positivamente conY . Se denomina Variable de Tamaño.
Un diseño muestral ΠPS [“Inclusion Probabilities Proportional toSize”] es aquel que cumple,
πi ∝ Xi , ∀i ∈ U
Al ser∑
U πi = n, se cumple,
πi =nXi
tx, ∀i ∈ U
Los diseños muestrales ΠPS se implementan mediantealgoritmos de cierta complicación. Todos ellos comparten las πipero las πij cambian dependiendo del método.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 11/26
Ejemplo. Método de Sampford. Implementado en SPSS
1 Seleccionar el primer elemento con probabilidades αi = xi/tx .2 Seleccionar los n − 1 restantes elementos con probabilidades
proporcionales a,αi
1− nαi
3 Finalizada la extracción, la muestra es aceptada si todos loselementos son diferentes. En caso contrario se rechaza, y sevuelve al paso 1.
πi = nαi
Aproximación de orden N−4 calculada por Asok y Sukhatme,
πij ≈ n(n − 1)αiαj
(1 + [(αi + αj )−
∑k
α2k ] + [2(α2
i + α2j )
−2∑k∈U
α3k−(n−2)αiαj +(n−3)(αi +αj )
∑k∈U
α2k−(n−3)(
∑k
α2k )2]
)INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 12/26
Otros Métodos ΠPS
Método de Sunter.
Método de Madow. Tipo Sistemático. Auditorías.
Método de Brewer. Implementado en SPSS y SAS.
Método de Hanurav-Vijayan. Implementado en SPSS y SAS.
Método de Midzuno.
Y un largo etcétera.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 13/26
Estimador de Hájek de la Media Poblacional
La media poblacional,
yU =1N
ty
es un cociente o razón entre el total, ty , y N.
El total podemos estimarlo mediante el estimador deHorvitz-Thompson,
tyπ =∑i∈m
yi
πi
Expresando,N =
∑i∈U
1
es decir, el total de la variable UNO sobre la población, podemosestimarlo también mediante el estimador de Horvitz-Thompson,
Nπ =∑i∈m
1πi
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 14/26
Estimador de Hájek de la Media Poblacional
Por sustitución el siguiente estimador de la media, conocido comoestimador de Hájek,
yUHJ =
∑i∈m
yi/πi∑i∈m
1/πi
Es un cociente de dos estimadores insesgados. En general noes insesgado pero su sesgo es reducido.
Para estudiar su varianza se requieren técnicas especiales.
Es el estimador de medias [y proporciones] empleado por losprogramas de aplicación al muestreo como SAS, SPSS, R yotros.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 15/26
Estimador de Hájek de la Media Poblacional
Diseño Muestral MAS(N,n)
yUHJ =
∑i∈m
yi/πi∑i∈m
1/πi
=
∑i∈m
yi/(n/N)
n/(n/N)=
1n
∑i∈m
yi = ym
Diseño Muestral MB(N,p)
yUHJ =
∑i∈m
yi/πi∑i∈m
1/πi
=
∑i∈m
yi/p∑i∈m
1/p=
∑i∈m
yi
n(m)= ym
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 16/26
Muestreo con Reemplazamiento
Es posible considerar muestreos en los que los elementospuedan aparecer repetidos en la muestra.
La situación sería similar a la extracción de n bolas de una cajaen la que hay N bolas numeradas de 1 a N, devolviendo a lacaja la bola obtenida en cada extracción.
La selección se realiza mediante una distribución deprobabilidad definida sobre U,
{p1,p2, . . . ,pN | pi ≥ 0 ∀i ,N∑
i=1
pi = 1}
que permanece inalterada durante todas las extracciones.
No es aplicable el estimador de Horvitz-Thompson.
El caso particular pi = 1/N se denomina Muestreo AleatorioSimple con Reemplazamiento.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 17/26
Estimador de Hansen-Hurwitz del Total
Cambio de Variable
zi =yi
pi, ∀i ∈ U
Estimador de Hansen-Hurwitz del Total. Insesgado.
tyHH =∑i∈m
yi
npi= zm
Varianza.
V[tyHH
]=
1n
∑i∈U
(yi
pi− ty
)2
pi =1
2n
∑i j∈U
pipj (zi − zj )2
Estimador Insesgado de la varianza.
V[tyHH
]=
1n(n − 1)
∑i∈m
(yi
pi− tyHH
)2
=1n
S2zm
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 18/26
Estimador de Hansen-Hurwitz de la Media
Cambio de Variable
zi =yi
Npi, ∀i ∈ U
Estimador de Hansen-Hurwitz de la Media. Insesgado.
yUHH =1N
∑i∈m
yi
npi= zm
Varianza.
V[yUHH
]=
1n
∑i∈U
(yi
Npi− yU
)2
pi =1
2n
∑i j∈U
pipj (zi − zj )2
Estimador Insesgado de la varianza.
V[yUHH
]=
1n(n − 1)
∑i∈m
(yi
Npi− ymHH
)2
=1n
S2zm
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 19/26
Estimador de Hansen-Hurvitz
Tanto en el caso del total como de la media, el cálculo prácticoasociado a la estimación se reduce al cálculo de una mediamuestral y de una cuasivarianza muestral.
Si las probabilidades de de selección son proporcionales a lavariable de estudio,
pi ∝ yi , i = 1, . . . ,N
LA VARIANZA ES NULA.
Casuística similar a la del estimador de Horvitz-Thompson. Seconsigue una reducción de la varianza eligiendo las piproporcionales a una variable X relacionada con la Y . MétodoPPS [Probabilidades de Selección proporcionales al Tamaño].
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 20/26
Muestreo Aleatorio Simple con Reemplazamiento, MASR(N, n)
Selección de n unidades con probabilidades pi = 1/N, i ∈ U,con reemplazamiento.
Estimación de la Media.
yUHH =1N
∑i∈m
yi
npi=
1N
∑i∈m
yi
n/N= ym
Varianza.
V [yUHH] =1n
1N
∑i∈U
(yi − yU)2 =1nσ2
yU
Varianza Estimada.
V [yUHH] =1n
S2zm =
1n
S2ym
Similar a la que se obtiene en el caso de muestreo aleatoriosimple sin reemplazamiento, salvo el factor (1− f ). Estacantidad suele denominarse factor de corrección porpoblación finita.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 21/26
Eficiencia en Relación al MAS(N, n)
El error difiere del obtenido para el muestreo aleatorio simple sinreemplazamiento básicamente por el factor 1− f .
VMAS =1− f
nS2
yU y VMASR =1nσ2
yU
se tiene,
VMAS
VMASR=
1− fn
S2yU
1nσ2
yU
=
N − nN
S2yU
N − 1N
S2yU
=N − nN − 1
< 1 si n > 1
El reemplazamiento hace disminuir la eficiencia pues aumenta lavarianza de la estimación. Este aumento de la varianza es menosacentuado conforme la población es mayor y no suele ser muygrande en condiciones normales. Por ejemplo, si N = 1.000.000 yn = 400, se tiene,
N − nN − 1
=999.600999.999
= 0′999600999 próximo a 1
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 22/26
Utilidad del Muestreo con Reemplazamiento
La aplicación del muestreo con reemplazamiento se realiza mása nivel teórico que real. No es usual realizar en una poblaciónmuestreo con reemplazamiento para estimar parámetros.
Los diseños sin reemplazamiento presentan probabilidades deinclusión de segundo orden a veces difíciles o imposibles decalcular. Ello dificulta la computación de la varianza estimada ydel error de muestreo.
La varianza estimada del estimador de Hansen-Hurwitz,
V[tyHH
]=
1n(n − 1)
∑i∈m
(zi − zm)2 =1n
S2zm, siendo zi =
yi
pi
no presenta estos inconvenientes y puede ser empleadaaunque el muestreo sea sin reemplazamiento, aunque dandolugar a una sobre estimación.
Por ejemplo, si trabajamos con un nivel de confianza del 95 %, elintervalo obtenido con este método tendrá una confianza realigual o superior a dicho nivel nominal.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 23/26
Utilidad del Muestreo con Reemplazamiento
En resumen, cuando no dispongamos de las πij , y estimamos el total[o la media] mediante el estimador de Horvitz-Thompson,
tyπ =∑i∈m
yi
πi
Podemos estimar la varianza como si hubiéramos aplicado elestimador de Hansen-Hurvitz,
tyHH =∑i∈m
yi
npi
es decir, con la fórmula,
V[tyHH
]=
1n(n − 1)
∑i∈m
(zi − zm)2 =1n
S2zm, siendo zi =
yi
pi=
nyi
πi
donde, por analogía, hemos igualado πi a npi , es decir,pi = πi/n.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 24/26
Utilidad del Muestreo con Reemplazamiento
OBSERVACIONES
Esta metodología NO AUMENTA LA VARIANZA DE LAESTIMACIÓN, que es la que es, sino que proporciona unasobrestimación de dicha varianza, siendo ello preferible a no darninguna estimación y por lo tanto no poder calcular el error demuestreo.
No tiene sentido aplicarla si el muestreo es tal que las πij setienen o son fáciles de calcular, pues en tal caso se emplea laexpresión propia sin mayor problema. Por ejemplo, para elmuestreo aleatorio simple sabemos que,
πij =n(n − 1)
N(N − 1)
y además disponemos de una expresión fácil para estimar lavarianza por lo que sería absurdo recurrir al procedimientoanterior.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 25/26
Bibliografía
Fernández García, F.R. y Mayor Gallego, J.A. (1995). Muestreo enpoblaciones finitas: Curso básico. E.U.B. Ediciones Universitarias deBarcelona.
Lohr, S.L. (2010). Sampling: Design and Analysis. 2nd Edition.Brooks/Cole. International Edition.
Särndal, C., Swensson, B. and Wretman, J. (1992). Model AssistedSurvey Sampling. Springer-Verlag. New York, Inc.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 26/26