Muestreo en Poblaciones Finitas - Universidad de Sevillapersonal.us.es/jmayor/ficheros/mu_iea_03.pdf · 2017. 2. 12. · Universidad de Sevilla Septiembre de 2011 INSTITUTO DE ESTADÍSTICA

Muestreo en Poblaciones FinitasEstimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz

José A. Mayor Gallego

Departamento de Estadística e Investigación OperativaUniversidad de Sevilla

Septiembre de 2011

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 1/26

Contenidos

1 Objetivos

2 Estimador de Horvitz-ThompsonEjemplo. Estimación de yU . Diseño MAS(N,n)Ejemplo. Estimación de yU . Diseño MB(N,p)Reducción de Varianza

Método de Sampford

3 Estimador de Hájek de la Media Poblacional

4 Muestreo con reemplazamientoEstimador de Hansen-HurwitzUtilidad del muestreo con reemplazamiento

5 Bibliografía


Objetivos

Estimador de Horvitz-Thompson.

Diseños Muestrales ΠPS.

Estimador de Háyek.

Muestreo con Reemplazamiento. Estimador de Hansen-Hurwitz.

Muestreos PPS.


Estimador de Horvitz-Thompson del Total

Consideremos una muestra, m, obtenida mediante un diseñomuestral con probabilidades de inclusión πi y πij .

Total Poblacional.ty =

∑i∈U

yi

Ponderaciones o Pesos.

ωi =1πi

Estimador de Horvitz-Thompson o π-estimador.

tyπ =∑i∈m

yi

πi=∑i∈m

ωiyi

Estimador Insesgado.

E [tyπ] = E[∑

i∈m

yi

πi

]= E

[∑i∈U

Iiyi

πi

]=∑i∈U

E [Ii ]yi

πi=∑i∈U

πiyi

πi= ty


Estimador de Horvitz-Thompson del Total. Varianza

Fórmulas Generales

Varianza.

V [tyπ] =∑ij∈U

∆ijyi

πi

yj

πj

Estimador Insesgado de la Varianza. Diseño Cuantificable.

V [tyπ] =∑ij∈m

∆ij

πij

yi

πi

yj

πj


Estimador de Horvitz-Thompson del Total. Varianza

Tamaño Muestral Fijo. Fórmula de Yates-Grundy-Sen

Varianza.

V [tyπ] = −12

∑ij∈U

∆ij

(yi

πi−

yj

πj

)2


V [tyπ] = −12

∑ij∈m

∆ij

πij

(yi

πi−

yj

πj

)2


Estimador de Horvitz-Thompson de la Media

Estimador de Horvitz-Thompson.

yUπ =1N

∑i∈m

yi

πi

Varianza.

V [yUπ] =1

N2

∑ij∈U

∆ijyi

πi

yj

πj


V [yUπ] =1

N2

∑ij∈m

∆ij

πij

yi

πi

yj

πj


Ejemplo: Estimación de yU . Diseño MAS(N, n)

Muestreo MAS(N,n): πi = n/N, πij = n(n − 1)/(N(N − 1)),∆ij = −f (1− f )/(N(N − 1)) si i 6= j , ∆ii = f (1− f )

Estimación de Horvit-Thopmson.

yUπ =1N

∑i∈m

yi

πi=

1N

∑i∈m

yi

n/N=

1n

∑i∈m

yi = ym

Varianza.

V [yUπ] =1

N2

∑ij∈U

∆ijyi

πi

yj

πj=

1N2

∑i∈U

f (1− f )

n2/N2 y2i

− 1N2

∑i 6=j∈U

f (1− f )

N(N − 1)n2/N2 yiyj = · · · =1− f

nS2

yU

Estimación de la Varianza.

V [yUπ] =1

N2

∑ij∈m

∆ij

πij

yi

πi

yj

πj= · · · 1− f

nS2

ym


Ejemplo: Estimación de yU . Diseño MB(N, p)

Muestreo MB(N,p): πi = p, πij = p2, ∆ij = p2 − p2 = 0 si i 6= j ,∆ii = p(1− p)

Estimación de Horvit-Thopmson.

yUπ =1N

∑i∈m

yi

πi=

1N

∑i∈m

yi

p=

1Np

∑i∈m

yi

Varianza.

V [yUπ] =1

N2

∑ij∈U

∆ijyi

πi

yj

πj=

1N2

∑i∈U

p(1− p)

p2 y2i =

1− pp N2

∑i∈U

y2i

Estimación de la Varianza.

V [yUπ] =1

N2

∑ij∈m

∆ij

πij

yi

πi

yj

πj=

1N2

∑i∈m

p(1− p)

p2py2

i =1− pp2 N2

∑i∈m

y2i


Reducción de Varianza

Estimación del Total. Fórmula de Yates-Grundy-Sen

V [tyπ] = −12

∑ij∈U

∆ij

(yi

πi−

yj

πj

)2

Si πi = αyi , ∀i ∈ U

(yi

πi−

yj

πj

)2

= 0, ∀i , j ∈ U ⇒ V [tyπ] = 0⇒ NO HAY ERROR

También se cumple para la estimación de la media.

Imposible de llevar a la práctica pues los valores yi no seconocen de antemano.

Empleando variables conocidas y relacionadas con Y no seconseguirá que la varianza sea nula pero sí que se reduzcaconsiderablemente.


Diseños Muestrales ΠPS. Tamaño Muestral Fijo, n

X es una variable conocida, correlacionada positivamente conY . Se denomina Variable de Tamaño.

Un diseño muestral ΠPS [“Inclusion Probabilities Proportional toSize”] es aquel que cumple,

πi ∝ Xi , ∀i ∈ U

Al ser∑

U πi = n, se cumple,

πi =nXi

tx, ∀i ∈ U

Los diseños muestrales ΠPS se implementan mediantealgoritmos de cierta complicación. Todos ellos comparten las πipero las πij cambian dependiendo del método.


Ejemplo. Método de Sampford. Implementado en SPSS

1 Seleccionar el primer elemento con probabilidades αi = xi/tx .2 Seleccionar los n − 1 restantes elementos con probabilidades

proporcionales a,αi

1− nαi

3 Finalizada la extracción, la muestra es aceptada si todos loselementos son diferentes. En caso contrario se rechaza, y sevuelve al paso 1.

πi = nαi

Aproximación de orden N−4 calculada por Asok y Sukhatme,

πij ≈ n(n − 1)αiαj

(1 + [(αi + αj )−

∑k

α2k ] + [2(α2

i + α2j )

−2∑k∈U

α3k−(n−2)αiαj +(n−3)(αi +αj )

∑k∈U

α2k−(n−3)(

∑k

α2k )2]

)INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB � 12/26

Otros Métodos ΠPS

Método de Sunter.

Método de Madow. Tipo Sistemático. Auditorías.

Método de Brewer. Implementado en SPSS y SAS.

Método de Hanurav-Vijayan. Implementado en SPSS y SAS.

Método de Midzuno.

Y un largo etcétera.


Estimador de Hájek de la Media Poblacional

La media poblacional,

yU =1N

ty

es un cociente o razón entre el total, ty , y N.

El total podemos estimarlo mediante el estimador deHorvitz-Thompson,

tyπ =∑i∈m

yi

πi

Expresando,N =

∑i∈U

1

es decir, el total de la variable UNO sobre la población, podemosestimarlo también mediante el estimador de Horvitz-Thompson,

Nπ =∑i∈m

1πi



Por sustitución el siguiente estimador de la media, conocido comoestimador de Hájek,

yUHJ =

∑i∈m

yi/πi∑i∈m

1/πi

Es un cociente de dos estimadores insesgados. En general noes insesgado pero su sesgo es reducido.

Para estudiar su varianza se requieren técnicas especiales.

Es el estimador de medias [y proporciones] empleado por losprogramas de aplicación al muestreo como SAS, SPSS, R yotros.



Diseño Muestral MAS(N,n)

yUHJ =

∑i∈m

yi/πi∑i∈m

1/πi

=

∑i∈m

yi/(n/N)

n/(n/N)=

1n

∑i∈m

yi = ym

Diseño Muestral MB(N,p)

yUHJ =

∑i∈m

yi/πi∑i∈m

1/πi

=

∑i∈m

yi/p∑i∈m

1/p=

∑i∈m

yi

n(m)= ym


Muestreo con Reemplazamiento

Es posible considerar muestreos en los que los elementospuedan aparecer repetidos en la muestra.

La situación sería similar a la extracción de n bolas de una cajaen la que hay N bolas numeradas de 1 a N, devolviendo a lacaja la bola obtenida en cada extracción.

La selección se realiza mediante una distribución deprobabilidad definida sobre U,

{p1,p2, . . . ,pN | pi ≥ 0 ∀i ,N∑

i=1

pi = 1}

que permanece inalterada durante todas las extracciones.

No es aplicable el estimador de Horvitz-Thompson.

El caso particular pi = 1/N se denomina Muestreo AleatorioSimple con Reemplazamiento.


Estimador de Hansen-Hurwitz del Total

Cambio de Variable

zi =yi

pi, ∀i ∈ U

Estimador de Hansen-Hurwitz del Total. Insesgado.

tyHH =∑i∈m

yi

npi= zm

Varianza.

V[tyHH

]=

1n

∑i∈U

(yi

pi− ty

)2

pi =1

2n

∑i j∈U

pipj (zi − zj )2

Estimador Insesgado de la varianza.

V[tyHH

]=

1n(n − 1)

∑i∈m

(yi

pi− tyHH

)2

=1n

S2zm


Estimador de Hansen-Hurwitz de la Media

Cambio de Variable

zi =yi

Npi, ∀i ∈ U

Estimador de Hansen-Hurwitz de la Media. Insesgado.

yUHH =1N

∑i∈m

yi

npi= zm

Varianza.

V[yUHH

]=

1n

∑i∈U

(yi

Npi− yU

)2

pi =1

2n

∑i j∈U

pipj (zi − zj )2

Estimador Insesgado de la varianza.

V[yUHH

]=

1n(n − 1)

∑i∈m

(yi

Npi− ymHH

)2

=1n

S2zm


Estimador de Hansen-Hurvitz

Tanto en el caso del total como de la media, el cálculo prácticoasociado a la estimación se reduce al cálculo de una mediamuestral y de una cuasivarianza muestral.

Si las probabilidades de de selección son proporcionales a lavariable de estudio,

pi ∝ yi , i = 1, . . . ,N

LA VARIANZA ES NULA.

Casuística similar a la del estimador de Horvitz-Thompson. Seconsigue una reducción de la varianza eligiendo las piproporcionales a una variable X relacionada con la Y . MétodoPPS [Probabilidades de Selección proporcionales al Tamaño].


Muestreo Aleatorio Simple con Reemplazamiento, MASR(N, n)

Selección de n unidades con probabilidades pi = 1/N, i ∈ U,con reemplazamiento.

Estimación de la Media.

yUHH =1N

∑i∈m

yi

npi=

1N

∑i∈m

yi

n/N= ym

Varianza.

V [yUHH] =1n

1N

∑i∈U

(yi − yU)2 =1nσ2

yU

Varianza Estimada.

V [yUHH] =1n

S2zm =

1n

S2ym

Similar a la que se obtiene en el caso de muestreo aleatoriosimple sin reemplazamiento, salvo el factor (1− f ). Estacantidad suele denominarse factor de corrección porpoblación finita.


Eficiencia en Relación al MAS(N, n)

El error difiere del obtenido para el muestreo aleatorio simple sinreemplazamiento básicamente por el factor 1− f .

VMAS =1− f

nS2

yU y VMASR =1nσ2

yU

se tiene,

VMAS

VMASR=

1− fn

S2yU

1nσ2

yU

=

N − nN

S2yU

N − 1N

S2yU

=N − nN − 1

< 1 si n > 1

El reemplazamiento hace disminuir la eficiencia pues aumenta lavarianza de la estimación. Este aumento de la varianza es menosacentuado conforme la población es mayor y no suele ser muygrande en condiciones normales. Por ejemplo, si N = 1.000.000 yn = 400, se tiene,

N − nN − 1

=999.600999.999

= 0′999600999 próximo a 1


Utilidad del Muestreo con Reemplazamiento

La aplicación del muestreo con reemplazamiento se realiza mása nivel teórico que real. No es usual realizar en una poblaciónmuestreo con reemplazamiento para estimar parámetros.

Los diseños sin reemplazamiento presentan probabilidades deinclusión de segundo orden a veces difíciles o imposibles decalcular. Ello dificulta la computación de la varianza estimada ydel error de muestreo.

La varianza estimada del estimador de Hansen-Hurwitz,

V[tyHH

]=

1n(n − 1)

∑i∈m

(zi − zm)2 =1n

S2zm, siendo zi =

yi

pi

no presenta estos inconvenientes y puede ser empleadaaunque el muestreo sea sin reemplazamiento, aunque dandolugar a una sobre estimación.

Por ejemplo, si trabajamos con un nivel de confianza del 95 %, elintervalo obtenido con este método tendrá una confianza realigual o superior a dicho nivel nominal.



En resumen, cuando no dispongamos de las πij , y estimamos el total[o la media] mediante el estimador de Horvitz-Thompson,

tyπ =∑i∈m

yi

πi

Podemos estimar la varianza como si hubiéramos aplicado elestimador de Hansen-Hurvitz,

tyHH =∑i∈m

yi

npi

es decir, con la fórmula,

V[tyHH

]=

1n(n − 1)

∑i∈m

(zi − zm)2 =1n

S2zm, siendo zi =

yi

pi=

nyi

πi

donde, por analogía, hemos igualado πi a npi , es decir,pi = πi/n.



OBSERVACIONES

Esta metodología NO AUMENTA LA VARIANZA DE LAESTIMACIÓN, que es la que es, sino que proporciona unasobrestimación de dicha varianza, siendo ello preferible a no darninguna estimación y por lo tanto no poder calcular el error demuestreo.

No tiene sentido aplicarla si el muestreo es tal que las πij setienen o son fáciles de calcular, pues en tal caso se emplea laexpresión propia sin mayor problema. Por ejemplo, para elmuestreo aleatorio simple sabemos que,

πij =n(n − 1)

N(N − 1)

y además disponemos de una expresión fácil para estimar lavarianza por lo que sería absurdo recurrir al procedimientoanterior.


Bibliografía

Fernández García, F.R. y Mayor Gallego, J.A. (1995). Muestreo enpoblaciones finitas: Curso básico. E.U.B. Ediciones Universitarias deBarcelona.

Lohr, S.L. (2010). Sampling: Design and Analysis. 2nd Edition.Brooks/Cole. International Edition.

Särndal, C., Swensson, B. and Wretman, J. (1992). Model AssistedSurvey Sampling. Springer-Verlag. New York, Inc.


Documents

Muestreo en Poblaciones Finitas - Universidad de Sevillapersonal.us.es/jmayor/ficheros/mu_iea_03.pdf · 2017. 2. 12. · Universidad de Sevilla Septiembre de 2011 INSTITUTO DE ESTADÍSTICA