59
Curso seminario sobre diseño y análisis de encuestas: Parte I Estrategias de muestreo para elementos

TeoriaElementalMuestreo R

  • Upload
    zedanes

  • View
    66

  • Download
    1

Embed Size (px)

Citation preview

Curso seminario sobre diseño y análisis de encuestas: 

Parte IEstrategias de muestreo para elementos

“Les dimos un mapa del lugara donde iban”‐John Maxwell

La Visión

3

Bibliografia:

• Estrategias de muestreo. Gutiérrez (2009). USTA.• Model Assisted Survey Sampling. Sarndal (1992). Springer.

Contenido:

Esta presentación está enfocada en el desarrollopráctico de una encuesta en la población LUCY conel marco muestral MARCO:

1. R y TeachingSampling2. Marco y Lucy3. Estrategias para muestreo Bernoulli4. Estrategias para muestreo M.A.S.5. Estrategias para muestreo M.A.S.R.6. Estrategias para muestreo Sistemático

Objetivo: 

Conocer las bondades y desventajas de lasprincipales estrategias de muestreo cuando setienen marcos de muestreo de elementos utilizandoprogramación en R.

Marco y Lucy

5

6

Si usted es usuario de paquetes como SAS, SPSS, Stata, o Systat ¿por qué usar R?

1. Es gratis. Si usted es un profesor o un estudiante, los beneficios son obvios. Sitrabaja en una empresa, su jefe lo valorará más cuando se entere que ya no debepagar la licencia anual para realizar sus análisis estadísticos.

2. Es ejecutable en una variedad de plataformas incluyendo Windows, Unix yMacOS.

3. Provee una plataforma para la programación de nuevos métodos estadísticos deun amanera sencilla.

4. Contiene rutinas estadísticas avanzadas que aún no están disponibles en otrospaquetes.

5. Genera potentes gráficos actualizados con el estado del arte.

6. Las rutinas creadas en R ya pueden ser cargadas y ejecutadas en otrosimportantes softwares como SAS y SPSS

7

TeachingSampling: Sampling designs and parameterestimation in finite population

Foundations of inference in survey sampling

Version: 1.4.9Depends: R (≥ 2.6.0)Published: 2010-03-11Author: Hugo Andres Gutierrez RojasMaintainer: Hugo Andres Gutierrez Rojas

<hugogutierrez at usantotomas.edu.co>License: GPL (≥ 2)

URL: http://www.predictive.wordpress.com/stats/

En R: Menú Paquetes Instalar paquete escoger el servidor de preferenciabuscar y hacer clic en TeachingSampling. Cargar el paquete con la siguienteinstrucción:

> library(TeachingSampling)

8

• Lucy se refiere a una población de empresas del sector industrial.• Marco se refiere al marco de muestreo que se requiere para diseñar una encuestaprobabilística que permita inferir acerca de Lucy.

La población objetivo la conforman todas las empresas cuya actividad principalesté ligada al sector industrial. El proceso de medición se hará con base en:ingresos en el último año fiscal, impuestos declarados en el último año fiscal ynúmero de empleados. Adicionalmente, se requiere conocer si la empresa envíaperiódicamente algún tipo de material publicitario por correo electrónico.

Para obtener las respuestas, un entrevistador visitará las instalaciones físicas de laempresa y realizará las siguientes preguntas:

1. En el último año fiscal, ¿a cuánto ascendieron los ingresos en esta empresa?2. En el último año fiscal, ¿a cuánto ascendieron los impuestos declarados por

esta empresa?3. Actualmente, ¿cuántos empleados laboran para esta empresa?4. ¿Esta empresa acostumbra a enviar periódicamente material publicitario por

correo electrónico a sus clientes o potenciales clientes?

9

Para abordar la selección de una muestra que permita la inferencia acerca delcrecimiento económico del sector, se dispone de un marco de muestreo con lassiguientes características para cada empresa que conforma la población.

1. Identificador: es una secuencia alfanumérica de dos letras y tres dígitos. Estenúmero de identificación se le otorga a cada empresa en el momento de laconstitución legal ante la entidad de registro pertinente.

2. Ubicación: es la dirección que se encuentra registrada en la declaración deimpuestos.

3. Zona: la ciudad está conformada por barrios o zonas geográficas. Dependiendode la dirección, la empresa pertenece a una y sólo una zona geográfica de laciudad.

4. Nivel: según los registros tributarios, las empresas se catalogan en tres grupos:1. Grandes: empresas que tributan 49 millones de dólares al año o más.2. Medianas: empresas que tributan más de 11 millones y menos de 49

millones de dólares al año.3. Pequeñas: empresas que tributan 11 millones de dólares al año o menos.

10

La información concerniente a las primeras 10 empresas del marco de muestreose visualiza con el siguiente código computacional en R:

> data(Marco)> Marco[1:10,]

ID Ubication Level Zone1 AB001 c1k1 Small A2 AB002 c1k2 Small A3 AB003 c1k3 Small A4 AB004 c1k4 Small A5 AB005 c1k5 Small A6 AB006 c1k6 Small A7 AB007 c1k7 Small A8 AB008 c1k8 Small A9 AB009 c1k9 Small A10 AB010 c1k10 Small A

> names(Marco)[1] "ID” "Ubication” "Level” "Zone“> dim(Marco)[1] 2396 4

11

La información de todas las características de interés concerniente a las primeras10 empresas de la población de empresas del sector industrial se visualiza con elsiguiente código computacional en R:

> data(Lucy)> Lucy[1:10,]

ID Ubication Level Zone Income Employees Taxes SPAM1 AB001 c1k1 Small A 281 41 3.0 no2 AB002 c1k2 Small A 329 19 4.0 yes3 AB003 c1k3 Small A 405 68 7.0 no4 AB004 c1k4 Small A 360 89 5.0 no5 AB005 c1k5 Small A 391 91 7.0 yes6 AB006 c1k6 Small A 296 89 3.0 no7 AB007 c1k7 Small A 490 22 10.5 yes8 AB008 c1k8 Small A 473 57 10.0 yes9 AB009 c1k9 Small A 350 84 5.0 yes10 AB010 c1k10 Small A 361 25 5.0 no

12

Las estadísticas concernientes a las variables en las población se visualizanfácilmente con la función summary aplicada al conjunto de datos en Lucy .

¿Se pueden considerar como parámetros las medidas que aprecen acontinuación?

> summary(Lucy)

ID Ubication Level Zone IncomeAB001 : 1 c10k1 : 1 Big : 83 A:307 Min. : 1.0AB002 : 1 c10k10 : 1 Medium: 737 B:727 1st Qu.: 230.0AB003 : 1 c10k11 : 1 Small :1576 C:974 Median : 390.0AB004 : 1 c10k12 : 1 D:223 Mean : 432.1AB005 : 1 c10k13 : 1 E:165 3rd Qu.: 576.0AB006 : 1 c10k14 : 1 Max. :2510.0(Other):2390 (Other):2390

Employees Taxes SPAMMin. : 1.00 Min. : 0.50 no : 9371st Qu.: 38.00 1st Qu.: 2.00 yes:1459Median : 63.00 Median : 7.00Mean : 63.42 Mean : 11.963rd Qu.: 84.00 3rd Qu.: 15.00Max. :263.00 Max. :305.00

13

Un parámetro importante (con el cual se completan los objetivos de lainvestigación) es el total poblacional de las características continuas:

> total <- function(x){length(x)*mean(x)}> attach(Lucy)> total(Income); total(Employees); total(Taxes)[1] 1035217[1] 151950[1] 28653.5

> tapply(Income,Level,total)Big Medium Small

103706 487351 444160

> table(SPAM,Level)Level

SPAM Big Medium Smallno 26 291 620yes 57 446 956

El sector industrial tiene altos ingresos que ascienden a 1.035.217 millones dedólares, aporta al gobierno 28.653 millones de dólares en tarifas impositivas yemplea un total de 151.950 personas.

Casi siempre, en la mayoría de las encuestas,se quieren estimaciones por subgrupospoblacionales, en este caso estimaciones deltotal del ingreso por cada nivel industrial

En este caso el número de empresas queentregan SPAM, discriminado por nivelindustrial

14

Nótese que la mayoría del ingreso del sector industrial es adquirido por lasempresas medianas y pequeñas. Sin embargo, en promedio las empresasgrandes doblan el ingreso de las medianas que a su vez es tres veces el ingresode las empresas pequeñas. En términos absolutos, la estrategia publicitaria deenviar SPAM a los clientes o potenciales clientes se implementa con mayorfrecuencia en las empresas pequeñas.

> xtabs(Income~Level+SPAM)SPAM

Level no yesBig 31914 71792Medium 190852 296499Small 175186 268974

El ingreso de las empresas que utilizan el SPAM como estrategia de publicidaddobla el ingreso de las empresas que no utilizan SPAM en casi todos los nivelesindustriales.

15

> boxplot(Income ~ Level,main=c("Boxplot de Ingreso"))

Las empresas grandes tienen ingresos más altos, aportan una carga impositiva másalta y emplean a más personas que las empresas medianas y pequeñas. Es deseableque el marco de muestreo contenga la pertenencia al nivel industrial de cadaempresa en la población porque es un buen discriminante y permite laimplementación de estrategias de muestreo adecuadas que guíen a estimacionesmás precisas.

16

También es deseable conocer la correlación entre las características de interés.Lo anterior puede servir al momento de plantear la mejor estrategia demuestreo.

> Datos <- data.frame(Income, Employees, Taxes)> cor(Datos)

Income Employees TaxesIncome 1.000000 0.645536 0.916954Employees 0.645536 1.000000 0.646855Taxes 0.916954 0.646855 1.000000

> pairs(Datos)

17

18

19

Muestreo Bernoulli

21

Diseño de muestreo Bernoulli

Suponga que se debe seleccionar una muestra con un diseño de muestreoBernoulli. Se quiere que el tamaño esperado de muestra sea de N*pi=400empresas del sector industrial.

Como el tamaño de la población es N=2396, entonces el valor que se fija para pies de 0.1669. Para seleccionar la muestra se utiliza la función S.BE(N, prob)del paquete TeachingSampling cuyos parámetros son N, el tamañopoblacional y prob el valor de la probabilidad de inclusión para cada elementode la población. Esta función utiliza el algoritmo secuencial y debe examinar atodos los elementos de la población.

22

> # Uses the Marco and Lucy data to draw a Bernoulli sample> data(Marco)> data(Lucy)> attach(Lucy)

> N <- dim(Marco)[1]> # The population size is 2396. If the expected sample size is 400,> # then, the inclusion probability must be 400/2396=0.1669> sam <- S.BE(N,0.1669)> # The information about the units in the sample is stored in an objectcalled data> data <- Lucy[sam,]> data

ID Ubication Level Zone Income Employees Taxes SPAM7 AB007 c1k7 Small A 490 22 10.5 yes8 AB008 c1k8 Small A 473 57 10.0 yes. . .

> dim(data)[1] 387 8

Aplicando los índices obtenidos por la función S.BE al marco de muestreo obtenemosla identificación y ubicación de las empresas seleccionadas en la muestra. Nótese que eltamaño de muestra efectivo es de 387 empresas.

23

Estimador de Horvitz‐Thompson para el total

Una vez que la etapa de recolección de datos se haya realizado, obtendremos unarchivo de datos de Lucy conteniendo los valores de las características de interéspara las empresas seleccionadas.

La etapa de estimación de resultados se hace utilizando la funciónE.BE(y,prob) del paquete TeachingSampling cuyos argumentos son y,un vector o matriz conteniendo los valores de las características de interés en lamuestra y prob, la probabilidad de inclusión. En este caso la longitud de cadavector es de n=387. Esta función arroja la estimación del total poblacional de yusando el estimador de Horvitz‐Thompson, la estimación de la varianza y elcoeficiente de variación estimado.

24

> dim(data)[1] 387 8

> sam <- S.BE(N,0.1669)> # The information about the units in the sample is stored in data

> data <- Lucy[sam,]> attach(data)

> # The variables of interest are: Income, Employees and Taxes> # This information is stored in a data frame called estima> estima <- data.frame(Income, Employees, Taxes)

> E.BE(estima,0.1669)

Income Employees TaxesEstimation 1.024661e+06 1.468484e+05 2.954164e+04Variance 3.205513e+09 6.104305e+07 6.029255e+06CVE 5.525459e+00 5.320456e+00 8.311841e+00

!Es muy importante usar attach después dela selección de la muestra!

25

Estimador alternativo para el totalCon ayuda de la función E.BE es posible calcular la estimación alternativa para los totales deinterés. Simplemente basta con definir la variable n que indica el tamaño de muestra efectivo.

> N <- dim(Marco)[1]> n <- dim(estima)[1]

> colSums(estima)Income Employees Taxes

171016.0 24509.0 4930.5

> (N/n)*colSums(estima)Income Employees Taxes

1047965.1 150188.1 30213.5

Como el estimador alternativo es una razón de estimadores, no es posible – en este punto delcurso ‐ obtener un estimativo para su varianza y por consiguiente no es posible calcular un cve.

26

Estimador de Horvitz‐Thompson para la mediaCon ayuda de la función E.BE es posible calcular la estimación de Horvitz‐Thompson para lamedia de las características de interés, también es posible estimar la varianza del estimador ycalcular el cve.

> est.mean <- E.BE(estima,0.1669)[1,]/N> est.mean

Income Employees Taxes427.65504 61.28899 12.32957

> est.var <- E.BE(estima,0.1669)[2,]/N^2> est.var

Income Employees Taxes558.372331 10.633165 1.050244

> est.cve <- 100*sqrt(est.var)/est.mean> est.cve

Income Employees Taxes5.525459 5.320456 8.311841

27

Estimador alternativo para la mediaTambién es posible calcular la estimación alternativa para la media de las características deinterés.

> (N/n)*colSums(estima)/NIncome Employees Taxes

437.38107 62.68286 12.60997

Al igual que con el estimador alternativo para el total, no es posible – en este punto del curso ‐obtener un estimativo para su varianza y por consiguiente no es posible calcular un cve.

28

Estimador alternativo para el totalEs posible calcular la estimación alternativa para los totales de interés. Simplemente basta condefinir la variable n que indica el tamaño de muestra efectivo.

> N <- dim(Marco)[1]> n <- dim(estima)[1]

> colSums(estima)Income Employees Taxes

171016.0 24509.0 4930.5

> (N/n)*colSums(estima)Income Employees Taxes

1047965.1 150188.1 30213.5

Muestreo aleatorio simple

30

Diseño de muestreo aleatorio simple sin reemplazo

Suponga que se debe seleccionar una muestra con un diseño de muestreoaleatorio simple sin reemplazo (SI).

1. Se debe calcular el tamaño de muestras de empresas del sector industrial.2. Se deben obtener estimaciones estadísticas del total y de la media para la

población del sector industrial.3. Se deben obtener estimaciones discriminadas para los dominios de interés.4. Con base en los resultados se debe proponer una política económica de

apoyo al sector industrial.

Los dominios de interés están relacionados con las prácticas publicitarias de lasempresas. Luego, existe el dominio SPAM.SI, para las empresas que envíapublicdad electrónica y SPAM.NO, para las empresas que no envían este tipo depublicidad.

31

La estrategia de muestreo que se va a utilizar es la siguiente: el estimador deHorvitz‐Thompson aplicado a un diseño de muestreo aleatorio simple sinreemplazo. Se selecciona una muestra piloto de tamaño 30 de la población. Paraesto, una vez cargado el archivo de datos Lucy, utilizamos la función samplepara extraer la muestra piloto. La característica de interés es el ingreso de lasempresas, tomamos los valores de la varianza y de la media como estimacionesque servirán para el cálculo del tamaño de la muestra.

> data(Lucy)> attach(Lucy)> N <- dim(Lucy)[1]> sam <- sample(N,30)> Ingresopiloto <- Income[sam]> var(Ingresopiloto)[1] 66952.62> mean(Ingresopiloto)[1] 455

32

Se requieren que las estimaciones cumplan:

• Error absoluto: el margen de error para este estudio es de 25 millones dedólares en el total del ingreso de las empresas de la población.

• Nivel de confianza del 95 %.

• Mediante (3.2.16) se tiene que n0 = 411.

• Al utilizar el factor de corrección de poblaciones finitas, llegamos a que n ≥ 351.

33

Se requieren que las estimaciones cumplan:

• Error relativo: el margen de error relativo debe ser de menos del 7% en el totaldel ingreso de las empresas de la población.

• Nivel de confianza del 95 %.

• Mediante (3.2.18) se tiene que k0 = 446.

• Al utilizar el factor de corrección de poblaciones finitas, llegamos a que n ≥ 376.

En conclusión, se propone un tamaño de muestra de n=400 encuestas

34

Diseño de muestreo aleatorio simple sin reemplazo

Se debe seleccionar una muestra con un diseño de muestreo aleatorio simple sinreemplazo (SI).

Para seleccionar la muestra se utiliza la función S.SI(N, n) del paqueteTeachingSampling cuyos parámetros son N, el tamaño poblacional y n, eltamaño de muestra. Esta función utiliza el algoritmo de Fan‐Muller‐Rezucha.

Esta ocasión, no sólo se preguntará acerca del ingreso, impuestos y número deempleados en el año fiscal de interés, también se preguntará acerca de lamembrecía de las empresas a los dominios; es decir si manda o no SPAM a susclientes o posibles clientes.

35

> N <- dim(Lucy)[1]> n <- 400> sam<-S.SI(N,n)> # The information about the units in the sample is stored in an objectcalled data> data <- Lucy[sam,]> data

ID Ubication Level Zone Income Employees Taxes SPAM1 AB001 c1k1 Small A 281 41 3.0 no3 AB003 c1k3 Small A 405 68 7.0 no7 AB007 c1k7 Small A 490 22 10.5 yes. . .

> dim(data)[1] 400 8

Aplicando los índices obtenidos por la función S.SI al marco de muestreo obtenemosla identificación y ubicación de las 400 empresas seleccionadas en la muestra.

36

Estimador de Horvitz‐Thompson para el total

Una vez que la etapa de recolección de datos se haya realizado, obtendremos unarchivo de datos de Lucy conteniendo los valores de las características de interéspara las empresas seleccionadas.

La etapa de estimación de resultados se hace utilizando la funciónE.SI(N,n,y) del paquete TeachingSampling cuyos argumentos son losmismos que la función S.SI más y, un vector o matriz conteniendo los valores delas características de interés en la muestra. En este caso la longitud de cadavector es de n=400. Esta función arroja la estimación del total poblacional de yusando el estimador de Horvitz‐Thompson, la estimación de la varianza y elcoeficiente de variación estimado.

37

Estimador de Horvitz‐Thompson para el total> attach(data)> # The variables of interest are: Income, Employees and Taxes> # This information is stored in a data frame called estima

> estima <- data.frame(Income, Employees, Taxes)

> E.SI(N,n,estima)Income Employees Taxes

Estimation 1.006769e+06 1.533440e+05 2.679028e+04Variance 7.805793e+08 1.202052e+07 2.680269e+06CVE 2.775100e+00 2.260971e+00 6.110996e+00

38

Estimador de Horvitz‐Thompson para la mediaCon ayuda de la función E.SI es posible calcular la estimación de Horvitz‐Thompson para lamedia de las características de interés, también es posible estimar la varianza del estimador ycalcular el cve.

> est.mean <- E.SI(N,n,estima)[1,]/N> est.mean

Income Employees Taxes420.18750 64.00000 11.18125

> est.var <- E.SI(N,n,estima)[2,]/N^2> est.var

Income Employees Taxes135.9700878 2.0938704 0.4668794

> est.cve <- 100*sqrt(est.var)/est.mean> est.cve

Income Employees Taxes2.775100 2.260971 6.110996

39

Constitución de los dominios

> # The variable SPAM is a domain of interest> Doma <- Domains(SPAM)> # This function allows to estimate the parameters of the variables

of interest for every category in the domain SPAM

> estima <- data.frame(Income, Employees, Taxes)> SPAM.no <- estima*Doma[,1]> SPAM.yes <- estima*Doma[,2]

Suponga que los dominios de interés son los subgrupos que envían o no SPAM. Lo anteriorconforma una partición de la población de empresas del sector industrial y además no se conoce apriori cuáles empresas acostumbran a publicitar por este medio. La función Domains() crea lasvariables indicadoras para cada dominio. Recuerde que estos ceros y unos se multiplican con losvalores de las características de interés.

40

Estimador de Horvitz‐Thompson para el total de los dominios

> E.SI(N,n,SPAM.no)Income Employees Taxes

Estimation 3.656595e+05 5.710866e+04 9.500140e+03Variance 7.495751e+08 1.544580e+07 1.190420e+06CVE 7.487393e+00 6.881818e+00 1.148471e+01

> E.SI(N,n,SPAM.yes)Income Employees Taxes

Estimation 6.411097e+05 9.623534e+04 1.729014e+04Variance 1.009908e+09 1.952392e+07 2.175746e+06CVE 4.956882e+00 4.591440e+00 8.531113e+00

Nótese que la suma de los totales estimados en los dominios es igual a la estimación HT para lascaracterísticas de interés. Por ejemplo, para la característica Income, se tiene que

365659.5 +641109.7 = 1006769

!Es importante realizar esta verificación!

41

Estimador para el tamaño absoluto

Con ayuda del objeto DOMA y utilizando la función Domains es posible calcular la estimación deltamaño absoluto de cada uno de los dos dominios y obtener su correspondiente c.v.e.

> E.SI(N,n,Doma[,1])y

Estimation 988.350000Variance 2904.733402CVE 5.453086

> E.SI(N,n,Doma[,2])y

Estimation 1407.650000Variance 2904.733402CVE 3.828763

42

Estimador para las medias en los dominiosCon ayuda de las anteriores funciones podemos obtener un estimativo para la media de cadadominio. Como se trata de una razón , aún no es posible obtener su c.v.e.

> E.SI(N,n,SPAM.no)[1,] / E.SI(N,n,Doma[,1])[1,]

Income Employees Taxes421.22424 61.59394 11.11818

> E.SI(N,n,SPAM.yes)[1,] / E.SI(N,n,Doma[,2])[1,]

Income Employees Taxes424.88511 62.34894 11.18085

¿Existen diferencias en promedio para las empresas que publicitan electrónicamente?

Muestreo aleatorio simple con reemplazo

44

Diseño de muestreo aleatorio simple con reemplazo

Suponga que se debe seleccionar una muestra con un diseño de muestreoaleatorio simple con reemplazo de tamaño m=400 empresas del sector industrial.

Existen varios métodos para la selección de un muestra simple con reemplazo; enel ambiente básico computacional de R, la función sample permite seleccionaruna muestra simple cuando la opción replace es igual a TRUE.

sample(N,m, replace=TRUE)

Para extraer muestreas simples con reemplazo, el paqueteTeachingSampling utiliza un algoritmo secuencial basado en la distribuciónbinomial, mediante la función S.WR cuyos argumentos son N, el tamaño de lapoblación y m, el tamaño de la muestra con reemplazo.

45

> N <- dim(Marco)[1]> m <- 400> sam<-S.WR(N,m)> # The information about the units in the sample is stored in an objectcalled data> data <- Lucy[sam,]> data

ID Ubication Level Zone Income Employees Taxes SPAM16 AB016 c1k16 Small A 340 12 5.0 no25 AB025 c1k25 Small A 365 49 6.0 yes26 AB026 c1k26 Small A 380 38 6.0 no40 AB040 c1k40 Small A 491 86 10.5 yes45 AB045 c1k45 Small A 365 53 6.0 yes46 AB046 c1k46 Small A 346 56 5.0 no49 AB050 c1k49 Small A 334 16 5.0 no49.1 AB050 c1k49 Small A 334 16 5.0 no69 AB072 c1k69 Small A 390 95 7.0 yes...

Aplicando los índices obtenidos por la función S.WR al marco de muestreo obtenemosla identificación y ubicación de las empresas seleccionadas en la muestra. Véase que laempresa que está en el lugar 49 del marco de muestreo fue seleccionada dos veces enla muestra con reemplazo.

46

Estimador de Hansen‐Hurwitz para el total

Una vez que la etapa de recolección de datos se haya realizado, obtendremos unarchivo de datos de Lucy conteniendo los valores de las características de interéspara las empresas seleccionadas.

La etapa de estimación de resultados se hace utilizando la funciónE.WR(N,m,y) del paquete TeachingSampling cuyos argumentos son losmismos de la función S.WR más y, un vector o matriz conteniendo los valoresde las características de interés en la muestra. Esta función arroja la estimacióndel total poblacional de y usando el estimador de Hansen‐Hurwitz, la estimaciónde la varianza y el coeficiente de variación estimado.

47

Estimador de Hansen‐Hurwitz para el total

> data <- Lucy[sam,]> attach(data)

> # The variables of interest are: Income, Employees and Taxes> # This information is stored in a data frame called estima

> estima <- data.frame(Income, Employees, Taxes)> E.WR(N,m,estima)

Income Employees TaxesEstimation 1.099207e+06 1.572734e+05 3.209143e+04Variance 1.077487e+09 1.721914e+07 5.217604e+06CVE 2.986253e+00 2.638459e+00 7.117813e+00

Con el mismo tamaño de muestra, la estrategia que utiliza el diseño de muestreoaleatorio simple sin reemplazo arroja menores estimaciones del coeficiente devariación. Es el precio que se paga por duplicar información en la muestra.

48

Estimador de Hansen‐Hurwitz para la mediaCon ayuda de la función E.WR es posible calcular la estimación de Hansen‐Hurwitz para la mediade las características de interés, también es posible estimar la varianza del estimador y calcular elcve.

> est.mean <- E.WR(N,m,estima)[1,]/N> est.mean

Income Employees Taxes458.76750 65.64000 13.39375

> est.var <- E.WR(N,m,estima)[2,]/N^2> est.var

Income Employees Taxes187.6888683 2.9994246 0.9088611

> est.cve <- 100*sqrt(est.var)/est.mean> est.cve

Income Employees Taxes2.986253 2.638459 7.117813

49

Estimador de Horvitz‐Thompson para el totalCoomo es bien sabido, una vez que se definan las probabilidades de selección para cada elementoen la población, las probabilidades de inclusión quedan definidas inmediatamente. Por tanto, esposible utilizar el estimador de Horvitz‐Thompon para acceder a una estimación del total de lascaracterísticas de interés. Con ayuda de la función HT es posible realizar las estimaciones.

> # The vector of selection probabilities of units in the sample> pk <- rep(1/N,m)> # Computation of the inclusion probabilities> Pik <- 1-(1-pk)^m

> HT(estima, Pik)[,1]

Income 1193283.34Employees 170733.80Taxes 34837.99

Las estimaciones de varianza y c.v.e no se proporcionan puesto que la varianza del estimador deHorvtiz‐Thompson tiene una forma compleja.

50

Efecto de diseñoLa pérdida de eficiencia en esta estrategia se puede estimar con el Deff. Simplemente realizandoel cociente de las varianzas estimadas es posible establecer que, para este caso particular, laestrategia de muestreo simple sin reemplazo con el estimador HT es mejor.

Para el caso de muestreo simple sin reemplazo:Income Employees Taxes

Variance 7.805793e+08 1.202052e+07 2.680269e+06

Para el caso de muestreo simple con reemplazo:Income Employees Taxes

Variance 1.077487e+09 1.721914e+07 5.217604e+06

Las estimaciones del efecto de diseño:Income Employees Taxes

Deff 1.371 1.433 1.944

Muestreo sistemático

52

Diseño de muestreo sistemático

Nótese que las características de interés son Ingreso, número de empleados eimpuestos declarados en el último año fiscal y se supone, de manera correcta,que estas características no tienen ninguna relación con la fecha de registro de laempresa. Así, puede suceder que una empresa joven, tenga unos altos réditos,pocos empleados y una alta declaración de impuestos, pero puede suceder locontrario; de hecho, este comportamiento está sujeto a la estrategia demarketing utilizada en cada periodo comercial y no a la antigüedad del negocio.

Por las anteriores razones, se supone que el ordenamiento del marco demuestreo es completamente aleatorio. Se ha decidido que la población va a serparticionada en cinco grupos, de tal forma que el tamaño efectivo de muestra vaa ser 479 o 480.

53

La selección de la muestra se realiza mediante la función S.SY cuyos argumentos sonN, el tamaño de la población y a, el número de grupos. Esta función asignaaleatoriamente un arranque y salta, en este caso, de seis en seis elementos hastabarrer toda la lista.

> N <- dim(Marco)[1]> a <- 6

> # The population is divided in 6 groups of size 399 or 400> sam <- S.SY(N,a)> data <- Marco[sam,]> data

ID Ubication Level Zone6 AB006 c1k6 Small A12 AB012 c1k12 Small A18 AB018 c1k18 Small A...2385 AB912 c26k9 Big E2391 AB983 c26k15 Big E

> dim(data)[1] 399 4

54

Estimador de Horvitz‐Thompson para el total

Una vez recolectada la información de la muestra, se procede a realizar laestimación mediante el uso de la función E.SY cuyos argumentos son N, a y unconjunto de datos conteniendo la información de las características de interéspara cada elemento en la muestra.

> data <- Lucy[sam,]> attach(data)

> estima <- data.frame(Income, Employees, Taxes)> E.SY(N,a,estima)

Income Employees TaxesEstimation 1.032540e+06 1.552320e+05 2.775300e+04Variance 7.744526e+08 1.294529e+07 2.392375e+06CVE 2.695197e+00 2.317793e+00 5.573201e+00

Es de considerar que la eficiencia de esta estrategia de muestreo es mayor a la deuna estrategia que utilice un diseño de muestreo aleatorio simple.

Esta es una aproximaciónconservadora de la varianzaestimada suponiendomuestreo simple sinreemplazo.

55

Estimador de Horvitz‐Thompson para la mediaCon ayuda de la función E.SY es posible calcular la estimación de Horvitz‐Thompson para lamedia de las características de interés, también es posible estimar la varianza del estimador ycalcular el cve.

> est.mean <- E.SY(N,a,estima)[1,]/N> est.mean

Income Employees Taxes430.94324 64.78798 11.58306

> est.var <- E.SY(N,a,estima)[2,]/N^2> est.var

Income Employees Taxes134.9028862 2.2549572 0.4167308

> est.cve <- 100*sqrt(est.var)/est.mean> est.cve

Income Employees Taxes2.695197 2.317793 5.573201

56

Correlación intra‐clase

Esta medida de correlación entre los pares de elementos de los grupos formados toma una valormáximo igual a uno cuando SCE es nula y toma un valor mínimo de (− 1 / n−1) cuando SCE esmáxima. En particular, es deseable para esta estrategia que ρ tome valores cercanos a cero.

Por otra parte, es posible demostrar que el efecto de diseño, el cociente entre las varianzas, tomala siguiente expresión:

De esta manera, se tiene que el muestreo sistemático será:

1. Igual de eficiente al muestreo aleatorio simple si ρ = (1 / 1−N).2. Menos eficiente que el muestreo aleatorio simple si ρ > (1 / 1−N).3. Más eficiente que el muestreo aleatorio simple sí ρ < (1 / 1−N).

57

ANOVA LucyCon las sumas de cuadrados se demuestra que esta estrategia es más eficiente que el muestreoaleatorio simple. Lo anterior sugiere que la utilización de la expresión de la varianza para unmuestreo simple sin reemplazo como aproximación de la varianza del muestreo sistemático esuna buena escogencia puesto que sobreestima la varianza verdadera.

> grupo <- as.factor(array(1:a,N))> data(Lucy)> attach(Lucy)> anova(lm(Income~grupo))

Response: IncomeDf Sum Sq Mean Sq F value Pr(>F)

grupo 5 12359 2472 0.0346 0.9994Residuals 2390 170698187 71422

> n <- dim(data)[1]> rho <- 1-(n/(n-1))*(170698187/(170698187+12359))> rho[1] -0.002439984> rho < 1/(1-N)[1] TRUE

58

La ganancia en eficiencia al usar este diseño es de casi veintinueve veces puesto que elefecto dediseño es aproximadamente 0.034.

> Deff <- (N-1)*(1+(n-1)*rho)/(N-n)> Deff[1] 0.03464363> 1/Deff[1] 28.86534

Por outro lado, la varianza del estimador HT para la característica de interés Income es

> VarHT <- N*12359> VarHT[1] 29612164

Es mucho menor que el estimativo arrojado por la expresión del muestreo simple sinreemplazo.

“El poder de la visualización en personasaltamente efectivas”

Stephen Covey