21
CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA ................................................................................ 275 8.1 RECOMPOSICIÓN SOBRE VARIABLES CUANTITATIVAS ................................................................. 275 8.1.1. ESTIMADOR DE RAZÓN .................................................................................................................... 276 Recomposición de la media ............................................................................................................. 276 Recomposición del total .................................................................................................................. 277 Recomposición por el cociente ........................................................................................................ 277 Varianza aproximada de la estimación de razón ............................................................................ 282 Sesgo en la estimación de razón ..................................................................................................... 285 Estimador de razón en el muestreo estratificado ........................................................................... 286 8.1.2. ESTIMADOR POR MÍNIMOS CUADRADOS .............................................................................................. 287 8.1.3 VARIAS VARIABLES REALES ................................................................................................................. 288 8.2 RECOMPOSICIÓN SOBRE VARIABLES CATEGÓRICAS .................................................................... 289 8.2.1 ESTIMADOR DE POST ESTRATIFICACIÓN ...................................................................................................... 289 8.2.2 VARIAS VARIABLES CATEGÓRICAS: MÉTODO RAS.................................................................................... 290 PROBLEMAS Y CASOS DE ESTUDIO .................................................................................................... 293 CASO 8.1 POBLACIÓN EN LA PROVINCIA DE CÓRDOBA ..................................................................................... 293 BIBLIOGRAFÍA.................................................................................................................................... 293

CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

  • Upload
    lamhanh

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA................................................................................ 275

8.1 RECOMPOSICIÓN SOBRE VARIABLES CUANTITATIVAS ................................................................. 275

8.1.1. ESTIMADOR DE RAZÓN .................................................................................................................... 276Recomposición de la media............................................................................................................. 276Recomposición del total .................................................................................................................. 277Recomposición por el cociente ........................................................................................................ 277Varianza aproximada de la estimación de razón ............................................................................ 282Sesgo en la estimación de razón ..................................................................................................... 285Estimador de razón en el muestreo estratificado ........................................................................... 286

8.1.2. ESTIMADOR POR MÍNIMOS CUADRADOS .............................................................................................. 2878.1.3 VARIAS VARIABLES REALES ................................................................................................................. 288

8.2 RECOMPOSICIÓN SOBRE VARIABLES CATEGÓRICAS .................................................................... 289

8.2.1 ESTIMADOR DE POST ESTRATIFICACIÓN ...................................................................................................... 2898.2.2 VARIAS VARIABLES CATEGÓRICAS: MÉTODO RAS.................................................................................... 290

PROBLEMAS Y CASOS DE ESTUDIO .................................................................................................... 293

CASO 8.1 POBLACIÓN EN LA PROVINCIA DE CÓRDOBA..................................................................................... 293

BIBLIOGRAFÍA.................................................................................................................................... 293

Page 2: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras
Page 3: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

CAPITULO8. MUESTRAEn este capítulo se estudia uno de los problemas habituales del muestreo: la recomposición dela muestra. En una investigación econométrica basada en fuentes de información primaria,luego de realizar el muestreo es importante ajustar la estimación inicial de los parámetros.Para ello, generalmente, se dispone de información adicional que se puede utilizar para llevara cabo dicho ajuste. Esto deviene en una mejor estimación de los parámetros poblacionales, yasea que estos representen medidas obtenidas sobre variables cualitativas o cuantitativas de lasunidades de observación. En el proceso de investigación econométrica, se realizó el muestreoaleatorio y se calculó el estimador usual y de la media μ de la variable de interés Y. Pero, sedispone sobre la población de una información auxiliar sobre una media μ de una variablecuantitativa X o sobre la forma de la distribución de la población según una variable categóricay no se vuelve a encontrar sobre la muestra la misma media o la misma distribución. Seproponen entonces nuevos estimadores de μ con mejores propiedades que las del estimadorusual. Para la mayoría de ellos se trata de ponderar, otra vez, las unidades de observación dela muestra. Esta es la razón por la cual esos métodos se llaman métodos de recomposición.

8.1 Recomposición sobre variables cuantitativasEn esta etapa del proceso de investigación econométrica, si se ha trabajado con fuentesprimarias de información, es importante llevar a cabo la recomposición de la muestra. Estoobliga a tener, desde el momento en que se planifica el trabajo, referencias sobre variablesrelacionadas.

Existen diferentes métodos para llevar a cabo el proceso de recomposición pero en la mayoríade ellos se trata de ponderar otra vez a los individuos de la muestra. En muestreo es frecuenteusar información adicional para mejorar la precisión de las estimaciones, a estos se los conocecomo métodos indirectos y los más comunes son los de razón (o cociente) y los de mínimoscuadrados. Estos métodos requieren la observación de una variable auxiliar ( ) que seencuentra correlacionada con la variable de estudio ( ) y además conocer el total de . Lacorrelación entre e es lo que permite el incremento de precisión al estimar los parámetrosde .

Page 4: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

276

8.1.1. Estimador de Razón

La realización de un muestreo aleatorio simple arroja información sobre y, el estimador de lamedia μ de la variable de interés Y. Adicionalmente, se dispone de una variable auxiliar quese puede considerar proporcional a Y, la variable X. Las dos variables, X e Y, están relacionadaspara cada unidad de la muestra; se conoce con precisión la media μ en la población y el valorque tienen en la variable X los integrantes de la muestra. A este último concepto se loidentifica con x; mientras que, a los valores de la variable de interés en los integrantes de lamuestra, y.

Droesbeke y Fine (1997) establecen que si se conociera, mediante la base del muestreo, elvalor de X sobre todos los individuos de la población, se podría realizar un muestreo conprobabilidades desiguales proporcionales a X, o también, un muestreo estratificado sobre lavariable X discretizada; como sólo se conoce la media de X sobre la población, solo se puedeutilizar un método de recomposición denominado de la razón.

La recomposición se puede hacer para tres indicadores: la media, el total y el cociente.

Recomposición de la mediaEl estimador de razón para la media ( ), se define por:

= ̅ = ̅ (8.1)Este estimador tiene un ligero sesgo pero, si se verifica la condición de proporcionalidad,estima de manera más precisa que . Para comprobar que la condición de proporcionalidadestá vigente, sobre los datos muestrales se calculan los coeficientes de la recta de regresión de

sobre = + (8.2)Donde= = = ∑ ̅∑ ̅= − ̅Si se observa que ≤ , entonces es mejor que .

Si la cantidad que se quiere estimar es el valor de la media de la población para una variable, la estimación de razón es

Page 5: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

277

Y = yx (8.3)Recomposición del totalLa estimación por la razón para el total de la población -es decir, para ∑ ∀ = 1,⋯ , -,se obtiene haciendo el siguiente cálculo:= = ̅ (8.4)

Donde

- e son los totales en la muestra; = ∑ ∀ = 1,⋯ , y = ∑ ∀ =1,⋯ ,- es el total en la población para la variable auxiliar; = ∑ ∀ = 1,⋯ ,- ̅ y son las medias de la variable de interés y de la variable auxiliar en la

muestra, es decir, ̅ = ∑ / ∀ = 1,⋯ , = ∑ / ∀ = 1,⋯ ,Si es el valor de en un momento anterior, el método de la razón utiliza la muestra paraestimar el cambio relativo ⁄ ocurrido desde el momento anterior. El cambio relativoestimado ⁄ se multiplica por el total de población ( ) conocido anteriormente, paraproporcionar una estimación del total de la población actual ( ). Si la razón / es casi lamisma en todas las unidades del muestreo, los valores de ⁄ varían poco entre las muestras yla estimación de razón se vuelve altamente precisa.

Recomposición por el cocienteSi se quiere estimar una razón y no un total o una media -por ejemplo, la razón de hectáreasde soja respecto a las hectáreas de trigo, la razón del consumo debido al ingreso o la razón deactivos corrientes a la de activos totales-; la estimación muestral de la razón (R) es:R = (8.5)

En este caso no es necesario conocer el total de la variable auxiliar . Para Scheaffer et al(2007) el estimador de la razón es más apropiado cuando la relación entre e es lineal através del origen, como en la figura 8.1.

Page 6: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

278

Figura 8.1: Recta de regresión de Y sobre X

Ejemplo. Considérese una población de explotaciones agropecuarias, N; sea Y la variable deinterés que representa la producción de soja en quintales y X el tamaño de las explotaciones enhas. Sobre una muestra de explotaciones, se observa una producción media de soja igual a 8000quintales. Cuando se mide el tamaño de las explotaciones, se observa en la muestra una mediade 600 hectáreas; pero se sabe en realidad que el tamaño medio de las explotacionesagrícolas es de 500 hectáreas.

De esta forma se piensa que 8000 = 6666,67 es una estimación de la producción media de

soja en la población mejor que 8000.

Ejemplo. El objetivo es estimar el total de Población del Departamento Río Cuarto a partir de unamuestra de localidades.Se trabaja con una situación hipotética donde no se conoce el resultado del Censo de Poblaciónde 2001 sino el resultado de una muestra de 10 localidades. La información disponible da cuentade la cantidad de población en el año 2001 y en el año 1991, para cada uno de los asentamientosurbanos integrantes de la muestra. Además, se conoce el total de población existente en elDepartamento Río Cuarto en el año 1991 y en el resto de asentamientos urbanos que no integranla muestra.En la Figura 8.2 se tiene la tabla de datos con la totalidad de localidades del Departamento RíoCuarto. La variable X representa la cantidad de población en cada localidad según el Censo dePoblación del año 1991.

y

x

= +

Page 7: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

279

Las localidades 1, 11,12, 13, 18, 23, 25, 27, 28 y 32 integran la muestra que fue seleccionada delconjunto de asentamientos urbanos; a partir de esta muestra se debe calcular el total depoblación del Departamento para el año 2001.

Observación Localidad Departamento Población X

Muestra

y x

1 Río Cuarto Río Cuarto 134.355 144.021 134.355

2 Las Higueras Río Cuarto 4.498

3 Vicuña Mackenna Río Cuarto 7.181

4 Coronel Moldes Río Cuarto 7.695

5 Sampacho Río Cuarto 7.160

6 Berrotarán Río Cuarto 6.187

7 Adelia María Río Cuarto 5.294

8 Alcira (Est. Gigena) Río Cuarto 4.948

9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035

10 San Basilio Río Cuarto 2.510

11 Elena Río Cuarto 2.670 2.815 2.670

12 Achiras Río Cuarto 2.123 2.173 2.123

13 Las Acequias Río Cuarto 1.984 2.116 1.984

14 Coronel Baigorria Río Cuarto 1.147

15 Bulnes Río Cuarto 802

16 Las Vertientes Río Cuarto 671

17 Alpa Corral Río Cuarto 344

18 La Cautiva Río Cuarto 663 685 663

19 Chaján Río Cuarto 484

20 Washington Río Cuarto 511

21 Monte de los Gauchos Río Cuarto 376

22 Tosquitas Río Cuarto 378

23 Las Albahacas Río Cuarto 183 292 183

24 Suco Río Cuarto 290

25 Chucul Río Cuarto 176 236 176

26 Malena Río Cuarto 129

27 La Carolina Río Cuarto 158 165 158

28 Las Peñas Río Cuarto 148 139 148

29 Villa El Chacay Río Cuarto 37

30 Paso del Durazno Río Cuarto

31 La Gilda Río Cuarto 80

32 Villa Santa Eugenia Río Cuarto 58

Sumas 196.217 152.700 142.460

Figura 8.2. Población en el Departamento Río Cuarto

Para las localidades que integran la muestra se tiene información de la cantidad de habitantes:

Page 8: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

280

1. que surge del relevamiento muestral en el año 2001, la variable y2. la existente en el Censo de población del año 1991, la variable x

La variable X es la variable auxiliar o asociada a la variable de interés Y.

La recomposición por el total se realiza haciendo= = ̅= 152700142460 196217 = 210321La media de la muestra es de = ∑ = 15270010 = 15270El Departamento tiene 32 asentamientos. Aplicando el cálculo tradicional:= = 15270 ∗ 32 = 488640El Censo de Población del año 2001 arrojó una población total para el Departamento de 215541.

Ejemplo. La Figura 8.3 informa el número de habitantes (en miles) para 49 ciudades, extraídas enuna muestra aleatoria simple de la población de 196 ciudades de un país. El problema es estimarel número total de habitantes en las 196 ciudades en el momento t. Se conoce el total para elperíodo t-1, X = 22919.La mayoría de las ciudades en la muestra presentan un aumento en tamaño de t-1 a t del ordende 20%. De los datos de la muestra se tiene que= ∑ = 6262 = ∑ = 5054La estimación de razón del total del período t para las 196 ciudades es:Y = yx X = 62625054 22919 = 28397La estimación basada en la media de la muestra por ciudad esY = Ny = 196 626249 = 25048

CIUDAD , ,1 76 802 138 1433 67 674 29 505 381 4646 23 487 37 638 120 1159 61 69

10 387 459 Continúa…

Page 9: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

281

.Continuación

CIUDAD , ,11 93 10412 172 18313 78 10614 66 8615 60 5716 46 6517 2 5018 507 63419 179 26020 121 11321 50 6422 44 5823 77 8924 64 6325 64 7726 56 14227 40 6028 40 6429 38 5230 136 13931 116 13032 46 5333 243 29134 87 10535 30 11136 71 7937 256 28838 43 6139 25 5740 94 8541 43 5042 298 31743 36 4644 161 23245 74 9346 45 5347 36 5448 50 5849 48 75

Figura 8.3. Tamaño de ciudades (en miles) en el período t y en el período t-1

Page 10: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

282

Donde es el total estimado de la población para el momento t. El verdadero valor para elmomento t era de 29351, lo que permite confirmar la precisión con la que estima el método de larazón.

Varianza aproximada de la estimación de razónLa distribución de la estimación de razón ha sido siempre un problema, porque tanto comovarían de muestra en muestra. Los resultados teóricos conocidos no corresponden a lo que senecesita saber para aplicaciones prácticas. Los resultados principales se exponen primero sinprueba.

La estimación de razón es consistente. Tiene sesgo, excepto para algunos tipos especiales depoblaciones, aunque el sesgo es despreciable en muestras grandes. La distribución límite de laestimación de razón, conforme n se hace grande, es normal, sujeta a algunas restriccionesmenores sobre el tipo de población de la cual se está muestreando. En muestras de tamañomoderado la distribución presenta una tendencia hacia asimetría positiva en las clases depoblaciones para las cuales se usa el método más a menudo.

No existen fórmulas exactas para el sesgo y la varianza de muestreo de la estimación sino sóloaproximaciones que son válidas en muestras grandes.

Estos resultados equivalen a decir que no hay dificultad si la muestra es lo suficientementegrande para que:

a) la razón sea casi normalmente distribuida yb) sea válida la fórmula de la muestra grande para su varianza.

Las estimaciones de razón del total de la población , la media de la población y la razón dela población / , son, respectivamente= ̅ , = ̅ , R =En una muestra aleatoria simple de tamaño n, donde n es grande, las varianzas se definencomo:

= (1 − ) ∑ ( − )− 1 (8.6)( ) = (1 − ) ∑ ( − )− 1 (8.7)V R = 1 − fnX ∑ [(y − Rx )]N − 1 (8.8)

Page 11: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

283

Donde: x e y representan a cada una de las observaciones en la muestra -de la variableauxiliar X y la variable de interés Y-, = / es la razón de las medias de la población,= / es la fracción de muestreo.

Observación: Si las variables e son medidas para cada unidad de observación de unamuestra aleatoria simple de tamaño n grande, el error cuadrático medio (ECM) y la varianza de

son, aproximadamente, iguales a

≅ ≅ (1 − ) ∑ ( − )− 1 (8.9)En donde, = / es la razón de las medias de la población y = / es la fracción demuestreo

Este resultado se puede probar partiendo deR − R = − R =Si n es grande, la media de la muestra (x) no debe diferir mucho de la media de la población(X), por lo que puede remplazarse x por X en el denominador:R − R =Al tomar esperanza matemática, el promedio entre todas las muestras aleatorias simples detamaño n es

E(R − R) = E(y − Rx)X = Y − RXXPero R = → E R − R = = = 0Este resultado demuestra que R es un estimador insesgado de R = Y/X, de lo que se deduceque

ECM (R) = E(R − R) ≅ 1X E(y − Rx)La cantidad (y − Rx) es la media de la muestra de la variable (y − Rx ), cuya media en lapoblación es (Y − RX) = 0. Por lo que se puede encontrar la varianza,

V(R) = 1X E(y − Rx) = 1X S n (1 − f)

Page 12: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

284

= 1 − fnX ∑ [(y − Rx ) − (Y − RX)]N − 1 = 1 − fnX ∑ [(y − Rx )]N − 1Como consecuencia de los motivos esgrimidos en esta observación, la varianza de los otros dosestimadores por el cociente o razón son las siguientes

= (1 − ) ∑ ( − )− 1 (8.10)( ) = (1 − ) ∑ ( − )− 1 (8.11)

Hay varias formas alternativas del resultado; dado Y = RX, se puede escribir

( ) = (1 − )( − 1) [( − ) − ( − )]( ) = (1 − )( − 1) ( − ) + ( − ) − 2 ( − )( − )

El coeficiente de correlación entre y en la población finita está definido por la ecuación

= ∑ ( − )( − )( − 1)Esto conduce al resultado

= (1 − ) + − 2 (8.12)Como = / , entonces se puede escribir = / , con lo que una forma equivalente deescribir (8.12) es

= (1 − ) + − 2 (8.13)Donde = es la covarianza entre y . Esta relación puede escribirse como

= (1 − ) + − 2 (8.14)

Page 13: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

285

Donde , son los cuadrados de los coeficientes de variación (CV) de y ,respectivamente, y es la covarianza relativa.

Dado que , y R difieren solamente por multiplicadores conocidos, el coeficiente devariación (por ejemplo, el error estándar dividido entre la cantidad que se está estimando) esel mismo para las tres estimaciones. De (8.14) el cuadrado de este CV es

( ) = ( ) = (1 − ) + − 2 (8.15)Esta última cantidad recibe el nombre de varianza relativa, su uso evita la repetición de lasfórmulas de varianza para cantidades relacionadas como la media o el total de poblaciónestimados.

W. Cochran (1987) estudia el caso de los estimadores por el producto. Si una variable auxiliar Xtiene correlación negativa con Y, donde ambas variables sólo toman valores positivos, unanálogo del estimador por el cociente es el estimador por el producto, para el cual

y = y xμPor expansión usual en serie de Taylor, el análogo de (8.16) para el estimador por el productoen una muestra aleatoria simple, de tamaño grande, es

cv = (1 − f)n (C + C + 2C ) (8.17)Sesgo en la estimación de razónDe acuerdo a lo anterior los estimadores de razón tienen un sesgo aproximado del orden de1/ . En este sentido( ) ≠ .

Sin embargo, cuando la muestra es grande, el sesgo resulta insignificante. En otras palabra, enla medida que → ; → → 1. Por lo que es un estimador consistente aunquesesgado.

La pregunta que se puede formular es cuándo se considera que es lo suficientemente grandepara que la distribución del estimador de razón se aproxime a la distribución normal y resulteaceptable la fórmula de la varianza que se ha estudiado. Como regla práctica se aconseja untamaño de la muestra superior a 60 o cuando los coeficientes de variación de X e Y soninferiores al 10%.

Page 14: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

286

Cuando el tamaño de la muestra es superior a 60, el sesgo es despreciable, pero sesgo no es lomismo que precisión, por lo tanto una muestra de ese tamaño no garantiza suficienteprecisión.

Estimador de razón en el muestreo estratificadoPara estimar el total de una población utilizando el estimador de razón, a partir de unamuestra con selección aleatoria estratificada, hay dos maneras de hacerlo según W. Cochran(1987) pp. 211-217. Estas maneras se denominan estimador por razón separada y estimadorpor razón combinada.

En el estimador por razón -de un total de una población- de manera separada se debe conocerel valor poblacional de la variable auxiliar para cada estrato,

= = ∑∑ = ̅ (8.18)Donde, ℎ representa el ℎ − é estrato de la población dividida en estratos;= ∑ , es el total poblacional de la variable auxiliar para el ℎ − é estrato.

En el estimador de razón del total de manera combinada, se obtiene una sola razón combinadacon datos muestrales y se multiplica por el total poblacional de la variable auxiliar,

= = ̅ (8.19)Donde, = ∑ y = ∑ ̅ se calculan a partir de los datos obtenidos en unamuestra estratificada y representan las estimaciones de los totales de población y .= ⁄ y ̅ = ⁄ son las medias de la población estimadas de una muestraestratificada.

es la estimación del total poblacional para la variable a través de un estimador de razóncombinado aplicado a información surgida de un muestreo estratificado.

La ventaja del método combinado sobre el de separación es que no se necesita conocer eltotal de la variable X para cada estrato.

En el caso de que la muestra sea grande es conveniente utilizar el primer método. Paramuestras pequeñas conviene utilizar el estimador por razón combinada.

Page 15: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

287

8.1.2. Estimador por mínimos cuadrados

Si e son correlacionadas pero no necesariamente proporcionales, para la estimación dese puede utilizar el estimador por la regresión lineal . Para Scheaffer et al (2007), si existerelación lineal entre los valores observados de las variables e , pero no se comportan comouna recta que pase por el origen, la información extra proporcionada por la variable auxiliarpuede tomarse en cuenta mediante un estimador de regresión de la media .

Este estimador se define con:= + = ( − ̅) + (8.20)Donde = y = − ̅, ambos se calculan sobre los datos muestrales ( , ) y son los

coeficientes de una recta de regresión simple.

es el valor medio que asume la variable asociada en la población.

Si a y b son los coeficientes de la recta de regresión, de en calculados sobre la muestra, sedefine

Figura 8.4 Recta de regresión de Y sobre X

y

x

= +

Page 16: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

288

Se muestra que y es un estimador de casi sin sesgo y que (y ) (y)⁄ = 1 − , donde es elcoeficiente de correlación lineal de e .

Si el valor de es próximo a 1 (o a -1) –lo que está indicando alta correlación entre lasvariables- entonces y es un estimador de la media de la población ( ) mucho más precisoque y.La estimación de regresión es consistente en el sentido de que cuando la muestra comprende a toda lapoblación ̅ = y la estimación de regresión se reduce a . Con valores de adecuados, laestimación por regresión incluye, como casos particulares a la media por unidad y laestimación de razón:

Si = 0 → = ( − ̅) + = , la media por unidad

Si = ̅ → = ̅ ( − ̅) + = ̅ − ̅ ̅ + = ̅ = , la estimación de razón.

Si = 1 → = ( − ̅) + = − ̅ + , la estimación por diferencia

8.1.3 Varias variables reales

Este método se lo conoce como de regresión múltiple. Si se dispone de varias variablesauxiliares reales , , … , asociadas a la variable de interés ( ), se formula la ecuación:= + +⋯+ + (8.21)para calcular por mínimos cuadrados los valores de , , … , y . Tanto los valores decomo los de , … provienen del relevamiento muestral.

El valor total de Y se conoce a partir de hacer

= + +⋯+ + = + (8.22)Donde es el total de la variable de interés ( ) por el método de regresión múltiple y, … son los totales en la población para las variables asociadas.

Si se conoce con precisión las medias de las variables asociadas en la población ,, … , , el estimador de por la regresión múltiple es

Page 17: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

289

= + = ( − ̅ ) + (8.23)Donde ̅ es la media de sobre la muestra.

8.2 Recomposición sobre variables categóricas

8.2.1 Estimador de post estratificación

Ocasionalmente, aparecen problemas de muestreo en los que se quiere estratificar en funciónde una variable clave, pero no es posible ubicar las unidades de muestreo en sus estratoscorrectos sólo hasta después de haber seleccionado la muestra. Es decir, no hay manera deidentificar a cada individuo de la población con su estrato a la hora de hacer el muestreo.

La estratificación después de la selección de la muestra (o postestratificación), esfrecuentemente apropiada cuando la muestra aleatoria simple no está correctamenteequilibrada de acuerdo con los segmentos principales de la población. En estos casos sepropone el estimador de post estratificación:

= (8.24)Donde = ∑ ∈ ⁄ es la media de Y sobre los individuos de la muestra que pertenecen ala categoría h.

Cuando se realiza un muestreo estratificado, se fija de antemano el tamaño que tendrá lamuestra en cada estrato (n , n , … , n ) de modo que la suma de esos tamaños da lugar altamaño de la muestra

n = (8.25)En la post estratificación el número de individuos (nℎ) que pertenecen a cada estrato (h) esuna variable aleatoria. Se sabe que si n es bastante grande, la proporción de individuos de lamuestra que pertenecen a la categoría h (nℎ⁄ ) es un estimador sin sesgo de la proporcióncorrespondiente en la población

= (8.26)

Page 18: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

290

siendo la varianza de similar a la del estimador del muestreo aleatorio estratificadoproporcional: ≈ (8.27)

= 1 − (8.28)Ejemplo. Se encuestaron 800 docentes para conocer el consumo de un producto determinadoarrojando el resultado de $194,25. La población de docentes se particiona entre quienesimparten sus conocimientos en el ámbito primario y quienes lo hacen en el secundario; laconstitución de la muestra no ha tenido en cuenta (o no ha podido tener en cuenta) estasituación. En la Figura 8.5 se observa la participación de cada grupo en la población y en lamuestra y el resultado que asume la variable de interés en cada estrato muestral.

Ámbito escolar

Población Muestra

Proporción ProporciónConsumo

medioPrimaria 0.30 0.35 $165.00Secundaria 0.70 0.65 $210.00

Figura 8.5 Participación en la población y en la muestra

La muestra no respeta exactamente las proporciones de docentes en el primario y en elsecundario que existen en la población bajo estudio, para solucionar esto se propone unaestimación del consumo medio por post estratificación haciendo

= = 0.30 ∗ 165 + 0.70 ∗ 210 = 196,50Si se hubiera considerado el resultado arrojado por la muestra, sin corregir por el tamaño delestrato en la población, se habría incurrido en una subestimación.

8.2.2 Varias variables categóricas: método RAS

Cuando en una encuesta se tiene varias variables categóricas y se conoce cuál es la frecuenciaen la población, de cada modalidad integrante de cada variable, es posible construir una únicavariable categórica donde las modalidades se originan a partir de la combinación demodalidades de las variables originales. A partir de aquí, el proceso de recomposición de lamuestra se aplica utilizando la post estratificación sobre esta variable.

Ejemplo. Una muestra aleatoria de 1200 casos presenta la distribución conjunta de las variablesSexo y Grupo de edad con la frecuencia observada en la Figura 8.6. Se anexa también, lafrecuencia esperada en la población de acuerdo a la composición demográfica conocida.

Page 19: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

291

El problema que se presenta es que la composición en edades y sexo de la muestra no refleja laexistente en la población. Por esto es necesario recomponer la muestra.

Edad Frecuencia<25 25 a 65 >65 Muestra Población

Sexo

Hombre 150 150 200 500 600

Mujer 180 220 300 700 600

Frec

Muestra 330 370 500 1200

Población 300 500 400 1200

Figura 8.6 Información obtenida de la muestra

Para recomponer la muestra se utiliza el método iterativo RAS (Raking Adjusted Statistics)consistente en:

1. Ajuste sobre las líneas

Con los datos de la Figura 8.6, se multiplica la primer línea por 600/500 y la segunda por 600/700;es decir, se multiplica por la frecuencia de la población y se divide por la hallada en la muestra. Elresultado es la Figura 8.7.

Edad Frecuencia<25 25 a 65 >65 Muestra Población

Sexo

Hombre 180 180 240 600 600

Mujer 154,3 188,6 257,1 600 600

Frec Muestra 334,3 368,6 497,1 1200

Población 300 500 400 1200Figura 8.7 Ajuste sobre líneas – primer ajuste

2. Ajuste sobre las columnas

Con los datos de la Figura 8.7, se multiplica la primera columna por 300/334.3, la segunda por500/368.6, la tercera por 400/497.1. El resultado es la Figura 8.8.

Edad Frecuencia<25 25 a 65 >65 Muestra Población

Sexo

Hombre 161.5 244.2 193.1 598.8 600

Mujer 138.5 255.8 206.9 601.2 600

Frec

Muestra 300 500 400 1200

Población 300 500 400 1200

Figura 8.8 Ajuste sobre columnas

3. Ajuste sobre las líneas

Con los datos de la Figura 8.8, se multiplica la primera línea por 600/598.8 y la segunda por600/601.2. El resultado es la Figura 8.9 en la cual la composición de la muestra responde a laesperada según la composición de la población.

Page 20: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

292

Edad Frecuencia<25 25 a 65 >65 Muestra Población

Sexo

Hombre 161.8 244.7 193.5 600 600

Mujer 138.2 255.3 206.5 600 600Fr

ec

Muestra 300 500 400 1200

Población 300 500 400 1200

Figura 8.9 Ajuste sobre líneas – segundo ajuste

La Figura 8.9 indica la cantidad de personas que debieron ser encuestadas en cada grupo y en laFigura 8.6 la cantidad que efectivamente ha sido entrevistada. Esta diferencia hace que lasopiniones de algunos grupos estén sobredimensionadas y las de otros subdimensionadas. Paradarle a las opiniones de cada grupo el peso que le corresponden, se asignará un peso en funciónde la clase a la cual pertenece cada uno de los 1200 individuos de la muestra. Este peso, querelaciona la participación del estrato en la muestra y en la población, combina los resultados de laFigura 8.9 y la Figura 8.6:

Clase Peso

Hombres de menos de 25 años 161.8/150=1.07867

Hombres de 25 a 65 años 244.7/150=1.63133

Hombres de más 65 años 193.5/200=0.9675

Mujeres de menos de 25 años 138.2/180=0.76778

Mujeres de 25 a 65 años 255.3/220=1.16045

Mujeres de más 65 años 206.5/300=0.68833

La suma de los pesos sobre los 1200 individuos es igual a 1200 y el estimador de la mediapoblacional por recomposición RAS es:

= 11200 (8.29)En definitiva, se trata de volver a ponderar los individuos de la muestra asignándole un pesodistinto de 1. Por esto se los denomina métodos de recomposición de muestras.

Estos métodos son muy utilizados por los politólogos para estimar las intenciones de votos. Losresultados en bruto de los muestreos tendrían un alto error al no utilizar las informacionesauxiliares conocidas. Droesbeke y Fine (1997) advierten que las personas encuestadas quetienen opiniones extremas no confiesan sus intenciones reales de voto a un encuestador.

Entre los numerosos especialistas en muestreo se afirma que “recomponer no es engañar”pero “no recomponer cuando es posible constituye una falta profesional para el estadístico”.

Page 21: CAPITULO 8. RECOMPOSICIÓN DE LA MUESTRA … · 9 Santa Catalina (Est. Holmberg) Río Cuarto 3.035 10 San Basilio Río Cuarto 2.510 11 Elena Río Cuarto 2.670 2.815 2.670 12 Achiras

293

PROBLEMAS Y CASOS DE ESTUDIO

Caso 8.1 Población en la Provincia de Córdoba

La tabla de datos localidades.xls tiene información de cantidad de personas para 526localidades de la Provincia de Córdoba, según los censos de población de 1991 y 2001.Seleccione una muestra aleatoria de 50 localidades y aplique el estimador de la razón paracorregir el resultado muestral.

Bibliografía Cochran, William G. Técnicas De Muestreo. Editorial CECSA, 1987.

Droesbeke, Jean-Jacques y Fine, Jeanne. "Metodología De La Encuesta," L. d. M. d. T. d. D.Université Libre de Bruxelles, Belgique, Programme de Recherche et d´enseignement enStatistique Appliquée. Concepción, Chile: Universidad de Concepción, 1997.

Rodriguez, Norberto. "Curso Taller Sobre Diseño De Muestras Probabilísticas," XXIII ColoquioArgentino de Estadística. Cordoba: Sociedad Argentina de Estadística, 1995.

Scheaffer, Richard; William Mendenhall III y R.Lyman Ott. Elementos De Muestreo. Madrid:Editorial Thomson, 2007.