51
Estimación del Índice de Gini en Poblaciones Finitas José Antonio Mayor Gallego Departamento de Estadística e Investigación Operativa Universidad de Sevilla. Facultad de Matemáticas Abril, 2009 José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB 1/1

Universidad de Sevilla - Estimación del Índice de Gini en ...personal.us.es/jmayor/ficheros/prospegini.pdfEstimación del Índice de Gini en Poblaciones Finitas José Antonio Mayor

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

  • Estimación del Índice de Gini en PoblacionesFinitas

    José Antonio Mayor Gallego

    Departamento de Estadística e Investigación Operativa

    Universidad de Sevilla. Facultad de Matemáticas

    Abril, 2009

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 1/1

  • Problema Considerado:Estimación del Índice de Gini en poblaciones finitas

    Elementos básicos

    Población finita. U = {1,2, . . . ,N}

    Variable de estudio. Y = {yi | i ∈ U}

    Variable auxiliar conocida. X = {xi | i ∈ U}

    Función de distribución poblacional,

    F (t) =1N

    ∑i∈U

    ∆(t − yi ), ∆(t − yi ) ={

    1 t ≥ yi0 t < yi

    Media y total poblacionales,

    Y =1N

    ∑i∈U

    yi =1N

    T (Y )

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 2/1

  • Problema Considerado:Estimación del Índice de Gini en poblaciones finitas

    Índice de Gini

    IG =

    ∫IR

    ∫IR|t − u|dF (t)dF (u)∫

    IRu dF (u)

    CaracterísticasMedida de uniformidad en elreparto de la variable en estudio.

    Útil en estudios económicos ydemográficos sobre distribución debienes, salarios, población, etc.

    Habitualmente se estudia a partirde encuestas por muestreo.

    ObjetivosDesarrollar estimadores del índice de Gini en poblaciones finitas.

    Estudiar sus propiedades en relación al sesgo y al error cuadráticomedio.

    Realizar mediante simulación un estudio comparativo con otrosestimadores de la bibliografía.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 3/1

  • Problema Considerado:Estimación del Índice de Gini en poblaciones finitas

    Índice de Gini

    IG =

    ∫IR

    ∫IR|t − u|dF (t)dF (u)∫

    IRu dF (u)

    CaracterísticasMedida de uniformidad en elreparto de la variable en estudio.

    Útil en estudios económicos ydemográficos sobre distribución debienes, salarios, población, etc.

    Habitualmente se estudia a partirde encuestas por muestreo.

    ObjetivosDesarrollar estimadores del índice de Gini en poblaciones finitas.

    Estudiar sus propiedades en relación al sesgo y al error cuadráticomedio.

    Realizar mediante simulación un estudio comparativo con otrosestimadores de la bibliografía.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 3/1

  • Problema Considerado:Estimación del Índice de Gini en poblaciones finitas

    Índice de Gini

    IG =

    ∫IR

    ∫IR|t − u|dF (t)dF (u)∫

    IRu dF (u)

    CaracterísticasMedida de uniformidad en elreparto de la variable en estudio.

    Útil en estudios económicos ydemográficos sobre distribución debienes, salarios, población, etc.

    Habitualmente se estudia a partirde encuestas por muestreo.

    ObjetivosDesarrollar estimadores del índice de Gini en poblaciones finitas.

    Estudiar sus propiedades en relación al sesgo y al error cuadráticomedio.

    Realizar mediante simulación un estudio comparativo con otrosestimadores de la bibliografía.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 3/1

  • Parámetros de concentración

    Familia de índices de Gini. Nygård and Sandström (1985a,1985b)

    IGJ =1Y

    ∫ ∞0

    J[F (t)]tdF (t)

    J(·) es una función de ponderación, continua.

    Índice de Gini clásico. J(p) = 2p − 1

    IG =1Y

    ∫IR

    [2F (t)− 1]tdF (t) = 1Y

    ∫IR

    ∫IR|t − u|dF (t)dF (u)

    =1

    2N2Y

    ∑∑i, j∈U

    |yi − yj| ∈ [0,1− 1/N]

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 4/1

  • Parámetros de concentración

    Familia de índices de Gini. Nygård and Sandström (1985a,1985b)

    IGJ =1Y

    ∫ ∞0

    J[F (t)]tdF (t)

    J(·) es una función de ponderación, continua.

    Índice de Gini clásico. J(p) = 2p − 1

    IG =1Y

    ∫IR

    [2F (t)− 1]tdF (t) = 1Y

    ∫IR

    ∫IR|t − u|dF (t)dF (u)

    =1

    2N2Y

    ∑∑i, j∈U

    |yi − yj| ∈ [0,1− 1/N]

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 4/1

  • Referencias básicas

    Glasser, 1962. Variance Formulas for the Mean Difference andCoefficient of ConcentrationEstudio del error de muestreo, bajo muestreo aleatorio simple,de los parámetros muestrales,

    Diferencia media,

    d =1

    n(n − 1)∑

    i, j∈m|yi − yj |

    Índice de concentración,

    γ =d2ȳ

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 5/1

  • Referencias básicas

    Brewer, 1981. The Analytical Use of Unequal ProbabilitySamples: A case Study

    Estudio práctico a gran escala de la distribución depresupuestos escolares en Australia.Denotando por yi el presupuesto de la escuela i y por xi elnúmero de alumnos de la misma, se considera la curva,tipo Lorenz,

    (r∑

    i=1

    xi ,r∑

    i=1

    yi), r = 1,2,3, . . . ,N

    a partir de la cual se desarrolla el índice de Gini y suestimación.Se estudia el error de muestreo mediante la técnica del“jackknife”.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 6/1

  • Referencias básicas

    SandströM, Wretman, Waldén, 1985. Variance Estimators ofthe Gini Coefficient. Simple Random Sampling

    Desarrollo de estimadores de la varianza del índice deGini muestral, empleando técnicas de aproximación.Estudio computacional de dichos estimadores y de lavarianza obtenida con la técnica del “jackknife”, paradistintos modelos de la variable de estudio.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 7/1

  • Referencias

    Nygård, Sandström, 1985a. Income Inequality MeasureBased on Sample Surveys.Nygård, Sandström, 1985b. The Estimation of the Gini andthe Entropy Inequality Parameters in Finite Populations.SandströM, Wretman, Waldén, 1988. Variance Estimators ofthe Gini Coefficient. Probability Sampling.

    Desarrollo de estimadores del índice de Gini y de otrosparámetros relacionados, bajo muestreo probabilístico.Estudio de las propiedades asintóticas de dichosestimadores.Estudio computacional de la varianza de dichosestimadores.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 8/1

  • Índice de Gini y curva de Lorenz

    Curva de Lorenz

    IG =1

    2N2Y

    ∑i, j∈U

    |yi − yj | = 2 δ

    EstimaciónDiseño muestral (M, p(·)) → m,muestra.

    Probabilidades de inclusión,

    Π = {πij | i, j ∈ U} > 0

    Estimaciones de F (t) and G(t),

    F̂ (t) =1

    ∑i∈m

    ∆(t − yi )πi

    Ĝ(t) =1

    T̂ (Y )

    ∑i∈m

    yi∆(t − yi )

    πi

    Estimación de la curva deLorenz.

    {(F̂ (t), Ĝ(t)) | t ∈ IR}

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 9/1

  • Estimador de Nygård y Sandström

    ÎG = 2δ̂ =1

    N̂2 Ŷ

    n∑i=1

    (2Pi +

    1πji

    )yjiπji− 1

    Ŷ = T̂ (Y )/N̂. Pi dadas por,

    P1 = 0 , Pi =i−1∑k=1

    1πjk

    i = 2 . . . n

    j1, j2, . . . jn tales que, yj1 ≤ yj2 ≤ · · · ≤ yjnPara el diseño MAS(N,n), πi = n/N,

    ÎGd1 =1

    2n2ȳ

    ∑∑i, j∈m

    |yi − yj |

    Nygård and Sandström (1985a,1985b)

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 10/1

  • Estimador alternativo bajo Muestreo Aleatorio Simple

    ∑∑i, j∈m

    |yi − yj |πij

    es un estimador insesgado de∑∑

    i, j∈U|yi − yj |

    por lo que,

    ÎGd2 =1

    2N2Ŷ

    ∑∑i, j∈m

    |yi − yj |πij

    siendo πij =n(n − 1)N(N − 1)

    por lo que,

    ÎGd2 =N − 1

    2n(n − 1)Nȳ∑∑

    i, j∈m|yi − yj | Mayor (2003)

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 11/1

  • Estimación predictiva

    Modelo de superpoblación

    yi = β xi + v(xi) εi i ∈ U

    β: parámetro desconocido.v(·): una función conocida.εi : variables aleatorias independientes e idénticamentedistribuidas.

    E [εi ] = 0, ∀i ∈ UV [εi ] = σ2, ∀i ∈ U

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 12/1

  • Estimación predictiva

    Estimación de F (t)

    F̂ (t) =1N

    ∑i∈U

    ∆(t − ŷi)

    ŷi ={

    yi si i ∈ mβn xi si i ∈ U −m

    siendo,

    βn =

    ∑i∈m yixi/πiv

    2(xi)∑i∈m x

    2i /πiv

    2(xi)estimador π-ponderado de β

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 13/1

  • Estimador predictivo de IG

    IG =D

    2Y

    D =∫

    IR

    ∫IR|u − w |dF (u)dF (w), Y =

    ∫IR

    u dF (u)

    D̂ =∫

    IR

    ∫IR|u − w |dF̂ (u)dF̂ (w) = 1

    N2∑∑

    i, j∈U|ŷi − ŷj |

    Ŷ =∫

    IRu dF̂ (u) =

    1N

    ∑i∈U

    ŷi

    Estimador predictivo básico

    ÎGp =D̂

    2Ŷ=

    1

    2N2Ŷ

    ∑∑i, j∈U

    |ŷi − ŷj |

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 14/1

  • Estimador predictivo de IG

    Hipótesis

    v(x) = x1/2

    Muestreo Aleatorio Simple

    entonces,

    βn =

    ∑i∈m yixi/πiv

    2(xi)∑i∈m x

    2i /πiv

    2(Xi)=

    ∑i∈m yi∑i∈m xi

    y,Ŷ = βn X

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 15/1

  • Estimador predictivo de IG

    Sesgo de D̂

    B[D̂] = E [D̂]− D

    =1

    N2

    ∑∑i, j∈U

    |yi − yj |(πij − 1)

    +∑∑

    i, j∈U

    |yi − βNxi |(πi − πij ) +∑∑

    i, j∈U

    |βNxi − yj |(πj − πij )

    +βN∑∑

    i, j∈U

    |xi − xj |(1− πi − πj + πij )

    + O(n−1/2)El primer término es de orden O(1) y, βN = Y/X .

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 16/1

  • Estimador predictivo de IG

    Estimación del sesgo de ÎGp

    B̂[ÎGp] =1

    2ŶN2

    ∑∑i, j∈m

    |yi − yj |πij − 1πij

    +∑∑

    i, j∈m

    |yi − βnxi |πi − πijπij

    +∑∑

    i, j∈m

    |βnxi − yj |πj − πijπij

    +βn∑∑

    i, j∈m

    |xi − xj |1− πi − πj + πij

    πij

    πi = n/N, πij = n(n − 1)/N(N − 1) , i 6= j

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 17/1

  • Estimador predictivo de IG

    Estimador de IG con corrección del sesgo

    ÎGpc = ÎGp − B̂[ÎGp]

    =1

    2N2Ŷ

    ∑∑i, j∈U

    |ŷi − ŷj | −1

    2N2Ŷ

    ∑∑i, j∈m

    |yi − yj |πij − 1πij

    +∑∑

    i, j∈m

    |yi − βnxi |πi − πijπij

    +∑∑

    i, j∈m

    |βnxi − yj |πj − πijπij

    +βn∑∑

    i, j∈m

    |xi − xj |1− πi − πj + πij

    πij

    πi = n/N, πij = n(n − 1)/N(N − 1), i 6= j

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 18/1

  • Comparación por simulación. Poblaciones reales

    SUGAR CANE y MU284. Chambers y Dunstan (1986), Särndal et al. (1992)

    SUGAR CANE. N = 338 plantaciones azucareras.Chambers y Dunstan (1986). Y es la producción de cadaplantación. X es la superficie. Para esta población, elcuadrado del coeficiente de correlación entre Y y X esρ2SC = 0,787.

    MU284. N = 284 Municipios de Suecia. Särndal etal.(1992). Y es la población en 1985. X es la población en1975. ρ2MU284 = 0,997

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 19/1

  • Comparación por simulación. Poblaciones reales

    SUGAR CANE y MU284. Chambers y Dunstan (1986), Särndal et al. (1992)

    SUGAR CANE. N = 338 plantaciones azucareras.Chambers y Dunstan (1986). Y es la producción de cadaplantación. X es la superficie. Para esta población, elcuadrado del coeficiente de correlación entre Y y X esρ2SC = 0,787.

    MU284. N = 284 Municipios de Suecia. Särndal etal.(1992). Y es la población en 1985. X es la población en1975. ρ2MU284 = 0,997

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 19/1

  • Comparación por simulación. Poblaciones artificiales

    D05..D095Población parametrizada con N = 1000. Hidiroglou andPatak (2004). Los valores (yi , xi) se generan suponiendo elmodelo de superpoblación considerado, con v(x) = x1/2 yβ = 2.X se genera a partir de una distribución Γ(a,b). a = 3,b = 16.Y se genera a partir de una distribución Γ(A,B) tal queE [yi ] = βxi = AB, V [yi ] = σ2xi = AB2.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 20/1

  • Comparación por simulación. Poblaciones artificiales

    D05..D095Población parametrizada con N = 1000. Hidiroglou andPatak (2004). Los valores (yi , xi) se generan suponiendo elmodelo de superpoblación considerado, con v(x) = x1/2 yβ = 2.X se genera a partir de una distribución Γ(a,b). a = 3,b = 16.Y se genera a partir de una distribución Γ(A,B) tal queE [yi ] = βxi = AB, V [yi ] = σ2xi = AB2.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 20/1

  • Comparación por simulación. Poblaciones artificiales

    D05..D095Población parametrizada con N = 1000. Hidiroglou andPatak (2004). Los valores (yi , xi) se generan suponiendo elmodelo de superpoblación considerado, con v(x) = x1/2 yβ = 2.X se genera a partir de una distribución Γ(a,b). a = 3,b = 16.Y se genera a partir de una distribución Γ(A,B) tal queE [yi ] = βxi = AB, V [yi ] = σ2xi = AB2.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 20/1

  • Poblaciones artificiales

    El valor σ2 se escoge de forma que,

    ρ2[X ,Y ] =β2b2

    β2b2 + σ2b

    Dando a ρ2[X ,Y ] los valores 0.5, 0.6, 0.7, 0.8, 0.9 y 0.95,obtenemos seis poblaciones distintas, que denominamosD05, D06, D07, D08, D09 y D095.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 21/1

  • Poblaciones artificiales

    El valor σ2 se escoge de forma que,

    ρ2[X ,Y ] =β2b2

    β2b2 + σ2b

    Dando a ρ2[X ,Y ] los valores 0.5, 0.6, 0.7, 0.8, 0.9 y 0.95,obtenemos seis poblaciones distintas, que denominamosD05, D06, D07, D08, D09 y D095.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 21/1

  • Simulación muestralMuestreo aleatorio simple con tamaño muestraln = 10,15,20 y 30. Para cada caso, se generan L = 1000muestras. Para cada muestra calculamos las estimacionesÎGd1, ÎGd2, ÎGp, ÎGpc , y,

    Sesgo relativo.

    SGR =1

    L× IG

    L∑1=1

    (IG − ÎGi)

    Error cuadrático medio relativo.

    ECMR =

    (1

    L× IG2L∑

    1=1

    (IG − ÎGi)2)1/2

    Se han multiplicado por 104 para facilitar su interpretación.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 22/1

  • Resultados

    SUGAR CANEPOBLACIÓN SUGAR CANE. N = 338

    ÎGp ÎGpc ÎGd1 ÎGd2n SGR ECMR SGR ECMR SGR ECMR SGR ECMR

    10 673 674 72 1524 1247 2593 284 254415 662 664 34 1186 827 2045 201 200820 649 652 13 1025 634 1772 114 177230 628 632 -4 826 457 1414 77 1435Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

    población SUGAR CANE.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 23/1

  • Resultados

    MU284POBLACIÓN MU284. N = 284.

    ÎGp ÎGpc ÎGd1 ÎGd2n SGR ECMR SGR ECMR SGR ECMR SGR ECMR

    10 -64 64 -92 300 2002 3021 1145 278515 -63 65 -83 258 1480 2648 904 251320 -63 64 -76 213 1185 2366 754 221230 -60 63 -40 179 842 1913 560 1941Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

    población MU284.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 24/1

  • Resultados

    D05POBLACIÓN D05. N = 1000

    ÎGp ÎGpc ÎGd1 ÎGd2n SGR ECMR SGR ECMR SGR ECMR SGR ECMR

    10 2731 2732 -105 1880 829 2072 -163 211115 2691 2692 -97 1510 519 1657 -132 168720 2654 2655 -49 1264 398 1476 -82 149430 2577 2578 -32 1014 244 1135 -66 1145Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

    población D05.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 25/1

  • Resultados

    D06POBLACIÓN D06. N = 1000

    ÎGp ÎGpc ÎGd1 ÎGd2n SGR ECMR SGR ECMR SGR ECMR SGR ECMR

    10 2111 2111 25 1707 945 2133 -65 211915 2080 2081 13 1292 567 1655 -57 166320 2052 2053 9 1151 465 1440 -30 143030 1996 1997 2 872 305 1143 -26 1136Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

    población D06.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 26/1

  • Resultados

    D07POBLACIÓN D07. N = 1000

    ÎGp ÎGpc ÎGd1 ÎGd2n SGR ECMR SGR ECMR SGR ECMR SGR ECMR

    10 1521 1522 15 1546 1024 2269 52 154615 1499 1500 5 1219 665 1800 24 178920 1480 1481 2 1004 490 1510 15 150030 1437 1438 2 811 300 1227 -9 1227Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

    población D07.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 27/1

  • Resultados

    D08POBLACIÓN D08. N = 1000

    ÎGp ÎGpc ÎGd1 ÎGd2n SGR ECMR SGR ECMR SGR ECMR SGR ECMR

    10 1260 1261 -50 1346 1041 2038 -60 134715 1243 1243 -45 1072 621 1582 -53 155520 1226 1226 -32 860 516 1367 -41 133030 1190 1191 0 693 318 1087 10 1041Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

    población D08.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 28/1

  • Resultados

    D09POBLACIÓN D09. N = 1000

    ÎGp ÎGpc ÎGd1 ÎGd2n SGR ECMR SGR ECMR SGR ECMR SGR ECMR

    10 337 337 36 1123 988 2181 42 112315 331 332 -10 866 654 1684 18 165920 326 327 -20 730 502 1475 26 145730 319 321 1 564 270 1138 -40 1142Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

    población D09.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 29/1

  • Resultados

    D095POBLACIÓN D095. N = 1000

    ÎGp ÎGpc ÎGd1 ÎGd2n SGR ECMR SGR ECMR SGR ECMR SGR ECMR

    10 427 427 -6 708 1102 2326 138 227515 421 421 -8 533 672 1810 30 179720 415 416 -6 451 451 1543 -26 154930 404 405 3 357 378 1266 20 1282Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

    población D095.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 30/1

  • Conclusiones

    ÎGpc presenta menos sesgo que ÎGd1, ÎGd2 y ÎGp. Incluso parapequeños tamaños de muestra y correlaciones no muy elevadasel sesgo relativo es despreciable, menor de 1 %.

    En términos de eficiencia, medida por el error cuadrático medioÎGpc es más eficiente que ÎGd1 y ÎGd2. Esta eficiencia seincrementa para correlaciones altas. Excepto para correlacionesmuy elevadas, no usuales en poblaciones reales, ÎGpc estambién más eficiente que el estimador predictivo básico, ÎGp.

    El sesgo y la eficiencia de ÎGp depende fuertemente de lacorrelación entre las variables.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 31/1

  • Conclusiones

    En resumenSi disponemos de información auxiliar, el enfoquepredictivo produce una mejora de las estimaciones sobreel enfoque de diseño. Esta mejora es más acentuada parael estimador con corrección del sesgo, ÎGpc .Si no disponemos de información auxiliar, el estimadorbasado en el diseño, ÎGd2 es la mejor alternativa.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 32/1

  • Estimación de la varianza de ÎGpc

    Estudios previosBrewer (1981)Nygård and Sandström (1985a)Sandström et al. (1985,1988)

    consideran la técnica del “jackknife” para estimar la varianzadel estimador básico basado en el diseño, ÎGd1.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 33/1

  • Estimador “jackniffe” de la varianza

    Muestra.m = {j1, j2, . . . , jn}

    ÎG(m): estimación con la muestra original.

    ÎG(m − {ji}): estimación con la muestra m de la que se haeliminado la unidad i-ésima.

    Pseudovalores.

    ÎG(i) = n ÎG(m)− (n − 1) ÎG(m − {ji}) i = 1 · · · n

    Estimador de la varianza.

    V̂ [ÎG] =1

    n(n − 1)

    n∑i=1

    (ÎG(m)− ÎG(i)

    )2

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 34/1

  • Estudio por simulación. Estimador predictivo corregido

    Se emplean las poblaciones reales y artificiales yadescritas anteriormente.Se realiza Muestreo Aleatorio Simple con tamañosmuestrales n = 10,15,20 y 30. Para cada caso, seobtienen L = 1000 muestras, y para cada una se calcula elestimador “jackniffe” de la varianza.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 35/1

  • Resultados

    Se calculanRC: Razón de cubrimiento. Cociente entre número deveces que el intervalo de confianza al 95 %,

    ÎGpc ± 1.96×√

    V̂ [ÎGpc]

    contiene el verdadero valor del índice de Gini, y el númerototal de muestras seleccionadas.RM: Radio medio de los intervalos. Media aritmética de lascantidades α = 1.96×

    √V̂ [ÎGpc].

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 36/1

  • Resultados. RC y RM. ÎGpc

    SUGAR CANE

    n CR MR10 0.930000 0.08616815 0.940000 0.06588720 0.942000 0.05409930 0.956000 0.043118

    D05

    n CR MR10 0.932000 0.16408215 0.941000 0.12858120 0.949000 0.10707830 0.953000 0.084304

    MU284

    n CR MR10 0.951000 0.03523415 0.940000 0.02686520 0.957000 0.02378630 0.948000 0.021134

    D06

    n CR MR10 0.945000 0.14877515 0.947000 0.11466120 0.956000 0.09661230 0.961000 0.075404

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 37/1

  • Resultados. RC y RM. ÎGpc

    SUGAR CANE

    n CR MR10 0.930000 0.08616815 0.940000 0.06588720 0.942000 0.05409930 0.956000 0.043118

    D05

    n CR MR10 0.932000 0.16408215 0.941000 0.12858120 0.949000 0.10707830 0.953000 0.084304

    MU284

    n CR MR10 0.951000 0.03523415 0.940000 0.02686520 0.957000 0.02378630 0.948000 0.021134

    D06

    n CR MR10 0.945000 0.14877515 0.947000 0.11466120 0.956000 0.09661230 0.961000 0.075404

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 37/1

  • Resultados. RC y RM para ÎGpc

    D07

    n CR MR10 0.941000 0.12136515 0.952000 0.10993520 0.953000 0.08128230 0.956000 0.064636

    D09

    n CR MR10 0.954000 0.07345415 0.952000 0.05243820 0.953000 0.04579430 0.957000 0.036552

    D08

    n CR MR10 0.947000 0.10323415 0.951000 0.07982820 0.957000 0.06588530 0.952000 0.051243

    D095

    n CR MR10 0.938000 0.04929415 0.945000 0.03777020 0.952000 0.03113630 0.948000 0.024693

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 38/1

  • Conclusiones

    Incluso si la correlación entre las variables no es muy elevada,los intervalos de confianza basados en el estimador “jackniffe”de la varianza son muy precisos presentando una razón decubrimiento muy aproximada a la teórica del 95 %.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 39/1

  • Líneas de trabajo

    Aplicación de técnicas “bootstrap” para estimar el error demuestreo.Construir estimadores del índice de Gini medianteestimadores de calibración.Estimación con diseños muestrales complejos quemezclan estructuras de estratos y conglomerados.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 40/1

  • Referencias

    [1] Brewer, K.R.W. (1981). The Analytical Use of Unequal Probability Samples: A case Study. Proceeding ofthe 43th Session of the International Statistical Institute. Buenos Aires.

    [2] Chambers, R.L. and Dunstan, R. (1986). Estimating distribution functions from survey data. Biometrika. 73,597-604.

    [3] Glasser, (1962). Variance Formulas for the Mean Difference and Coefficient of Concentration. Journal of theAmerican Statistical Association. 57, 648-654.

    [4] Hidiroglou, M.A. and Patak, Z. (2004). Domain Estimation Using Linear Regression. Survey Methodology.30-1,67-78.

    [5] Nygård, F. and Sandström, A. (1985a). Income Inequality Measures Based on Sample Surveys. Proceedingof the 45th Session of the International Statistical Institute. Amsterdam.

    [6] Nygård, F. and Sandström, A. (1985b). The Estimation of the Gini and the Entropy Inequality Parameters inFinite Populations. Journal of Official Statistics. 1, 399-412.

    [7] Särndal, C., Swensson, B. and Wretman, J. (1992). Model Assisted Survey Sampling. Springer-Verlag. NewYork, Inc.

    [8] Sandström, A., Wretman, J.H. and Waldén, B. (1985). Variance Estimators of the Gini Coefficient, SimpleRandom Sampling. Metron. 43, 41-70.

    [9] Sandström, A., Wretman, J.H. and Waldén, B. (1988). Variance Estimators of the GiniCoefficient-Probability Sampling. Journal of Business & Economic Statistics 6-1, 113-119.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 41/1

  • Nygård, F. and Sandström, A. (1985a). Income InequalityMeasures Based on Sample Surveys. Proceeding of the45th Session of the International Statistical Institute.Amsterdam.Nygård, F. and Sandström, A. (1985b). The Estimation ofthe Gini and the Entropy Inequality Parameters in FinitePopulations. Journal of Official Statistics. 1, 399-412.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 42/1

  • Chambers, R.L. and Dunstan, R. (1986). Estimatingdistribution functions from survey data. Biometrika. 73,597-604.Särndal, C., Swensson, B. and Wretman, J. (1992).Model Assisted Survey Sampling. Springer-Verlag. NewYork, Inc.

    José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 43/1