20
E STUDIOS DE E CONOMÍA A PLICADA V OL . 20 - I, 2 0 0 2. P ÁGS . 241-260 Estimación por intervalos de la mediana con estimadores de razón y de diferencia * RUEDA GARCÍA, M. y ** ARCOS CEBRIÁN, A. Departamento de Estadística e Investigación Operativa. Facultad de Ciencias. Universi- dad de Granada. * e-mail:[email protected] ; ** e-mail:[email protected] RESUMEN En este trabajo se presentan diversos métodos para construir intervalos de confianza para medianas y otros cuantiles en poblaciones finitas, cuando se dispone de información auxiliar proporcionada por cuantiles de variables relacionadas con la variable objeto de estudio. Estos métodos se aplican para estimar la mediana de las subvenciones europeas por cultivos herbáceos de un municipio de la Comunidad de Castilla la Mancha, obteniendo intervalos de confianza muy sencillos de calcular y con menor longitud que los obtenidos sin usar la información auxiliar. Palabras clave: Estimadores indirectos, estimación de cuantiles y de funciones de distribución, diseños muestrales. Clasificación AMS: 62D05. Artículo recibido el 5 de febrero de 2001. Aceptado el 30 de abril de 2001. 1. INTRODUCCIÓN En muestreo en poblaciones finitas es usual trabajar con variables que presentan valo- res extremos, tales como ingresos, que alteran en gran medida el valor obtenido para la media. En tales casos utilizar esta medida de posición puede conducir a resultados poco representativos al desplazarse en el sentido de la asimetría, aumentando sin embargo la representatividad de la mediana, que no se ve afectada por estos valores extremos. Una amplia clase de estimadores de posición robustos, incluida la mediana muestral fue investigada en el estudio de simulación de Princeton por Andrew et al (1972). Aunque la mediana muestral no aparecía como el mejor estimador en muchas poblaciones simuladas en el estudio, se demostró claramente su robustez en las muestras pequeñas para desviacio- nes medias y grandes de normalidad. Su simplicidad comparada con otros estimadores

Estimacion Por Intervalos De La Mediana Con Estimadores

Embed Size (px)

DESCRIPTION

Herramientas para econometría

Citation preview

  • E S T U D I O S D E E C O N O M A A P L I C A D A VOL . 20 - I, 2 0 0 2. P G S . 241-260

    Estimacin por intervalos de la mediana con estimadores derazn y de diferencia

    *RUEDA GARCA, M. y **ARCOS CEBRIN, A.Departamento de Estadstica e Investigacin Operativa. Facultad de Ciencias. Universi-dad de Granada.*e-mail:[email protected]; **e-mail:[email protected]

    RESUMEN

    En este trabajo se presentan diversos mtodos para construir intervalos de confianza para medianas y otroscuantiles en poblaciones finitas, cuando se dispone de informacin auxiliar proporcionada por cuantiles devariables relacionadas con la variable objeto de estudio. Estos mtodos se aplican para estimar la mediana delas subvenciones europeas por cultivos herbceos de un municipio de la Comunidad de Castilla la Mancha,obteniendo intervalos de confianza muy sencillos de calcular y con menor longitud que los obtenidos sin usarla informacin auxiliar.

    Palabras clave: Estimadores indirectos, estimacin de cuantiles y de funciones de distribucin, diseosmuestrales.

    Clasificacin AMS: 62D05.

    Artculo recibido el 5 de febrero de 2001. Aceptado el 30 de abril de 2001.

    1. INTRODUCCIN

    En muestreo en poblaciones finitas es usual trabajar con variables que presentan valo-res extremos, tales como ingresos, que alteran en gran medida el valor obtenido para lamedia. En tales casos utilizar esta medida de posicin puede conducir a resultados pocorepresentativos al desplazarse en el sentido de la asimetra, aumentando sin embargo larepresentatividad de la mediana, que no se ve afectada por estos valores extremos.

    Una amplia clase de estimadores de posicin robustos, incluida la mediana muestral fueinvestigada en el estudio de simulacin de Princeton por Andrew et al (1972). Aunque lamediana muestral no apareca como el mejor estimador en muchas poblaciones simuladasen el estudio, se demostr claramente su robustez en las muestras pequeas para desviacio-nes medias y grandes de normalidad. Su simplicidad comparada con otros estimadores

  • 242 M. Rueda Garca y A. Arcos Cebrin

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    robustos, indic su eleccin para la investigacin en diseos distintos al de muestreo alea-torio simple.

    Mientras que la inferencia relativa a parmetros lineales como medias y totales ha sidomuy desarrollada en poblaciones finitas, (los textos de Hedayat y Sinha, 1991 y Cassel,Srndal y Wretman, 1993, contienen los principales resultados al respecto), no ocurre lomismo cuando el parmetro a estimar es la mediana u otro cuantil, donde los resultadosobtenidos son mucho ms pobres. No obstante, en los ltimos aos est siendo reconocidala importancia del estudio de estos parmetros. As por ejemplo la Oficina de Censos deEEUU ha realizado inferencia acerca de cuantiles en algunas de las encuestas nacionalesms importantes que elabora.

    La mayora de los estudios relativos a medianas se han realizado bajo muestreo aleato-rio simple y muestreo estratificado (Gross, 1980, Sedransk y Meyer 1978, Smith y Sedransk1983,...) considerando exclusivamente la variable de inters, no haciendo uso explcito devariables auxiliares en la construccin de estimadores.

    Cuando existe informacin auxiliar no es claro el procedimiento que debe seguirse parautilizarla con objeto de establecer los mejores estimadores de los cuantiles. As, tcnicasbien conocidas para la estimacin de medias como los estimadores de regresin, no tienenuna extensin inmediata para el caso de cuantiles.

    A continuacin vamos a describir la metodologa disponible para la estimacin porintervalos de medianas y otros cuantiles cuando existe informacin proporcionada por unao varias variables auxiliares.

    2. ESTIMACIN DE CUANTILES

    De forma muy breve, un marco de trabajo usual en muestreo de poblaciones finitas es eldescrito a continuacin.

    Una poblacin consiste en N elementos distintos identificados a travs de sus etiquetas

    Ni ,,1 K= . La caracterstica de inters asociada con el elemento i se conoce exactamente(sin error) observando el elemento i. Una muestra es un subconjunto, s, de U y sus valores

    asociados de y, es decir, { }),( iyi , seleccionados de acuerdo con un diseo de muestreoespecfico que asigna una probabilidad conocida p(s) tal que p(s) > 0 para todo Ss ,

    conjunto de las posibles muestras s, y 1)( =Ss

    sp .

    Para cada nmero )(

  • 243ESTIMACIN POR INTERVALOS DE LA MEDIANA CON ESTIMADORES...

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    con ( ) 1=aD si 0a y ( ) 0=aD en otro caso.El cuantil ( )bYQ se define as por

    ( ) { }.)(:inf bb = tFtQY

    El problema que se plantea es estimar ( )bYQ a partir de los datos de la muestra sobtenida a partir del diseo d.

    El procedimiento general opera de la siguiente forma: en primer lugar se obtiene un

    estimador de la funcin de distribucin )( tF y a continuacin se estima el cuantil median-

    te

    ( ) ( )aa 1 -= FQY

    donde 1 -YF es la inversa de la funcin de distribucin muestral.

    Este mtodo ha sido utilizado durante mucho tiempo. La primera publicacin destacadafue probablemente la de Woodruff (1952) bajo muestreo aleatorio simple. PosteriormenteLoynes (1966) estudi el problema cuando se consideran diseos muestrales complejos.

    Gross (1980) estudia tambin la estimacin de la mediana de una poblacin finita cuan-do se emplean diseos de muestreo complejos. Ajusta los mtodos de Maritz y Jarret (1978)a la estimacin de la mediana en muestreo estratificado sin reemplazamiento. Luego ex-tiende todos los resultados obtenidos a un diseo de muestreo estratificado de conglomera-dos. Dada la dificultad de determinar estimadores de las varianzas tiene que acudir a mto-dos de remuestreo.

    Mtodos de inferencia bayesiana para cuantiles han sido formulados por Ericson (1969),Binder (1982) y Hills (1968), entre otros, asumiendo un modelo multinomial para generarla poblacin finita de inters.

    Cuando se trabaja en poblaciones finitas es usual disponer de informacin acerca deuna o varias variables auxiliares, que puede utilizarse en la fase de estimacin para cons-truir estimadores ms precisos de los parmetros de la variable de inters.

    Si es conocido el cuantil del mismo orden para la variable auxiliar x, ( )aXQ , la formams intuitiva de incorporar esta informacin es (ver Rao, Kovar y Mantel, 1990) constru-yendo estimadores indirectos de forma similar al caso conocido de la media. As se puedeconstruir el estimador de razn:

    ( ) ( ) ( )( )

    ,

    b

    bbb

    X

    XYr

    Q

    QQQ =

  • 244 M. Rueda Garca y A. Arcos Cebrin

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    donde ( ) { } ( ) { }bbbb == )(:inf,)(:inf tFtQtFtQ XXYY

    siendo ( )tFX y ( )tFY los estimadores usuales de las funciones de distribucin de las varia-bles x e y y siendo ( ) { }bb = )(:inf tFtQ XX conocido.

    Este estimador, en muestreo aleatorio simple, puede verse tambin en Kuk y Mak (1989).En este trabajo los autores proponen otros estimadores de cuantiles que ellos denominan deposicin y de estratificacin, que en principio definen para la mediana de la poblacin yluego extienden a cualquier cuantil, y que utilizan la informacin auxiliar clasificando lasunidades en una tabla de doble va segn sean los valores de las variables en las unidadesmayores o menores que los respectivos cuantiles.

    La distribucin de estos estimadores indirectos sin embargo es bastante difcil de deter-minar. Slo se han podido dar aproximaciones de las varianzas asintticas. De ah que en laprctica no se utilicen como pivotes para construir intervalos de confianza para el cuantil.En la prctica los intervalos de confianza de cuantiles se determinan a partir del mtodoque introdujo Woodruff (1952), basado en la funcin de distribucin emprica y que pasa-mos a considerar.

    3. INTERVALOS DE CONFIANZA PARA CUANTILES: EL MTODO DEWOODRUFF

    Woodruff dio un mtodo simple para determinar intervalos de confianza para la media-na (o cualquier otro cuantil) de una poblacin finita para tamaos de muestra grandes:

    Dadas dos constantes d1 y d2, y para cada valor de ( )bYQ ,

    ( ){ } ( ) ( ) ( ){ }.)( 211121 dFQdFPdQFdP YYYYY -- @ bbAs, se sigue que para cada d1 y d2 constantes tales que ( ){ } gb -= 1)( 21 dQFdP YY ,

    aproximadamente un intervalo del ( )g-1100 % de confianza para ( )bYQ es( ) ( )[ ]., 2111 dFdF YY -- .

    Si el tamao de muestra n es suficientemente grande entonces ( ))( bQFY es aproxima-damente normal, y se pueden elegir

    ( )( )( ){ } ( )( )( ){ } 212

    22

    1

    21

    bbbb gg YYYY QFVzdyQFVzd +=-=

  • 245ESTIMACIN POR INTERVALOS DE LA MEDIANA CON ESTIMADORES...

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    donde 2

    gz denota la cola superior de rea 21g- de la distribucin normal estndar..

    Haskell y Sedransk (1980) hacen algunas modificaciones del mtodo de Woodruff, uti-lizando estimaciones alternativas para la varianza del estimador ( ))( bQFY que son prefe-ribles para tamaos muestrales pequeos.

    McCarthy (1965) y Chapmans (1970) extienden la metodologa para diseos muestralescomplejos.

    Una posible forma de introducir la informacin auxiliar en la estimacin de cuantiles esmediante la formulacin de estimadores indirectos de la funcin de distribucin. El primertrabajo importante es el de Chambers y Dunstan (1986) que asumen un modelo desuperpoblacin tipo paramtrico (en concreto un modelo lineal de la forma iiii uxvxy )(+= bcon u

    i variables i.i.d.). Sin embargo dada la complejidad de los clculos, indican cmo

    podra calcularse la mediana a partir del estimador que proponen, pero sus estudios desimulacin slo se refieren a funciones de distribucin y no realizan estimacin de cuantiles.

    Un punto de vista similar fue seguido por Rao, Kovar y Mantel (1990) quienes propo-nen estimadores de razn y diferencia de la funcin de distribucin tratando como variableprincipal los valores ( )iyt -D y como variable auxiliar ( )ixRt -D para cierto valor R ,obteniendo as estimadores asintticamente insesgados bajo el diseo, pero no sobre elmodelo asumido. Adems estos estimadores no son montonos, por lo que hay que proce-der a transformarlos adecuadamente para garantizar la monotona y as poderlos invertirpara calcular la estimacin del cuantil deseado. La dificultad del uso de este procedimientoles hace que en sus estudios de simulacin recurran a utilizar el estimador de razn delcuantil en vez del propuesto por ellos.

    Versiones no paramtricas de los estimadores de Chambers y Dunstan y Rao, Kovar yMantel, han sido propuestos por Dorfman (1993) utilizando estimadores de tipo ncleo deNadarayan-Watson. As este autor obtiene estimadores no paramtricos de la funcin dedistribucin que tan slo han sido estudiados desde el punto de vista terico; las simulacio-nes no son posibles dado que no se dispone de criterios vlidos que permitan la seleccindel parmetro ancho de banda que interviene en las estimaciones.

    Todos estos trabajos, aparte de la dificultad en la computacin y del posible sesgo resul-tante de la no adecuacin del modelo de superpoblacin asumido, necesitan para su formu-lacin que todos los valores de la variable auxiliar sean conocidos en la poblacin. Estasuposicin es vlida en algunas aplicaciones, pero no es muy comn, especialmente cuan-do la informacin acerca de la variable auxiliar es obtenida a partir de sumarios estadsti-cos y otras fuentes secundarias donde slo estn disponibles ciertas medidas o la distribu-cin de frecuencias agrupadas.

    As en la prctica estos estimadores no suelen usarse para construir intervalos de con-fianza para los cuantiles.

  • 246 M. Rueda Garca y A. Arcos Cebrin

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    Recientemente, intervalos basados en estimadores indirectos para la funcin de distri-bucin han sido propuestos por Rueda, Arcos y Arts (1998) y Rueda y Arcos (2001),extendiendo los mtodos de estimacin de razn y diferencia tan usados para medias, alcaso de funciones de distribucin. Estos intervalos se construyen en base al conocimientoslo del cuantil de la variable o variables auxiliares, y no necesitan del conocimiento detodos los valores poblacionales. Por otra parte no se basan en ningn modelo desuperpoblacin, y estn formulados para cualquier diseo muestral cuantificable.

    4. INTERVALOS DE CONFIANZA PARA LOS CUANTILES BASADOS ENESTIMADORES DE RAZN Y DIFERENCIA

    Supongamos que existen varias variables auxiliares, ),,1( lixi K= y asumiendo que los

    cuantiles ( )bix

    Q de ),,1( lixi K= son conocidos, se puede estimar el valor de la funcin

    de distribucin en el cuantil de inters ( )bYQ con cada variable auxiliar

    ( ) ( )( ) .,,1,)()(

    )( liQF

    QFQF

    ii

    i

    XX

    YYYR K== b

    bb

    b

    Estos estimadores se pueden combinar de la forma

    ( ) ( ),)()(1

    bwb YRl

    iiYR QFQF i

    ==

    donde ( ) == 1,,,1 il wwww K .El mtodo de Woodruff permite construir el intervalo

    ( )( )( ){ } ( )( )( ){ }

    +

    - -- 2

    1

    2

    121

    2

    1 , bbbb gg YRRYRR QFVzFQFVzF

    o equivalente el intervalo

    ( ) ( )

    =

    -

    =

    -l

    i XX

    iYl

    i XX

    iY

    iiiiQF

    c

    F

    QF

    c

    F

    1

    2

    1

    1

    1

    1

    )(

    ,

    )(

    bw

    b

    bw

    b

    y la normalidad asinttica de ( )( )bYR QF centrada en ( )( ) bb =YY QF permite elegir

  • 247ESTIMACIN POR INTERVALOS DE LA MEDIANA CON ESTIMADORES...

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    ( )( )( ){ } ( )( )( ){ } ., 212

    22

    1

    21 bbbb gg YRYR QFVzcQFVzc +=-=

    Como

    ( )( )( ) ( )( )( ) ( )( ) ( )( )( ),,cov21

    2

  • 248 M. Rueda Garca y A. Arcos Cebrin

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    o equivalentemente

    ( )( ) ( )( )

    -

    --

    =

    -

    =

    - l

    iXXiY

    l

    iXXiY iiii

    QFbcFQFbcF1

    21

    11

    1 )(,.)( bbbb

    es, aproximadamente, un intervalo de confianza del )1(100 g- % para ( )bYQ .Como ( )( )bYD QF es asintticamente normal con esperanza ( )( ) bb =Yy QF , se pueden

    tomar

    ( )( )( ){ } ( )( )( ){ } ,, 212

    22

    1

    21 bbbb gg YDYD QFVzcQFVzc +=-=

    lo cual reduce el problema a estimar la varianza anterior, ( )( )( )bYD QFV y por tanto, deno-tando ( )( )

    =-=

    l

    iXXi ii

    QFbA1

    .)( bb , el intervalo de confianza es

    ( )( )( ){ } ( )( )( ){ } ., 212

    121

    2

    1

    -+

    -- -- AQFVzFAQFVzF YDYYDY bbbb gg

    Si se sustituyen los coeficientes ),,1( libi K= que dan mayor precisin el estimadorresultante es

    ( ) ( ) ( ) ,)()( ' optXYYYD BFQQFQF -+= bbdonde sS 1-=optB , ( ) ( )( ) ( ) ( )( )( )')(,)(cov,,)(,)(cov 11 bbbbs ll XXYYXXYY QFQFQFQF K= ,

    li ,,1 K= , ( )ija=S , ( ) ( )( ) ljiQFQFa iiii XXXXij ,,1,)(,)(cov K== bb y ( )( ))( bii XXii QFVa = ,li ,,1 K= .

    La varianza mnima es

    ( )( ) ( )( ) .')()( 1sSsbb --= YYYDmin QFVQFVReemplazando s y S por estimadores insesgados s y S , se tiene

    ( ) ( ) ( ) .)()( 1' sSbb --+= XYYYopt FQQFQFSi la muestra se obtiene a partir de un muestreo aleatorio simple se puede obtener una

    expresin sencilla de la varianza del estimador ( ))( bYopt QF y del intervalo de confianza.Para ello se toma, para cada variable auxiliar, iX , el coeficiente V de Cramer, if ,

    basado en la clasificacin li ,,1 K= :

  • 249ESTIMACIN POR INTERVALOS DE LA MEDIANA CON ESTIMADORES...

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    ,,)(

    )(

    2121

    21122211

    21

    22221

    11211

    -=

    >

    >

    NNNN

    NNNN

    NN

    NNNQy

    NNNQy

    QxQx

    i

    Yi

    Yi

    xixi ii

    fb

    b

    donde N11 es el numero de unidades en la poblacin con )(bXQx y )(bYQy , de

    forma anloga, considerando el coeficiente V de Cramer if de la clasificacin, li ,,1 K= :

    2121

    21122211

    21

    22221

    11211 ,)(

    )(

    -=>

    >

    nnnn

    nnnn

    nn

    nnnQy

    nnnQy

    QxQx

    i

    Yi

    Yi

    xixi ii

    fb

    b

    ,

    donde n11 es el numero de unidades en la muestra con )( bXQx e )( bYQy y se nota

    ( )',,1 lyx ffF K= y ( )',, 1 lyx ffF K= .

    Se tiene pues xxn

    fFbbS )1(

    1 --

    = , donde ( )ijxx fF = con 1 =iif y as,

    ( )( ) ( )[ ].'111)( 1 yxxxyxYopt nf

    QFV FFFbbb ----

    =

    El intervalo para )(bYQ del ( )g-1100 % de confianza queda de la forma

    ( ) ( )[ ]yxxxXYyxxxXY FQrFFQrF FFFF )'(,)'( 121111 ---- ----con

    ( )[ ] .2,1.'111)1( 12

    =

    --

    --+= - k

    n

    fzr yxxxyx

    kk FFFbbb g

    En Rueda y Arcos (2001) se puede ver un estudio comparativo de estos mtodos conotros alternativos (basados en los estimadores de razn y diferencia de los cuantiles pro-puestos por Kuk y Mak) , en el que se pone de manifiesto las buenas propiedades en cuantoa longitud y cobertura de los intervalos, y la extensin a cualquier diseo muestral de losmtodos.

  • 250 M. Rueda Garca y A. Arcos Cebrin

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    Para mostrar la sencillez de estos mtodos y su buen funcionamiento, vamos a aplicar-los a unos datos reales, construyendo los intervalos correspondientes utilizando slo unacalculadora.

    5. APLICACIN PRCTICA

    La poblacin que hemos utilizado para ejemplificar los procedimientos anteriores con-siste en 417 agricultores que recibieron subvenciones por cultivos herbceos en un munici-pio de Castilla La Mancha, las correspondientes a 1998 como variable auxiliar y las del ao1999 como variable principal. La Junta de Comunidades de Castilla La Mancha las hizopblicas a raz del problema con los pagos recibidos por el cultivo de lino textil y camoy se pueden consultar en

    http://www.jccm.es/agricul/pac98/index.htmhttp://www.jccm.es/agricul/pac99/index.htm.Vamos a considerar dos tipos de muestreo: el muestreo aleatorio simple y el muestreo

    estratificado para el estudio.

    5.1. Muestreo aleatorio simple

    A partir de la poblacin anterior se seleccion la siguiente muestra aleatoria simple detamao n=30:

    ui

    yi

    xi

    ui

    yi

    xi

    9 642804 638250 239 188860 32333513 2018598 2202886 245 405200 91218

    18 483643 1405301 272 8627420 9074228 22 258943 275394 278 714627 72300236 316978 308411 287 81373 21783649 1191837 1588128 290 292128 28956964 3388723 3005243 291 361657 37956185 361132 337538 340 621201 516859

    104 12694 12843 346 109256 112576109 359397 391918 347 367988 280616169 358356 808745 363 375576 435691174 467323 628519 376 652099 1317185190 92907 264597 386 390879 499850193 224591 209102 395 1779527 1810537232 258277 642878 401 547257 436824

    A partir de esta muestra vamos a determinar los intervalos de confianza para la medianacon los mtodos estudiados en los apartados anteriores.

  • 251ESTIMACIN POR INTERVALOS DE LA MEDIANA CON ESTIMADORES...

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    5.1.1 Estimador directo ( )YY MF :

    Intervalo del 95% de confianza:

    ( )( ){ } ( )( ){ } ., 212

    121

    2

    1

    +

    - -- YYYYYY MFVzFMFVzF gg bb

    Como 417

    30=f es la fraccin de muestreo y 5.0=b ,

    ( )( ) ( ) ( ) ,10734.75.015.030

    417301

    11 3-=-

    -=-

    -= bb

    n

    fMFV YY

    con lo que ( )( ){ } ( )( ){ } 67236.0,32763.0 212

    21

    2=+=- YYYY MFVzMFVz gg bb

    y el intervalo resulta ( ) ( )[ ] [ ].547257,316978.67236.0,32763.0 11 =-- YY FFPara determinar dado a, ( )aFY 1 - , el procedimiento es el habitual

    ( ) ( ){ }ayFsiyaF iYiY =- |,inf 1 , lo cual requiere ordenar los iy . Este es el procedimientoempleado para evaluar ( )5.0 1-= YY FM y de igual forma, con la variable x, para evaluar

    ( )5.0 1-= XX FM .Sobre la siguiente tabla se realiza bien la inversin:

    iy )( iY yF iy )( iY yF

    12694 .0333 375576 .5333 81373 .0666 390879 .5666 92907 .1000 405200 .6000

    109256 .1333 467323 .6333 188860 .1666 483643 .6666 224591 .2000 547257 .7000 258277 .2333 621201 .7333 258943 .2666 642804 .7666 292128 .3000 652099 .8000316978 .3333 714627 .8333

    358356 .3666 1191837 .8666 359397 .4000 1779527 .9000 361132 .4333 2018598 .9333 361657 .4666 3388723 .9666367988 .5000 8627420 1.000

  • 252 M. Rueda Garca y A. Arcos Cebrin

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    5.1.2. Estimador de razn: ( ) ( ) ( )( )XXXX

    YYYRMF

    MFMFMF

    = .

    Intervalo del 95% de confianza:

    ( )( )( ){ } ( )( )( ){ } ., 212

    121

    2

    1

    +

    - -- bbbb gg YRRYRR QFVzFQFVzF

    ( )( ) ( )( ) ( ) 33 10133.5)6681.01(210734.712 -- =-=-= fYYYR MFVMFV

    donde f es el coeficiente de Cramer de la clasificacin

    14161515

    321213,

    1416

    15123367988

    15213367988

    450396450396

    -=

    >

    >

    fi

    i

    ii

    y

    y

    xx

    ,

    pues en este caso 450396=XM y 367988 =YM .

    Resulta ( )( ){ } ( )( ){ } 64042.0,35957.0 212

    21

    2=+=- YRYR MFVzMFVz gg bb

    y el intervalo ( ) ( )[ ] [ ],547257,359397.64042.0,35957.0 11 =-- RR FF donde el procedimientoempleado para invertir RF es anlogo al empleado para invertir YF , teniendo en cuenta la

    definicin de RF . En cuanto al clculo de las imgenes inversas existe la posibilidad de

    actuar de la forma anterior, pero tambin se puede actuar de la manera que exponemos acontinuacin.

    Por ejemplo, para el estimador RF el extremo inferior del intervalo es

    ( )( ){ } ( ),35957.0 1212

    1 -- =

    - RYRR FMFVzF gb

    y coincide con

    ( )( ) ( )( ){ } ( ),38355.0

    12

    1

    2

    1 -- =

    - YYR

    XX

    XXY FMFVzMF

    MFF gb

    pues en este caso ( ) 53333.0 =XX MF .

  • 253ESTIMACIN POR INTERVALOS DE LA MEDIANA CON ESTIMADORES...

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    iy )( iY yF )( iR yF iy )( iY yF )( iR yF

    12694 0.0333 0.0312 375576 0.5333 0.5577

    81373 0.0666 0.0625 390879 0.5666 0.5312

    92907 0.1000 0.0937 405200 0.6000 0.5625

    109256 0.1333 0.1250 467323 0.6333 0.5937

    188860 0.1666 0.1562 483643 0.6666 0.6250

    224591 0.2000 0.1875 547257 0.6999 0.6562

    258277 0.2333 0.2187 621201 0.7333 0.6875

    258943 0.2666 0.2500 642804 0.7666 0.7187

    292128 0.3000 0.2812 652099 0.8000 0.7500

    316978 0.3333 0.3125 714627 0.8333 0.7812

    358356 0.3666 0.3437 1191837 0.8666 0.8124

    359397 0.4000 0.3750 1779527 0.8999 0.8437

    361132 0.4333 0.4062 2018598 0.9333 0.8749

    361657 0.4666 0.4375 3388723 0.9666 0.9062

    367988 0.5000 0.4687 8627420 1.0000 0.9374

    De igual forma, ( ) ( ) 54725768312.064042.0 11 == -- YR FF .

    5.1.3. Estimador de diferencia: ( ) ( ) ( ) ( )( )XXXXYYYD MFMFMFMF -+= f .

    Intervalo del 95% de confianza:

    ( )( )( ){ } ( )( )( ){ } ,, 212

    121

    2

    1

    +

    - -- bbbb gg YDDYDD QFVzFQFVzF

    ( )( ) ( )( )( ) 3232 105747.3)73333.01(10734.71 -- =-=-= fYYYD MFVMFVdonde f es el coeficiente de Cramer de la clasificacin

    ,15151515

    221313,

    1515

    15132367988

    15213367988

    435691435691

    -=

    >

    >

    fi

    i

    ii

    y

    y

    xx

    pues en este caso 435691 =XM .

  • 254 M. Rueda Garca y A. Arcos Cebrin

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    Resulta

    ( )( ){ } ( )( ){ } 617186.0,38281.0 212

    21

    2=+=- YDYD MFVzMFVz gg bb

    y el intervalo ( ) ( )[ ] [ ],483643,361132.617186.0,38281.0 11 =-- DD FF

    donde el procedimiento empleado para invertir DF es anlogo al empleado para invertir

    YF , teniendo en cuenta la definicin de DF .

    Por ejemplo, para el estimador DF el extremo inferior del intervalo es

    ( )( ){ } ( ),38281.0 1212

    1 -- =

    - DYDD FMFVzF gb

    y coincide con

    ( )( ){ } ( ) ( )( ) ( ).40726.0 1212

    1 -- =

    --- YXXXXYDY FMFMFMFVzF fb g

    iy )( iY yF )( iD yF iy )( iY yF )( iD yF

    12694 0.0333 0.0088 375576 0.5333 0.5088

    81373 0.0666 0.0422 390879 0.5666 0.5422

    92907 0.1000 0.0755 405200 0.6000 0.5755

    109256 0.1333 0.1088 467323 0.6333 0.6088

    188860 0.1666 0.1422 483643 0.6666 0.6422

    224591 0.2000 0.1755 547257 0.6999 0.6755

    258277 0.2333 0.2088 621201 0.7333 0.7088

    258943 0.2666 0.2422 642804 0.7666 0.7422

    292128 0.3000 0.2755 652099 0.8000 0.7755

    316978 0.3333 0.3088 714627 0.8333 0.8088

    358356 0.3666 0.3422 1191837 0.8666 0.8422

    359397 0.4000 0.3755 1779527 0.8999 0.8755

    361132 0.4333 0.4088 2018598 0.9333 0.9088

    361657 0.4666 0.4422 3388723 0.9666 0.9422

    367988 0.5000 0.4755 8627420 1.0000 0.9755

    De igual forma, ( ) ( ) 483643641631.0617186.0 11 == -- YD FF .

  • 255ESTIMACIN POR INTERVALOS DE LA MEDIANA CON ESTIMADORES...

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    5.2. Muestreo estratificado

    Supongamos la poblacin dividida en dos estratos: el primero de Sociedades y Comuni-dades de Bienes y el segundo de particulares, de tamaos N1 = 30 y N2 = 387, y que seextrae una muestra de tamao 30 mediante muestreo estratificado aleatorio con afijacinn1=10 y n2=20.

    Con esta afijacin se da ms importancia a las unidades del primer estrato pues la obser-vacin de la variable auxiliar x (subvenciones recibidas en 1988) en este primer estratodenota que los pagos son mucho mayores.

    La muestra obtenida y las observaciones de las variables x e y en sus unidades son:

    Estrato 1 Estrato 2

    uk

    yk

    xk

    uk

    yk

    xk

    uk

    yk

    xk

    2 2801600 2718538 53 192924 214893 298 534220 502800

    3 14245540 1492530 73 1191837 1588128 309 310118 217441

    5 2018598 2202886 79 148243 352989 310 358040 382488

    6 5361179 7639187 105 427898 414266 354 472459 1574406

    7 1753076 1707164 137 574990 666623 363 360629 482299

    9 6525212 8949172 142 512889 504600 388 391331 500636

    10 376325 124135 197 309759 371439 389 188972 80845

    15 181602 175520 201 465268 42291 398 104098 139329

    18 410822 415636 255 218925 208658 406 362922 367176

    27 486140 463135 292 292128 289569 412 387078 546842

    En este caso las probabilidades de inclusin de primer y segundo orden del diseo

    vienen dadas por: 30

    10=kp si ku es del estrato 1, 387

    20=kp si ku es del estrato 2,

    299

    3010

    =kmp si ku mu , son del estrato 1, 38619

    38720

    =kmp si ku , mu son del estrato 2, y

    mkkm ppp = si ku , mu son de estrato distintos. Una vez conocidas estas probabilidades se

    pueden construir los estimadores de Horvitz-Thompson para las funciones de distribucinrespectivas y proceder de la misma forma.

  • 256 M. Rueda Garca y A. Arcos Cebrin

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    5.2.1 Estimador directo: ( )( )

    -=

    sk k

    kYYHTy N

    yMMF

    pD

    .

    Estimacin Yates-Grundy de su varianza:

    ( )( ) ( ) ( )2

    2

    1 <

    --

    ---=

    smk m

    mY

    k

    kY

    km

    mkkmYHTy

    yMyM

    NMFV

    pD

    pD

    pppp

    La suma anterior se simplifica mucho ya que si uk y u

    m estn en estratos distintos el

    sumando correspondiente es nulo, si uk y u

    m estn en el estrato 1 2 y verifican Yk My < e

    Ym My < o bien Yk My e Ym My el sumando correspondiente tambin es nulo.

    El factor km

    mkkmp

    ppp - en los casos no nulos vale

    -

    -=

    -.

    2049912.0

    1074074.0

    estratoelenestnuyusi

    estratoelenestnuyusi

    mk

    mk

    km

    mkkm

    pppp

    Los sumandos no nulos los dan uk y u

    m con Yk My e Ym My < en el estrato 1 2 y los

    cuadrados que multiplican son 912

    =

    kp o 4225.3741

    2

    =

    kp.

    Finalmente, ( )( ) 2100674.1 -=YHTy MFV y de forma anloga se tiene,( )( ) 21003977.1 -=XHTx MFV .

    Intervalo de confianza:

    ( )( ){ } ( )( ){ } =

    +

    - -- 2

    1

    2

    121

    2

    1 , YHTyHTyYHTyHTy MFVzFMFVzF gg bb

    ( ) ( )[ ] [ ],472459,3101187025.0,2975.0 11 == -- HTyHTy FF

    donde para calcular la inversa puede usarse la tabla:

  • 257ESTIMACIN POR INTERVALOS DE LA MEDIANA CON ESTIMADORES...

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    iu iy )(

    iHTy yF iu iy )(

    iHTy yF

    398 104098 0.0000 18 410822 0.6176

    79 148243 0.0464 105 427898 0.6248

    15 181602 0.0928 201 465268 0.6712

    389 188972 0.1000 354 472459 0.7176

    53 192924 0.1464 27 486140 0.7640

    255 218925 0.1928 142 512889 0.7712

    292 292128 0.2392 298 534220 0.8176

    197 309759 0.2856 137 574990 0.8640

    309 310118 0.3320 73 1191837 0.9104

    310 358040 0.3784 7 1753076 0.9568

    363 360629 0.4248 5 2018598 0.9640

    406 362922 0.4712 2 2801600 0.9712

    10 376325 0.5176 6 5361179 0.9784

    412 387078 0.5248 9 6525212 0.9856

    388 391331 0.5712 3 14245544 0.9928

    5.2.2. Estimacin de diferencia

    El estimador de diferencia que usa la mediana de la variable auxiliar, 450396=XM es,

    ( ) ( ) ( ) ( )( )( )( ) ( ) ( )( ).

    ,vocXHTxXX

    XHTx

    XHTxYHTyYHTyYD MFMF

    MFV

    MFMFMFMF -+=

    La estimacin de la varianza se consigue con:

    ( )( ) ( )( ) ( ) ( )( )( )( )XHTx

    XHTxYHTyYHTyYD

    MFV

    MFMFMFVMFV

    ,voc2

    -=

    y la evaluacin de ( ) ( )( )XHTxYHTy MFMF ,voc 2 mediante estimadores Yates-Grundy es:

    ( ) ( ) ( ) ( )

    --

    -

    --

    ---

    < m

    mX

    k

    kX

    smk m

    mY

    k

    kY

    km

    mkkm xMxMyMyM

    N pD

    pD

    pD

    pD

    pppp 1

    2

    Se tiene ( ) ( )( ) 3103348.7,voc -=XHTxYHTy MFMF , con lo que ( )( ) 3104998.5 -=YD MFV .

  • 258 M. Rueda Garca y A. Arcos Cebrin

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    Intervalo de confianza:

    ( )( ){ } ( )( ){ } =

    +

    - -- 2

    1

    2

    121

    2

    1 , YDDYDD MFVzFMFVzF gg bb

    ( ) ( )[ ] ( ) ( )[ ] [ ].472459,3606297006.0,4099.06453.0,3546.0 1111 === ---- HTyHTyDD FFFF

    Aqu se ha usado que ( ) ( )bFaF HTyD 11 -- = con Dqab -= , donde

    ( ) ( )( )( )( ) ( ) ( )( )=-= XHTxXXXHTx

    XHTxYHTyD MFMF

    MFV

    MFMFq

    ,voc

    ( ) .0553.05784.05.01003977.1

    103348.72

    3

    -=-

    = --

    5.2.3. Estimacin de razn

    El estimador de razn viene dado por

    ( ) ( ) ( )( )XHTx

    XXYHTyYR

    MF

    MFMFMF

    =

    La estimacin de la varianza se consigue con:

    ( )( ) ( )( ) ( )( ) ( ) ( )( ) 3104021.6,voc2 -=-+= XHTxYHTyXHTxYHTyYR MFMFMFVMFVMFV

    Intervalo de confianza:

    ( )( ){ } ( )( ){ } =

    +

    - -- 2

    1

    2

    121

    2

    1 , YRRYRR MFVzFMFVzF gg bb

    ( ) ( )[ ] ( ) ( )[ ] [ ]486140,3606297598.0,3969.06568.0,3431.0 1111 === ---- HTyHTyRR FFFF

    Aqu se ha usado que ( ) ( )bFaF HTyR 11 -- = con Rqab = , donde

    ( )( ) .1568.15.0

    5784.0===

    XX

    XHTxR MF

    MFq

    En la tabla siguiente se muestra un resumen de las longitudes obtenidas mediante losdistintos mtodos para los dos tipos de muestreo considerados y el cociente entre las longi-

  • 259ESTIMACIN POR INTERVALOS DE LA MEDIANA CON ESTIMADORES...

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    tudes de los intervalos para cada mtodo respecto a la longitud obtenida mediante losestimadores directos de cada tipo de muestreo. En ella se observa para todos los casos, ladisminucin de la longitud de los intervalos cuanto se utilizan estimadores de razn y dediferencia de la funcin de distribucin. Esta reduccin es especialmente importante en elcaso del mtodo de diferencia que llega a ser del 46,8% en el caso de muestreo aleatoriosimple, siendo tambin esta reduccin muy significativa en el caso de muestreo estratificado.

    Mtodo Directo Razn Diferencia

    Muestreo aleatorio simple

    Longitud 230279 187860 122511

    Cociente 100% 81.58% 53.2%

    Muestreo estratificado aleatorio

    Longitud 162341 125511 111830

    Cociente 100% 77.3% 68.89%

    BIBLIOGRAFA

    ANDREWS, D.F. (1972) Robust estimates of location-surveys and advances. Princenton University Press.

    ARCOS CEBRIN, A., RUEDA GARCA, M., ARTS RODRGUEZ, E. (1996) Estimacin de la medianapor intervalo de confianza con informacin auxiliar en poblaciones finitas, Actas de la X ReuninAnual de la Asociacin Cientfico-Europea de Economa Aplicada, Albacete.

    BINDER, D. (1982) Non-parametric bayesian models for samples from finite population. Journal of theRoyal Statistical Society, Series B, 44(3),388-393.

    CHAMBERS, R. L., DORFMAN, A. H., WEHRLY, T. E. (1993), Bias robust estimation in finite populationusing nonparametric calibration, J. Amer. Statist. Assoc. 88, 268-277.

    CHAMBERS, R. L., DUNSTAN, R. (1986), Estimating distribution functions from survey data, Biometrika73, 597-604.

    CHAPMANS, D.W. (1970), Cluster sampling and aproximative distribution-free confidence intervals, Ph.Dissertation. Cornell University. NY.

    DORFMAN, A.H. (1993) A comparison of design-based and model-based estimators of the finitepopulation distribution function.Australian Journal of Statistic 35, 29-41.

    ERICSON, W. (1969) Subjetive bayesian models in finite population. Journal of the Royal Statistical Society,Series B, 31(2), 195-233

    GROSS, S. T. (1980), Median estimation in sample survey, Proc. Surv. Res. Meth. Sect. Amer. Statist.Ass., 181-184.

    HASKELL, J., SEDRANSK, J. (1980), Confidence interval for quantiles and tolerance intervals ofpopulations, Unpublished Technical Report (SUNY at Albany Dept. of Math. Stat., Albany NY)

  • 260 M. Rueda Garca y A. Arcos Cebrin

    Estudios de Economa Aplicada, 2002: 241-260 Vol. 20-I

    HILL, B. (1968), Posterior distribution of percentiles: Bayes theorem for sampling from a population. J.Amer. Statist. Assoc. 63, 677-691.

    KUK, A. Y. C. (1993), A kernel method for estimating finite population distribution functions using auxiliaryinformation, Biometrika 80, 385-392.

    KUK, A., MAK, T. K. (1989), Median estimation in the presence of auxiliary information, J. Roy. Statist.Soc. B 1(2), 261-269.

    KUK, A., MAK, T. K. (1993), A new method for estimating finite population quantiles using auxiliaryinformation, The Canadian Journal of Statistics 21(1), 29-38

    LOYNES, R,M. (1966), Some aspects of the estimation on quantiles, Journal of the Royal StatisticalSociety. S. B 28(3), 497-512.

    MARITZ, J.S. y JARRET, R.C. (1978), A note on estimatin the variance of the sample median. J. Amer.Statist. Assoc. 73, 194-196.

    MCCARTHY, P.J. (1965), Stratified sampling and distribution-free confidence interval for a median., J.Amer. Statist. Assoc. 23, 883-896.

    MEEDEN, G. (1995), Median estimation using auxiliary information. Survey Methodology 21, 71-77.

    RAO, J. N. K., (1994), Estimating totals and distribution functions using auxiliary information at theestimation stage. Journal of Official Statistics 10, 153-165.

    RAO, J. N. K., KOVAR, J. G., MANTEL, H. J. (1990), On estimating distribution functions and quantilesfrom survey data using auxiliary information, Biometrika 77, 365-375.

    RUEDA GARCA, M., ARCOS CEBRIN, A. (2001), On estimating the median from survey data usingmultiple auxiliary information. Metrika 54, 59-76.

    RUEDA GARCA, M., ARCOS CEBRIN, A., ARTS RODRGUEZ, E. (1998) Quantile Interval Estimationin Finite Population using a Multivariate Ratio Estimator, Metrika 47, 203-213.

    SRNDAL, C. E., SWENSSON, B. y WRETMAN J., (1992) Model Assisted Survey Sampling. Springer-Verlag, New York.

    SEDRANSK, J., MEYER, J. (1978), Confidence intervals for the quantiles of a finite population: simplerandom and stratified simple random sampling, J. R. Statist. Soc. B, 40, No. 2, 239-252.

    SILVA, P.L.D., y SKINNER, C.J. (1995), Estimating distribution functions with auxiliary information usingpostestratification, Journal of Official Statistics 11(3) 277-294.

    SMITH, P., SEDRANSK, J. (1983), Lower bounds for confidence coefficients for confidence intervals forfinite population quantiles, Commun. Statist. Theor. Meth. 12, 1329-1344.

    THOMPSON, S. K., 1992: Sampling. John Wiley and Sons, Inc.

    WANG, S. Y DORFFMAN, A. (1996), A new estimator for finite population distribution function Biometrika83(3), 633-652.

    WOODRUFF, R. S. (1952), Confidence intervals for medians and other position measures, J. Amer.Statist. Assoc. 47, 635-646.