14
ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente, las medidas de la riqueza de los hogares pueden reflejarse en la información sobre el ingreso, el consumo o el gasto. Sin embargo, la recopilación de datos precisos sobre ingresos y consumo requiere de amplios recursos para la realización de encuestas y la validación de datos de los encuestados. Dado que el análisis de componentes principales (ACP) ha sido validado como un método para describir índices socioeconómicos dentro de una población -ayudando a tener un mayor acercamiento sobre el nivel de riqueza de los hogares- en el presente documento, mediante un ACP, se construyó un índice socioeconómico con los datos del equipamiento y servicios básicos del hogar de los alumnos solicitantes de las becas PROBEMS. Asimismo, se abordan cuestiones relacionadas con la elección de las variables adecuadas y posibles problemas metodológicos, como el agrupamiento y truncamiento de datos. Finalmente, se discute la interpretación de los resultados y la clasificación de los hogares en grupos socioeconómicos para su mejor interpretación.

ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

ÍNDICE SOCIOECONÓMICO

PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES.

CBSEMS Coordinación de Becas de Educación Media Superior

Resumen: Teóricamente, las medidas de la riqueza de los hogares pueden reflejarse en la información sobre el ingreso, el consumo o el gasto. Sin embargo, la recopilación de datos precisos sobre ingresos y consumo requiere de amplios recursos para la realización de encuestas y la validación de datos de los encuestados. Dado que el análisis de componentes principales (ACP) ha sido validado como un método para describir índices socioeconómicos dentro de una población -ayudando a tener un mayor acercamiento sobre el nivel de riqueza de los hogares- en el presente documento, mediante un ACP, se construyó un índice socioeconómico con los datos del equipamiento y servicios básicos del hogar de los alumnos solicitantes de las becas PROBEMS. Asimismo, se abordan cuestiones relacionadas con la elección de las variables adecuadas y posibles problemas metodológicos, como el agrupamiento y truncamiento de datos. Finalmente, se discute la interpretación de los resultados y la clasificación de los hogares en grupos socioeconómicos para su mejor interpretación.

Page 2: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

Introducción

El Programa de Becas de Educación Media Superior (PROBEMS) opera becas por registro

que requieren el llenado de la Encuesta Socioeconómica de Estudiantes de Educación Media

Superior (ENCSEEMS) por parte de los solicitantes. En dicha encuesta se solicita, entre otras

variables, el ingreso del hogar y el número de integrantes del mismo, con las cuales, se obtiene

el ingreso per cápita (IPC).

Por Reglas de Operación, el IPC es una variable que prioriza a los solicitantes (es decir, los

estudiantes que reportan menor ingreso tienen mayor probabilidad de obtener un apoyo) por

lo que estos tienden a subreportar el ingreso de su hogar, esperando tener mayores

oportunidades de recibir una beca.

Los incentivos perversos a mentir para obtener un apoyo, generan un problema de

endogeneidad en la selección de beneficiarios, lo que impide identificar a los alumnos cuya

necesidad económica es real dentro del grupo de solicitantes. Asimismo, la información sobre

el ingreso no capta el hecho de que las personas pueden tener ingresos en especie, lo que

representa un problema adicional para la cuantificación y reporte de los ingresos.

Por lo anterior, el PROBEMS concluyó que es necesario establecer mecanismos que permitan

una mejor aproximación al ingreso/gasto de los hogares para robustecer la priorización de

los alumnos solicitantes de un apoyo económico.

En este sentido, la presente investigación consistió en construir un índice socioeconómico

que permitiera “rankear” a los hogares de los alumnos solicitantes de acuerdo a su capacidad

de consumo o gasto. Para la creación del índice se utiliza un Análisis de Componentes

Principales (ACP) mediante la recopilación de variables que capturan los niveles de vida de

los alumnos, como: la propiedad de bienes duraderos (por ejemplo, televisión, automóvil), la

accesibilidad a servicios básicos (agua, luz, drenaje), la calidad y espacios de la vivienda (tipo

de techo, tipo de piso, hacinamiento, etc), las características de la localidad en la que habitan

(rezago social, pertenencia a municipios de la Cruzada), pertenencia a algún grupo vulnerable

(ser indígena, tener discapacidad, estar esperando hijo), etc.

El documento está distribuido de la siguiente manera: en la primera parte se explica de

manera general qué es un ACP; en la segunda sección se analiza la viabilidad del uso de las

variables de equipamiento, servicios básicos del hogar, rezago social y pertenencia a un grupo

vulnerable, para la creación de un índice socioeconómico; en la tercera sección se aplica el

ACP para la creación del índice socioeconómico y se realizan pruebas para la correcta

interpretación del mismo. Finalmente, se presentan las conclusiones.

Page 3: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

I. Qué es un ACP?

El ACP es una técnica estadística multivariable1 utilizada para reducir el número de variables

en un conjunto de datos en un menor número de "dimensiones". Es una forma de identificar

patrones en los datos y expresarlos de tal manera que resalten sus semejanzas y diferencias.

En términos matemáticos, a partir de un conjunto inicial de n variables correlacionadas, el

ACP crea índices o componentes no correlacionados, donde cada componente es una

combinación lineal ponderada de las variables iniciales.

𝑃𝐶1 = 𝑎11𝑋1 + 𝑎12𝑋2 + ⋯ + 𝑎1𝑛𝑋𝑛

.

.

.

.

𝑃𝐶𝑚 = 𝑎𝑚1𝑋1 + 𝑎𝑚2𝑋2 + ⋯ + 𝑎𝑚𝑛𝑋𝑛

Donde 𝑎𝑚𝑛 representa el peso para el componente principal de m y la n-ésima variable. Los

pesos para cada componente principal están dados por los vectores propios de la matriz de

correlación. La varianza (𝜆) para cada componente principal viene dada por el autovalor del

autovector correspondiente.

Los componentes están ordenados de manera que el primer componente (PC1) explique la

mayor cantidad posible de variación en los datos originales, sujeto a la restricción de que la

suma de los pesos cuadrados (𝑎112 + 𝑎12

2 + ⋯ 𝑎1𝑛2 ) es igual a uno.

Como la suma de los valores propios es igual al número de variables, la proporción de la

variación total en el conjunto de datos original representada por cada componente principal

viene dada por (𝜆/𝑛). El segundo componente (PC2) está completamente no correlacionado

con el primer componente, y explica la variación adicional pero menor que el primer

componente, sujeto a la misma restricción.

Los componentes subsiguientes no están correlacionados con los componentes anteriores,

por lo tanto, cada componente captura una dimensión adicional en los datos, mientras que

explica proporciones cada vez más pequeñas de la varianza de las variables originales. Cuanto

mayor es el grado de correlación entre las variables originales en los datos, menos

componentes se requieren para capturar información común.

II. Seleccionar las variables para la creación del índice socioeconómico

PROBEMS.

El ACP funciona mejor cuando las variables están correlacionadas, pero también cuando la

distribución de las variables varía entre los individuos. Los activos que se distribuyen más

desigualmente entre los individuos reciben más peso en el ACP (McKenzie 2003). Las

variables con desviaciones estándar bajas tendrían un peso bajo en el análisis. Por ejemplo,

un activo que todos los individuos poseen o que ningún individuo posee (es decir, desviación

1 Las técnicas estadísticas multivariadas permiten establecer, a partir de numerosos datos y variables, ciertas relaciones y ensayar diversas maneras de organizar dichos datos, transformándolos y presentándolos bajo una forma nueva más asequible, reduciéndolos, sin perder demasiada información inicial, hasta componer un resumen lo más completo posible del conjunto de datos original, habitualmente bastante complejo.

Page 4: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

estándar cero) no exhibiría ninguna variación entre los individuos y tendría una ponderación

cero y, por tanto, sería de poca utilidad para diferenciar el índice.

En nuestro caso, para la creación del índice socioeconómico PROBEMS, como primer paso,

se realizaron análisis descriptivos de todas las variables, considerando medias, frecuencias y

desviaciones estándar (ver Tabla 1). El análisis descriptivo puede informar las decisiones

sobre qué variables incluir en el análisis y resaltar los problemas de gestión de datos, como la

codificación de variables y los “missing values”. Como podemos observar, todas las variables

tienen un comportamiento similar y desviaciones estándar altas, por lo que pueden ser

consideradas de utilidad para la elaboración del índice, en un primer acercamiento.

Tabla 1: Estadística descriptiva de las variables de Equipamiento en el Hogar

Variable Obs Media Desviación Estándar

Min Max

Carencias

Carencia de agua 461879 0.30721 0.4613378 0 1

Carencia de calentador de agua 461879 0.686409 0.4639527 0 1

Carencia de celular 461879 0.284726 0.4512844 0 1

Carencia de drenaje 461879 0.8695914 0.3367528 0 1

Carencia de energía eléctrica 461879 0.009758 0.0982994 0 1

Carencia de gas para cocinar 461879 0.189792 0.392137 0 1

Carencia por hacinamiento 461879 0.001145 0.0338233 0 1

Carencia de internet 461879 0.727862 0.4450612 0 1

Carencia de lavadora 461879 0.669621 0.47035 0 1

Carencia de piso 461879 0.080454 0.271995 0 1

Carencia de refrigerador 461879 0.185278 0.3885233 0 1

Carencia de televisión 461879 0.194257 0.3956277 0 1

Carencia de televisión de paga 461879 0.807603 0.3941834 0 1

Carencia de vehículo 461879 0.765911 0.4234288 0 1

Características socioeconómicas

Años de escolaridad del padre/madre 458274 9.553167 3.734673 0 18

Esperando hijo 461879 0.005566 0.0744004 0 1 Dependencia económica 461879 4.226817 1.570252 1 10

Índice de Rezago Social de Coneval (2010) 461879 -1.18281 0.4629013 -2.057 3.608

Pertenece a la Cruzada Contra el Hambre 461879 0.682911 0.4653431 0 1

Pertenece a un grupo indígena 461879 0.051724 0.2214685 0 1

Tiempo de traslado 461879 32.80894 22.0971 1 300

Tiene discapacidad 461879 0.026109 0.1594584 0 1

Fuente: Elaboración propia con datos de ENCSEEMS, CONEVAL, INEGI.

Cabe destacar que tener un amplio número de activos para la elaboración del índice permite

estimaciones más robustas. McKenzie (2003) destaca que un reto importante para los índices

basados en ACP es asegurar que la gama de variables de activos incluidas sea suficientemente

amplia para evitar problemas de "agrupamiento" y "truncamiento". El agrupamiento se

describe cuando los individuos se agrupan en pequeños y distintos “clusters”. El

truncamiento se observa en la distribución del índice, cuando se hace difícil la diferenciación

Page 5: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

entre los grupos socioeconómicos (por ejemplo, cuando las distribuciones se sesgan hacia un

lado u otro y no se puede distinguir entre los pobres y los muy pobres). Sin embargo, la clave

es incluir variables adicionales que capturen la desigualdad entre los hogares.

Siguiendo con la selección de variables, se realizó la matriz de correlaciones para asegurar

que todos los datos tengan el mismo peso. Por ejemplo, si se utilizara el número de

habitaciones para dormir que es una variable cuantitativa y tiene una mayor varianza que las

otras variables binarias, dominaría ésta en el primer componente principal. En nuestro caso,

la matriz de correlaciones presenta altas correlaciones entre los componentes (ver anexo 1).

III. Aplicación del ACP

Después de la selección de variables (activos en el hogar), se procedió a la estimación del ACP.

El resultado de este análisis es una tabla de puntajes de factores o ponderaciones para cada

variable.

El eigenvalor (varianza) para cada componente principal indica el porcentaje de variación en

el total de datos explicados. Porcentajes que no son altos, podría reflejar la complejidad de

las correlaciones entre variables, ya que cada variable incluida puede tener un determinante

propio distinto en el estatus socioeconómico de cada estudiante.

Asimismo, los datos de varianza explicada son muy importantes para saber cuántos

componentes principales vamos a utilizar en nuestro análisis. No hay una regla definida sobre

el número que se debe utilizar, con lo cual deberemos decidir en función del número de

variables y de la proporción de varianza explicada acumulada. También podemos representar

un gráfico de sedimentación (scree plot) de los valores propios como el de la figura 1.

Típicamente el gráfico muestra la clara ruptura entre la pronunciada pendiente de los factores

más importantes y el descenso gradual de los restantes (los sedimentos).

En este caso, los 3 primeros componentes tienen varianzas (eigenvalores) mayores que 12, con

ellos se explica el 34% de la varianza y, a partir del tercer componente, el descenso se

estabiliza. Lo que indica que sólo debemos preocuparnos de los tres primeros componentes

ya que los siguientes tienen poca capacidad explicativa.

Al final de la tabla de resultados, nos aparecen las correlaciones de cada componente

principal con cada variable. Para interpretar los componentes consideramos sus coordenadas

en las variables. En este caso, se observa que el primer componente es un factor de tamaño,

ya que es una media ponderada de todas las variables, con mayor peso en internet,

computadora, estufa y lavadora; por lo tanto, es claro que la posesión de servicios digitales y

ciertos electrodomésticos tiene mayor peso para identificar un índice socioeconómico más

alto; contrariamente las carencias por servicios básicos y calidad y espacios en la vivienda

tienen signo negativo, es decir, tener carencias en la vivienda disminuye el valor del índice

2 (Criterio de Kaiser, 1960): cada una de las variables observadas contribuyen al menos con una unidad de variación a la variación total; así, si es mayor a 1 el componente principal explica al menos lo mismo que una variable observada.

Page 6: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

socioeconómico. En cuanto al PC2, es un factor de forma y contrapone los indicadores de

internet y computadora frente a activos como televisión y estufa.3

Tabla 2: Salidas del Análisis de Componentes Principales

Observaciones= 458274

Componentes= 22

Rotation: (unrotated = principal) Rho= 1.000

Componente Eigenvalor Diferencia Proporción Acumulada

Comp1 3.79249 2.3232 0.1724 0.1724

Comp2 1.4693 0.265513 0.0668 0.2392

Comp3 1.20379 0.119499 0.0547 0.2939

Comp4 1.08429 0.049139 0.0493 0.3432

Comp5 1.03515 0.023346 0.0471 0.3902

Comp6 1.0118 0.013489 0.046 0.4362

Comp7 0.998313 0.033484 0.0454 0.4816

Comp8 0.964829 0.018546 0.0439 0.5255

Comp9 0.946283 0.035423 0.043 0.5685

Comp10 0.91086 0.036954 0.0414 0.6099

Comp11 0.873906 0.034036 0.0397 0.6496

Comp12 0.839871 0.005749 0.0382 0.6878

Comp13 0.834121 0.051302 0.0379 0.7257

Comp14 0.782819 0.00507 0.0356 0.7613

Comp15 0.777749 0.050251 0.0354 0.7966

Comp16 0.727498 0.004248 0.0331 0.8297

Comp17 0.723251 0.065287 0.0329 0.8626

Comp18 0.657964 0.010614 0.0299 0.8925

Comp19 0.64735 0.037794 0.0294 0.9219

Comp20 0.609556 0.016436 0.0277 0.9496

Comp21 0.593119 0.077427 0.027 0.9766

Comp22 0.515692 . 0.0234 1

3 Cuando existe una alta correlación positiva entre todas las variables, el primer componente principal puede interpretarse como un promedio ponderado de todas las variables, o un factor global de “tamaño”. Los restantes componentes se interpretan como factores “de forma” y típicamente tienen coordenadas positivas y negativas, que implica que contraponen unos grupos de variables frente a otros. Estos factores de forma pueden frecuentemente escribirse como medias ponderadas de dos grupos de variables con distinto signo y contraponen las variables de un signo a las del otro

Page 7: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

Figura 1: Gráfico para seleccionar el número de componentes

Fuente: Elaboración propia con datos de ENCSEEMS, CONEVAL, INEGI

01

23

4

Eig

enva

lues

0 5 10 15 20Number

Scree plot of eigenvalues after pca

Principal components (eigenvectors)

Variable Comp1 Comp2 Comp3 Comp4 Comp5 Comp6 Unexplained

Años de escolaridad del padre/madre -0.2076 -0.0197 0.3161 -0.085 -0.023 0.0823 0.7004

Carencia de agua 0.2288 -0.1586 -0.0504 -0.137 0.034 -0.083 0.733

Carencia de calentador de agua 0.2448 0.1867 -0.1045 0.2715 0.0584 -0.068 0.6202

Carencia de celular 0.1847 0.076 0.3713 -0.207 -0.048 -0.021 0.647

Carencia de drenaje -0.1712 0.2685 -0.0229 0.0198 -0.035 0.1453 0.7592

Carencia de energía eléctrica 0.1372 -0.2571 0.3382 -0.187 0.093 -0.129 0.63

Carencia de gas para cocinar 0.3485 -0.222 -0.0925 -0.017 -0.007 0.0132 0.4562

Carencia de internet 0.2854 0.3393 -0.176 -0.075 0.0426 0.0128 0.4765

Carencia de lavadora 0.2903 0.3071 0.0033 -0.01 0.0385 0.0289 0.5393

Carencia de piso 0.2831 -0.286 0.0783 -0.035 -0.003 -0.022 0.5668

Carencia de refrigerador 0.2805 -0.129 0.1133 -0.057 0.0433 0.0312 0.6553

Carencia de televisión 0.2424 -0.057 0.3657 -0.14 0.0831 -0.017 0.5827

Carencia de televisión de paga 0.2196 0.383 0.1817 0.0196 0.0066 -0.005 0.5614

Carencia de vehículo 0.2533 0.378 0.0077 0.171 0.1194 -0.027 0.4994

Carencia por hacinamiento -0.0143 -0.0371 -0.007 0.0384 0.7901 0.0162 0.349

Dependencia económica 0.1274 0.1056 0.046 -0.165 -0.547 0.0466 0.5783

Esperando hijo 0.0179 -0.0204 0.0916 0.0342 0.0474 0.5091 0.7222

Índice de Rezago Social de Coneval (2010) 0.2675 -0.2169 -0.3824 0.1161 -0.072 0.0676 0.459

Pertenece a la Cruzada Contra el Hambre -0.0722 -0.0547 0.276 0.6942 -0.089 -0.136 0.3346

Pertenece a un grupo indígena 0.207 -0.2829 -0.1906 0.2892 -0.101 0.1833 0.5408

Tiempo de traslado 0.0917 -0.0496 0.3518 0.3891 -0.082 -0.062 0.6404

Tiene discapacidad 0.0215 -0.0113 0.1243 0.0448 0.0268 0.786 0.3515

Fuente: Elaboración propia con datos de ENCSEEMS, CONEVAL, INEGI.

Page 8: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

IV. Índice Socioeconómico PROBEMS

Como se menciona en apartados anteriores, el índice elaborado a través de componentes

principales, debe presentar una distribución normal para tener una mejor diferenciación

entre los grupos socioeconómicos. En este caso, la distribución de las puntuaciones de los

componentes tiende a seguir una curva normal para los componentes 1 y 3; para el caso del

componente 2, la población está fuertemente sesgada a la izquierda, poniendo de relieve el

grado de aglomeración que pudiera dificultar la diferenciación entre los grupos

socioeconómicos.

Figura 2: Distribución de los 3 primeros componentes principales

Fuente: Elaboración propia con datos de ENCSEEMS

De esta manera, utilizando las puntuaciones del primer componente principal, dado que es

el que capta mayor varianza y tiene una distribución normal, se puede construir una variable

dependiente para cada alumno (Y1). Esta variable dependiente puede considerarse como el

puntaje socioeconómico de los hogares, y cuanto mayor sea el puntaje socioeconómico del

hogar, menor será el nivel socioeconómico de los alumnos.

V. Clasificación de los alumnos s0licitantes en grupos socioeconómicos.

El análisis de agrupamiento en quintiles ajustó generalmente los patrones encontrados a

partir de la distribución de las puntuaciones socioeconómicas de los individuos mostradas en

los histogramas. Asimismo, es importante notar que el ingreso per-cápita sigue la misma

distribución por quintiles del puntaje socioeconómico. Es decir, la tendencia del índice

socioeconómico obedece la misma tendencia del ingreso per-cápita de los alumnos.

Tabla 3: Puntajes promedio del índice socioeconómico por quintiles.

Quintiles

Variable 1 2 3 4 5

Años de escolaridad del padre/madre -2.92207 -0.96783 -0.08798 0.994203 2.894117

Carencia de agua -3.17906 -0.99264 -0.0969 0.963852 2.740836

Carencia de calentador de agua -2.94678 -0.97729 -0.12486 0.946522 2.488274

Carencia de celular -3.16543 -0.98415 -0.09694 0.978431 2.593119

0.1

.2.3

Den

sity

-10 -5 0 5Scores for component 1

kernel = epanechnikov, bandwidth = 0.1244

Kernel density estimate

0.1

.2.3

.4

Den

sity

-2 0 2 4 6 8Scores for component 2

kernel = epanechnikov, bandwidth = 0.0909

Kernel density estimate

0.1

.2.3

.4.5

Den

sity

-4 -2 0 2 4 6Scores for component 3

kernel = epanechnikov, bandwidth = 0.0666

Kernel density estimate

Page 9: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

Carencia de drenaje -2.70484 -0.95711 -0.08824 1.001492 2.910851

Carencia de energía eléctrica -5.23829 -1.10433 -0.08423 0.819487 2.589856

Carencia de gas para cocinar -3.14352 -1.10129 -0.14908 0.890336 2.383343

Carencia de internet -2.93295 -0.96915 -0.10122 0.917596 2.370495

Carencia de lavadora -2.94647 -0.97164 -0.10666 0.948072 2.400051

Carencia de piso -3.70555 -1.10897 -0.1358 0.932082 2.549529

Carencia de refrigerador -3.30994 -1.12742 -0.13248 0.931359 2.352185

Carencia de televisión -3.2962 -1.0375 -0.16674 0.874346 2.234154

Carencia de televisión de paga -2.94204 -0.96946 -0.09485 0.974902 2.586836

Carencia de vehículo -2.93816 -0.96986 -0.0998 0.960791 2.478167

Carencia por hacinamiento -2.90653 -0.92705 -0.0693 1.040806 3.434157

Dependencia económica -2.92674 -0.9682 -0.08794 0.994047 2.894879

Esperando hijo -3.24161 -1.01877 -0.08967 0.959769 2.658604

Índice de Rezago Social de Coneval (2010) -2.92674 -0.9682 -0.08794 0.994047 2.894879

Pertenece a la Cruzada Contra el Hambre -2.91915 -0.9647 -0.08868 0.997897 2.913708

Pertenece a un grupo indígena -3.39185 -1.02735 -0.12724 0.897986 2.622039

Tiene discapacidad -3.09313 -0.99011 -0.09665 0.972881 2.822994

Ingreso Per Cápita $460.26 $654.24 $768.10 $933.78 $1,394.78

Fuente: Elaboración propia con datos de ENCSEEMS, CONEVAL, INEGI

Finalmente, para demostrar el grado de correlación que los pesos de los componentes

principales (y por consiguiente, el índice) mantienen con el ingreso per-cápita de los alumnos,

se corrió una regresión de Mínimos Cuadrados Ordinarios. Los resultados muestran que los 4

componentes analizados son significativos al 1%. Asimismo, se observa que el componente 1

mantiene el mayor peso para ser indicativo del ingreso.

Page 10: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

Tabla 4: Estimación del Ingreso per-cápita mediante componentes principales.

VARIABLES INGRESO_PERCAPITA

Scores for component 1 162.44***

0.53

Scores for component 2 59.03***

0.78

Scores for component 3 -20.28***

1.03

Scores for component 4 4.59***

1.04

Constant 845.58***

1.09

Observations 461879

R-squared 0.1762

Standard errors in parentheses

*** p<0.01, ** p<0.05, * p<0.1

Page 11: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

VI. CONCLUSIONES

En el presente documento se obtiene un índice Socioeconómico para los alumnos solicitantes

de una beca PROBEMS, llevando a cabo un ACP con variables del equipamiento en el hogar,

accesibilidad a servicios básicos y calidad y espacios en la vivienda, características de la

localidad en la que habitan y pertenencia a algún grupo vulnerable. La principal ventaja de

este análisis radica en que evita muchos de los problemas de medición asociados a los

métodos más tradicionales basados en el ingreso y el consumo, como el sesgo de recuerdo

(los encuestados pueden olvidar cierta fuente de ingresos), el tiempo de recolección de datos

(dado que pueden existir, a lo largo del tiempo, choques en el ingreso por factores exógenos

que afectan el ingreso de manera temporal) y el sesgo por autoselección (una de las

principales debilidades de la ENCSEEMS dado que el ingreso es autoreportado).

La base empírica de la técnica de componentes principales se basa en si el primer componente

principal (PC1) puede predecir el estatus socioeconómico de los hogares. Esto dependerá de

la naturaleza de los datos y de las correlaciones entre las variables que se están considerando,

de la validez de las variables incluidas y de su fiabilidad (Vyas, S., & Kumaranayake, L. 2006).

En este estudio, después de realizar dichas pruebas de validación, se utiliza el primer

componente principal para la creación del índice. Asimismo, se demuestra la coherencia que

guardan las clasificaciones basadas en el ACP y los ingresos de los hogares de los alumnos

solicitantes. De esta manera, se concluyó que el índice creado mediante ACP es un proxy

robusto para “rankear” la riqueza o estatus socioeconómico de los hogares y obtener una

mejor priorización de los grupos más vulnerables al momento de otorgar un apoyo

económico.

Page 12: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

BIBLIOGRAFÍA

Smith, L. I. (2002). A tutorial on principal components analysis. Cornell University,

USA, 51, 52.

Vyas, S., & Kumaranayake, L. (2006). Constructing socio-economic status indices:

how to use principal components analysis. Health policy and planning, 21(6), 459-

468.

McKenzie, D. J. (2003). Measure inequality with asset indicators. Cambridge, MA:

Bureau for Research and Economic Analysis of Development. Center for

International Development, Harvard University.

Gwatkin, D. R., Rustein, S., Johnson, K., Suliman, E., Wagstaff, A., & Amouzou, A.

(2000). Socio-economic differences in Brazil. Washington, DC: HNP/Poverty

Thematic Group of the World Bank.

Page 13: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,

ANEXO 1

Fuente: Elaboración propia con datos de ENCSEEMS

Cruzada I. Rezago

Care. de tele

Care. de tele.paga

Care. de lavadora

Care. de vehículo

Care. de gas

Care. de calentador

Care. de refri

Care. de internet

Care. de celu

Care. de piso

Care. de dren

Care. de ener

Care. de agua

Pert. Indigena

Care. por hacina

Dep. Económica

Años esc. padre

Tiempo traslado

Tiene discap.

Esperando Hijo

Cruzada 1

I. Rezago -0.0785 1

Care. de tele

-0.0402 0.1245 1

Care. de tele

-0.0227 0.092 0.2051 1

Care. de lava

-0.0878 0.2019 0.2018 0.2889 1

Care. de vehí

-0.034 0.1302 0.1535 0.2709 0.3463 1

Care. de gas

-0.0915 0.3764 0.2742 0.1579 0.2676 0.2018 1

Care. de cale

0.0237 0.1651 0.1526 0.1675 0.2626 0.287 0.2641 1

Care. de refr

-0.0621 0.2376 0.2707 0.1508 0.2329 0.1876 0.3294 0.1702 1

Care. de inte

-0.1426 0.2251 0.1423 0.3204 0.3525 0.3354 0.252 0.2592 0.1966 1

Care. de celu

-0.0264 0.0699 0.2182 0.1566 0.1818 0.1481 0.1777 0.0988 0.1638 0.1468 1

Care. de piso

-0.0362 0.2439 0.2371 0.115 0.1781 0.1383 0.4306 0.1687 0.2741 0.16 0.1556 1

Care. de dren

0.0196 -0.1639 -0.1173 -0.0464 -0.098 -0.0689 -0.2108 -0.088 -0.1492 -0.0942 -0.0762 -0.183 1

Care. de ener

-0.0204 0.0561 0.1521 0.0421 0.0596 0.043 0.1566 0.0571 0.1597 0.0541 0.0903 0.1995 -0.1403 1

Care. de agua

-0.0636 0.215 0.1647 0.0959 0.1704 0.1173 0.2934 0.156 0.1778 0.1766 0.115 0.2269 -0.1698 0.1166 1

Pert. Indigena

0.0054 0.3291 0.1333 0.0629 0.1191 0.0917 0.2934 0.1215 0.1947 0.1119 0.0732 0.2104 -0.1229 0.0693 0.1136 1

Care. por hacina

-0.0028 -0.0052 -0.0037 -0.0108 -0.0139 -0.0099 -0.011 -0.0164 -0.0043 -0.0149 -0.0087 -0.0075 0.0027 -0.0013 -0.0063 -0.0028 1

Dep. Económica

-0.0392 0.0887 0.067 0.122 0.1314 0.0707 0.1166 0.0811 0.0912 0.1311 0.1071 0.0939 -0.042 0.0346 0.0729 0.0573 -0.0561 1

Años esc. padre

0.0643 -0.2217 -0.0868 -0.1002 -0.1455 -0.1744 -0.2143 -0.1961 -0.1533 -0.2316 -0.0627 -0.1702 0.1133 -0.0652 -0.1315 -0.1132 0.009 -0.0718 1

Tiempo traslado

0.0598 0.0471 0.0845 0.0845 0.0695 0.0878 0.0727 0.0352 0.0886 0.0322 0.0592 0.0895 -0.0656 0.0742 0.0526 0.072 -0.0026 0.0405 -0.0386 1

Tiene discap.

-0.0035 0.0007 0.0231 0.0165 0.023 0.0151 0.0157 0.011 0.0254 0.0087 0.015 0.0239 -0.0042 0.0156 0.0085 0.0308 0.0015 0.0079 0.0067 0.0168 1

Esperando Hijo

0.0021 -0.0035 0.0165 0.0056 0.0109 0.0125 0.0174 0.0104 0.0174 0.012 0.0126 0.0175 -0.0128 0.0197 0.0131 0.0165 -0.0016 0.004 -0.0097 0.0122 0.0142 1

Page 14: ÍNDICE SOCIOECONÓMICO PROBEMS · ÍNDICE SOCIOECONÓMICO PROBEMS ANÁLISIS DE COMPONENTES PRINCIPALES. CBSEMS Coordinación de Becas de Educación Media Superior Resumen: Teóricamente,