Upload
manuel-munoz
View
215
Download
0
Embed Size (px)
DESCRIPTION
P.S
Citation preview
47
Los Simpson y la Econometra
(Por Walter Sosa Escudero)
Dudo que haya un aspecto de la vida humana que no pueda ser ilustrado por un episodio
de Los Simpson, la popular y duradera serie de Matt Groening. En esta nota utilizaremos el
nexo ms obvio y literal: la paradoja de Simpson. Una de las posibles explicaciones a por
qu esta paradoja es mucho ms conocida en la estadstica que en la econometra se debe
a que la misma aparece asociada al problema de tablas de contingencia, una tecnologa
central a la primera, pero de aparicin circunstancial en la segunda.
Entonces, el objetivo de esta nota es presentar una visin economtrica de la paradoja
de Simpson. Es decir, intentaremos entenderla usando la herramienta atvica por
excelencia de nuestra disciplina: el anlisis de regresin. Ah vamos.
Hace muy poco Adrian Paenza, el matemtico, periodista y divulgador de la ciencia,
escribi una muy bonita nota sobre este problema, presentando una visin clsica de la
paradoja de Simpson. A continuacin les presento una tabla que usa Paenza para
presentar y explicar este problema. Los datos son hipotticos, pero representativos de
muchas situaciones reales.
Kinesiologia Medicina Total
Hombres 900/1000=90% 30/100=30% 930/1100=84,54%
Mujeres 90/100=90% 300/1000=30% 390/1100=35,45%
La tabla se refiere al proceso de ingreso a una hipottica universidad, a la cual se
presentaron para ser admitidos 2.200 personas (1.100 hombres y 1.100 mujeres) a las
nicas dos carreras que dicta esta universidad: kinesiologa y medicina. Cada celda
presenta la proporcin de personas que fue admitida, por gnero, por carrera y en total.
Asi, la primear celda dice que 1.000 hombres se presentaron a la carrera de kinesiologa, y
que 900 fueron admitidos. Similarmente, la segunda celda de la tercera columna indica
que de las 1.100 mujeres que se presentaron a ser admitidas, 390 lograron entrar,
sumando las 90 que entraron en kinesiologa y las 300 que lo hicieron en medicina. Los
invito a mirar con detalle esta tabla.
La informacin de esta tabla sugiere tres cosas. Primero que no parece haber habido
discriminacin en contra de las mujeres: el porcentaje de mujeres admitidas en ambas
48
carreras coincide con el de hombres (90% en el caso de kinesiologa y 30% en medicina).
Segundo, que es ms difcil entrar a medicina que a kinesiologa (30% versus 90%).
Tercero, que las mujeres de esta tabla prefieren enfticamente ir a medicina (1.000) que
los hombres (solo 100).
La paradoja de Simpson se refiere al siguiente hecho. Si bien ya acordamos que ninguna
carrera parece discriminar a las mujeres, la tercer columna sugiere que les fue mucho ms
difcil ingresar a las mujeres que a los hombres. Algn lector descuidado podra usar esto
como sugerencia de que las mujeres fueron discriminadas.
Vayamos rpidamente a una lectura economtrica de esta aparente paradoja, e
intentemos darle con la herramienta por excelencia de la econometra: el modelo lineal
estimado por el mtodo de MCO. En este caso la variable explicada (que denotaremos Y)
es una variable binaria, que toma valor 1 si una persona fue admitida (no importa a que
carrera) y 0 si no. Las variables explicativas son dos. Una (llamada X) es una variable
binaria que indica el gnero de la persona (1 si mujer, 0 si hombre) y la otra es la carrera
que eligieron (1 si medicina y 0 si kinesiologia). Si regressemos Y (admisin) en X (genero)
encontraramos que el gnero correlaciona negativamente con la admisin, es decir, el
hecho de ser mujer predice ms enfticamente no ser admitido. Este es el resultado que
surge de mirar la columna tres. Ahora, si regressemos Y en X y agregsemos Z (carrera)
encontraramos que el gnero no es relevante y que ahora es Z la que correlaciona
negativamente con Y, en forma compatible con nuestra discusin de la tabla: el gnero no
cuenta y el hecho de querer estudiar medicina lo que tira para abajo las posibilidades de
ser admitido.
En nuestro contexto del modelo de regresin, la paradoja de Simpson es claramente un
problema de variables omitidas: cuando omitimos la carrera (Z), el gnero (X) aparece
como relevante, sugiriendo que ser mujer baja las chances de admisin. Pero cuando
incorporamos ambos factores, el gnero no es relevante y la carrera s. Dnde est la
trampa? En lo que dice cualquier libro de econometra: la carrera est correlacionada con
el sexo, de modo que si la omitimos de la regresin, el estimador MCO es sesgado. Es
decir, no es cierto que el gnero impacte sobre la chance de admisin, sino que el hecho
de ser mujer esta correlacionado fuertemente con estudiar medicina, en donde es mucho
ms difcil ingresar. O sea que lo que explica la discrepancia de la columna tres no es el
gnero per se, sino que las mujeres prefirieron enfticamente una carrera de ms difcil
acceso.
Me resulta raro que la paradoja de Simspon no ocupe un lugar relevante en la
econometra, toda vez que proporciona un excelente ejemplo del problema de omisin de
variables relevantes.
49
Los dejo con tres lecturas sugeridas. Primero, obviamente, el artculo de Adrian Paenza,
escrito con su clsico estilo informal y motivador
(http://www.pagina12.com.ar/diario/contratapa/13-250327-2014-07-09.html). Segundo,
en mi libro Que es (y que no es) la estadstica, uso la paradoja de Simpson para explicar
por qu tomo tanto tiempo concluir que fumar es perjudicial para la salud
(www.queeslaestadistica.com). Tercero, el oscuro librito de Thomas Wickens (The
Geometry of Multivariate Statistics) tiene una interesante coleccin de este tipo de
problemas, desde una perspectiva geomtrica y que a m me ha sido particularmente
beneficioso a fines de atravesar las aguas turbulentas entre la estadstica y la
econometra.