Sobre la Paradoja Simpson

Embed Size (px)

DESCRIPTION

P.S

Citation preview

  • 47

    Los Simpson y la Econometra

    (Por Walter Sosa Escudero)

    Dudo que haya un aspecto de la vida humana que no pueda ser ilustrado por un episodio

    de Los Simpson, la popular y duradera serie de Matt Groening. En esta nota utilizaremos el

    nexo ms obvio y literal: la paradoja de Simpson. Una de las posibles explicaciones a por

    qu esta paradoja es mucho ms conocida en la estadstica que en la econometra se debe

    a que la misma aparece asociada al problema de tablas de contingencia, una tecnologa

    central a la primera, pero de aparicin circunstancial en la segunda.

    Entonces, el objetivo de esta nota es presentar una visin economtrica de la paradoja

    de Simpson. Es decir, intentaremos entenderla usando la herramienta atvica por

    excelencia de nuestra disciplina: el anlisis de regresin. Ah vamos.

    Hace muy poco Adrian Paenza, el matemtico, periodista y divulgador de la ciencia,

    escribi una muy bonita nota sobre este problema, presentando una visin clsica de la

    paradoja de Simpson. A continuacin les presento una tabla que usa Paenza para

    presentar y explicar este problema. Los datos son hipotticos, pero representativos de

    muchas situaciones reales.

    Kinesiologia Medicina Total

    Hombres 900/1000=90% 30/100=30% 930/1100=84,54%

    Mujeres 90/100=90% 300/1000=30% 390/1100=35,45%

    La tabla se refiere al proceso de ingreso a una hipottica universidad, a la cual se

    presentaron para ser admitidos 2.200 personas (1.100 hombres y 1.100 mujeres) a las

    nicas dos carreras que dicta esta universidad: kinesiologa y medicina. Cada celda

    presenta la proporcin de personas que fue admitida, por gnero, por carrera y en total.

    Asi, la primear celda dice que 1.000 hombres se presentaron a la carrera de kinesiologa, y

    que 900 fueron admitidos. Similarmente, la segunda celda de la tercera columna indica

    que de las 1.100 mujeres que se presentaron a ser admitidas, 390 lograron entrar,

    sumando las 90 que entraron en kinesiologa y las 300 que lo hicieron en medicina. Los

    invito a mirar con detalle esta tabla.

    La informacin de esta tabla sugiere tres cosas. Primero que no parece haber habido

    discriminacin en contra de las mujeres: el porcentaje de mujeres admitidas en ambas

  • 48

    carreras coincide con el de hombres (90% en el caso de kinesiologa y 30% en medicina).

    Segundo, que es ms difcil entrar a medicina que a kinesiologa (30% versus 90%).

    Tercero, que las mujeres de esta tabla prefieren enfticamente ir a medicina (1.000) que

    los hombres (solo 100).

    La paradoja de Simpson se refiere al siguiente hecho. Si bien ya acordamos que ninguna

    carrera parece discriminar a las mujeres, la tercer columna sugiere que les fue mucho ms

    difcil ingresar a las mujeres que a los hombres. Algn lector descuidado podra usar esto

    como sugerencia de que las mujeres fueron discriminadas.

    Vayamos rpidamente a una lectura economtrica de esta aparente paradoja, e

    intentemos darle con la herramienta por excelencia de la econometra: el modelo lineal

    estimado por el mtodo de MCO. En este caso la variable explicada (que denotaremos Y)

    es una variable binaria, que toma valor 1 si una persona fue admitida (no importa a que

    carrera) y 0 si no. Las variables explicativas son dos. Una (llamada X) es una variable

    binaria que indica el gnero de la persona (1 si mujer, 0 si hombre) y la otra es la carrera

    que eligieron (1 si medicina y 0 si kinesiologia). Si regressemos Y (admisin) en X (genero)

    encontraramos que el gnero correlaciona negativamente con la admisin, es decir, el

    hecho de ser mujer predice ms enfticamente no ser admitido. Este es el resultado que

    surge de mirar la columna tres. Ahora, si regressemos Y en X y agregsemos Z (carrera)

    encontraramos que el gnero no es relevante y que ahora es Z la que correlaciona

    negativamente con Y, en forma compatible con nuestra discusin de la tabla: el gnero no

    cuenta y el hecho de querer estudiar medicina lo que tira para abajo las posibilidades de

    ser admitido.

    En nuestro contexto del modelo de regresin, la paradoja de Simpson es claramente un

    problema de variables omitidas: cuando omitimos la carrera (Z), el gnero (X) aparece

    como relevante, sugiriendo que ser mujer baja las chances de admisin. Pero cuando

    incorporamos ambos factores, el gnero no es relevante y la carrera s. Dnde est la

    trampa? En lo que dice cualquier libro de econometra: la carrera est correlacionada con

    el sexo, de modo que si la omitimos de la regresin, el estimador MCO es sesgado. Es

    decir, no es cierto que el gnero impacte sobre la chance de admisin, sino que el hecho

    de ser mujer esta correlacionado fuertemente con estudiar medicina, en donde es mucho

    ms difcil ingresar. O sea que lo que explica la discrepancia de la columna tres no es el

    gnero per se, sino que las mujeres prefirieron enfticamente una carrera de ms difcil

    acceso.

    Me resulta raro que la paradoja de Simspon no ocupe un lugar relevante en la

    econometra, toda vez que proporciona un excelente ejemplo del problema de omisin de

    variables relevantes.

  • 49

    Los dejo con tres lecturas sugeridas. Primero, obviamente, el artculo de Adrian Paenza,

    escrito con su clsico estilo informal y motivador

    (http://www.pagina12.com.ar/diario/contratapa/13-250327-2014-07-09.html). Segundo,

    en mi libro Que es (y que no es) la estadstica, uso la paradoja de Simpson para explicar

    por qu tomo tanto tiempo concluir que fumar es perjudicial para la salud

    (www.queeslaestadistica.com). Tercero, el oscuro librito de Thomas Wickens (The

    Geometry of Multivariate Statistics) tiene una interesante coleccin de este tipo de

    problemas, desde una perspectiva geomtrica y que a m me ha sido particularmente

    beneficioso a fines de atravesar las aguas turbulentas entre la estadstica y la

    econometra.