222
Versión impresa ISSN: 0716-7334 Versión electrónica ISSN: 0717-7593 PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE INSTITUTO DE ECONOMÍA Oficina de Publicaciones Casilla 76, Correo 17, Santiago www.economia.puc.cl NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo Soto* Trabajo Docente Nº 78 Santiago, Mayo 2010 * [email protected]

NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

  • Upload
    lekiet

  • View
    232

  • Download
    0

Embed Size (px)

Citation preview

Page 1: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

Versión impresa ISSN: 0716-7334 Versión electrónica ISSN: 0717-7593

PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE INSTITUTO DE ECONOMÍA Oficina de Publicaciones Casilla 76, Correo 17, Santiago www.economia.puc.cl

NOTAS DE CLASES TEORÍA ECONOMÉTRICA

Raimundo Soto*

Trabajo Docente Nº 78

Santiago, Mayo 2010

* [email protected]

Page 2: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

Indice

1. Introducción.....................................................................................................................................1.1

2. Teoría de Probabilidades................................................................................................................2.12.01 Noción de Probabilidad.................................................................................................2.22.02 Axiomatización de las Probabilidades.........................................................................2.32.03 Variables Aleatorias........................................................................................................2.82.04 Momentos de una Distribución.................................................................................2.142.05 Distribuciones Discretas de Uso Común.................................................................2.172.06 Distribuciones Continuas de Uso Común...............................................................2.192.07 Distribuciones Conjuntas............................................................................................2.222.08 Distribuciones Marginales...........................................................................................2.222.09 Distribuciones Condicionales.....................................................................................2.24Apéndice A: Ejercicios..........................................................................................................2.26

3. Elementos de Inferencia Estadística...........................................................................................3.13.01 Modelo probabilístico, modelo muestral y modelo estadístico ...............................3.13.02 Estadísticos muestrales...................................................................................................3.53.03 Distribución de la media muestral................................................................................3.53.04 Características deseables de los estimadores en muestra finita................................3.63.05 Límite de Cramer-Rao.....................................................................................................3.83.06 Elementos de teoría asintótica: convergencia.............................................................3.93.07 Elementos de teoría asintótica: leyes débiles de grandes números.......................3.143.08 Elementos de teoría asintótica: leyes fuertes de grandes números........................3.183.09 Propiedades de los distintos tipos de convergencia.................................................3.203.10 Teoremas del límite central..........................................................................................3.213.11 Distribución asintótica..................................................................................................3.263.12 Estimación asintóticamente eficiente (máximo verosímil).....................................3.273.13 Tests de hipótesis...........................................................................................................3.323.14 Tres tests de hipótesis asintóticamente equivalentes...............................................3.343.15 Test de hipótesis no anidadas......................................................................................3.353.16 Criterios informacionales..............................................................................................3.37Apéndice A: Ejercicios..........................................................................................................3.41

4. Modelo Clásico de Regresión Lineal...........................................................................................4.14.01 Lógica del modelo de regresión.....................................................................................4.24.02 Análisis de los supuestos del modelo de regresión lineal..........................................4.24.03 Representación gráfica de la regresión lineal...............................................................4.74.04 Derivación del estimador de mínimos cuadrados......................................................4.84.05 Propiedades del estimador de mínimos cuadrados en muestra finita...................4.124.06 Tests de hipótesis en el modelo multivariado...........................................................4.164.07 Tests de hipótesis y modelo restringido.....................................................................4.214.08 Propiedades del estimador de mínimos cuadrados en muestra grande................4.234.09 Transformaciones de estimadores: el método Delta...............................................4.304.10 Predicción........................................................................................................................4.304.11 Método generalizado de momentos...........................................................................4.32Apéndice A: Ejercicios.........................................................................................................4.40

Page 3: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

Capítulo 5 Violación de los Supuestos del Modelo de Regresión Lineal5.01 Problemas de Especificación I: Regresores Inadecuados.........................................5.25.02 Problemas de Especificación II: Cambio de Régimen..............................................5.65.03 Problemas de Especificación III: Datos erróneos..................................................5.135.04 Problemas de Especificación IV: Colinealidad........................................................5.205.05 Modelos de Varianza No Constante..........................................................................5.275.06 Heterocedasticidad........................................................................................................5.285.07 Correlación de residuos................................................................................................5.395.08 Variables instrumentales..............................................................................................5.45Apéndice A: Ejercicios.........................................................................................................5.54

Capítulo 6: Modelos no lineales6.01 Elementos de cálculo numérico....................................................................................6.16.02 Optimización no lineal....................................................................................................6.56.03 Estimación de mínimos cuadrados no lineales...........................................................6.96.04 Estimación de variables instrumentales no lineales.................................................6.126.05 No linealidad de la variable dependiente...................................................................6.136.06 Interpretación de los parámetros de un modelo no lineal......................................6.146.07 Tests de hipótesis...........................................................................................................6.14

Capítulo 7: Modelos con Datos de Panel.......................................................................................7.17.1 Modelo canónico de datos de panel...............................................................................7.37.2 Modelación con datos de panel....................................................................................7.167.3 Modelos de panel dinámicos.........................................................................................7.187.4 Tests de raíces unitarias en panel..................................................................................7.22

Page 4: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

Capítulo 1Introducción

“Without data all you are is just another person with an opinion” (Anónimo)“Facts are stupid things” (Ronald Reagan, 1978).

Con frecuencia en el estudio de la economía -y de la econometría en particular– se comete el error de empezar con el análisis de “modelos económicos” sin definir previamente lo que se entiende por modelo y sin explicar por qué es importante construir dichos modelos. Sims (1996)1 señala que los avances en ciencias naturales –y en gran medida en economía— se refieren usualmente a descubrimientos sobre nuevos modos de comprimir datos con respecto a algún fenómeno con una mínima pérdida de información. Considere el siguiente ejemplo de la astronomía: Tycho Brahe (1546-1601) acumuló durante muchos años datos confiables sobre los movimientos de los planetas. Su asistente, Johannes Kepler (1571-1630), sin embargo, observó que podían ser modelados como elipses con el sol en uno de sus focos, logrando una notable compresión de información.2

Los modelos en economía, y en econometría en particular, buscan el mismo objetivo: transmitir información sobre las regularidades que caracterizan a la economía de modo eficiente (máxima compresión) y seguro (menor pérdida). Dichas regularidades –al igual que en las ciencias naturales– tienen nombres más bien pintorescos (p.e., “ley de oferta y demanda”, “propensión marginal a consumir”) pero poseen el atributo de generalidad que les hace particularmente útiles: cuando se menciona que un fenómeno queda razonablemente descrito por una ecuación de recta (es decir un modelo), el auditor instruido inmediatamente deduce las propiedades de dicho modelo y, a la vez, sabe que para cada situación específica en la que dicho fenómeno se verifique habrá una recta particular que le describe. Uno de los primeros y más famosos econometristas Francis Galton señaló que “The object of statistical science is to discover methods of condensing information concerning large groups of allied facts into brief and compendious expressions suitable for discussion” (Inquiries into Human Faculty and its Development, Macmillan: London,1883, pp.55). Otra manera de ver el rol de un modelo o teoría es provisto por S. Hawking “A theory is a good theory if it satisfies two requirements: it must accurately describe a large class of observations on the basis of a model that contains only a few arbitrary elements, and it must make definite predictions about the results of future observations” (A Brief History of Time, New York, 1988). Debiera añadirse que los modelos deben cumplir una restricción adicional, derivada de la célebre sentencia de William de Occam (1285-1349) “Essentia

1 C. Sims, “Macroeconomics and Methodology”, Journal of Economic Perspectives, 10 (Winter): 105-120, 1996.

2 Desilusionado con la incapacidad del modelo de Ptolomeo (85-165) para describir la trayectoria de los planetas, Copernico enunció su teoría heliocéntrica en 1543 pero sin proveer soporte empírico alguno. La contribución de Brahe fue hacer mediciones precisas del movimiento de los planetas que hicieron posible a Kepler la modelación del fenómeno. La superioridad del modelo de Kepler produjo fuerte agitación social pues la Iglesia la consideró «contraria a las Sagradas Escrituras». El 26 de febrero de 1615, el cardenal jesuita Bellarmino inició el juicio contra Galileo e incluyó los libros de Copernico De revolutionibus, Kepler Mysterium cosmographicum, y Galileo Discorsi en el Indice de Libros Prohibidos donde permanecieron hasta 1835.

Page 5: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

1.2

non sunt multiplicanda praeter necessitatem”, es decir, que los elementos de un modelo no deben ser aumentados más allá de lo necesario. La simplicidad es un objetivo de la modelación.

Objetivamente, los economistas aún no somos capaces de desarrollar teorías que sean capaces de describir la enorme heterogeneidad de los fenómenos económicos. Recientemente, se ha desarrollado una línea de investigación sobre la pregunta de cuáles son las formas, causas, y consecuencias de las complejidad de los sistemas económicos. Rosser (2004)3 clasifica la complejidad que enfrenta un agente económico en tres áreas fundamentales. Primero, complejidad en la estructura dinámica –y posiblemente no lineal– de los fenómenos económicos, es decir, el hecho frecuente que una pequeña perturbación en un sistema económico tenga repercusiones y ramificaciones dinámicas en la economía de gran impacto (p.e., un cambio en un precio clave de la economía como la tasa de interés). Segundo, la complejidad lógica y computacional que enfrenta un agente económico al tomar una decisión cuando existe un gran número de mercados, oferentes y demandantes. En particular la noción de equilibrio de los modelos económicos es muy compleja: por ejemplo, un equilibrio Walrasiano le exige al agente económico la computación de un número enorme de precios relativos, el equilibrio de Nash exige una gran capacidad de análisis lógico para anticipar las reacciones de los otros jugadores frente a diferentes alternativas de decisión. Tercero, la complejidad en la aprehensión del fenómeno económico, es decir, el problema adicional al que el proceso de aprehender la realidad económica es, en sí, también muy complejo y no puede ser llevado a cabo sin costos excesivamente altos.

Al problema de la complejidad se le suman las restricciones que enfrenta el análisis económico en términos de información sobre los fenómenos de interés y sus causas. Tradicionalmente las ciencias naturales le han otorgado poco valor al análisis probabilístico de los fenómenos. Ello se debe a que muchos de dichos fenómenos pueden ser replicados en laboratorios bajo condiciones experimentales controladas. En la mayoría de los problemas económicos no resulta factible realizar un análisis experimental en circunstancias absolutamente controladas. Por ejemplo, no es posible pedirle a un grupo de individuos que vuelva a estudiar una carrera profesional para estimar cómo habría sido su perfil de ingreso en estas nuevas circunstancias. En este sentido, los economistas usamos los datos disponibles para inferir probabilísticamente la capacidad de una teoría para comprimir información pertinente sobre un determinado más fenómeno o la congruencia con la que lo hace. Algunas de las ramas de la física o la química han adoptado recientemente el esquema metodológico de la economía: por ejemplo, la astronomía no cuenta –salvo honrosas excepciones– con “muestras” de fenómenos de gravitación universal, sino con un fenómeno único.4 La física subatómica

3 J. Barkley Rosser, Jr. (2004) “Epistemological Implications Of Economic Complexity”, mimeo, Department of Economics, James Madison University.

4 S. G. Djorgovski reporta que el volumen de observaciones disponibles en astronomía se dobla en aproximadamente cada año y medio. En cada noche, se produce aproximadamente 1 Terabyte de datos adicionales (equivalente a la colección completa de la biblioteca PUC). Ello exige una modelación probabilística de los datos. “Virtual Astronomy, Information Technology, and the New Scientific

Page 6: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

1.3

no puede observar directamente un fenómeno sino sus efectos, de los cuales debe inferir la validez de una hipótesis teórica. En ambos casos el análisis es frecuentemente probabilístico.

Es por estas razones –complejidad del fenómeno y restricciones de información– que la economía se basa en el desarrollo y análisis de modelos de comportamiento validados empíricamente mediante métodos cuantitativos, en especial, los métodos econométricos que se discuten en lo siguientes capítulos.5 La modelación econométrica propiamente tal comienza de manera significativa a principios del siglo XX con los trabajos de los fundadores de la disciplina (Galton, Pearson, Neyman, Fischer, Frisch, etc.) que desarrollaron la base estadística de gran parte de los tests básicos que se usan en la actualidad. Pero no fue si no hasta los años 1950 que se masificó el uso de modelos econométricos como base del análisis de políticas económicas y para la verificación de diversos postulados teóricos. El gran empuje de mediados del siglo XX proviene principalmente del desarrollo de un fundamento teórico sólido para la econometría en general y para los modelos econométricos de gran escala en particular. Estos últimos se beneficiaron de la aparición de bases de datos adecuadas (p.e., cuentas nacionales) y de una creciente capacidad de computación. El éxito de la econometría como base del análisis empírico es indudable. Ciertamente los modelos empíricos cometerán errores en la descripción de los fenómenos que nos interesa modelar; sin embargo, en este contexto se aplica la célebre frase del padre de la computación Charles Babbage (1791-1871) “Errors using inadequate data are much less than those using no data at all”.

El diseño de modelos analíticos y sus contrapartidas empíricas son, en realidad, dos caras de una más moneda: el modo como avanza nuestro conocimiento es mediante la continua contrastación de teoría y evidencia. En términos pedagógicos, sin embargo, en este libro nos ocuparemos principalmente de los modelos econométricos, los cuales serán desarrollados sobre la base de una serie de supuestos que nos permitirán derivar estimadores que cumplen con requisitos de calidad y los tests estadísticos asociados a dichos estimadores. Luego invalidaremos de manera paulatina dichos supuestos para estudiar qué efectos tiene una violación de uno o más supuestos sobre las características de dichos estimadores.

El capítulo 2 realiza una revisión de distintos elementos de probabilidades y desarrolla con algún detalle el enfoque axiomático de Kolmogorov (1933)6 que es la base de la estadística moderna. Este enfoque ofrece una formalización axiomática de la noción de probabilidad, cuyas ventajas radican en proveer una teoría completa (todas las

Methodology”, en Computer Architectures for Machine Perception, eds. V. Di Gesu & D. Tegolo, IEEE press (2005).

5 The sciences do not try to explain, they hardly even try to interpret, they mainly make models. By a model is meant a mathematical construct which, with the addition of certain verbal interpretations, describes observed phenomena. The justification of such a mathematical construct is solely and precisely that it is expected to work . John von Neumann.

6 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer eds. 1933.

Page 7: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

1.4

proposiciones de la teoría se derivan de los axiomas), no-redundante (ningún axioma puede ser derivado de otros), y congruente. El objetivo es que el alumno tenga una sólida base de análisis probabilístico y, más importante aún, que pueda conectar los distintos componentes de la teoría de probabilidades con los componentes básicos del análisis econométrico: entre ellos, el experimento aleatorio, las funciones de distribución conjunta, condicional y marginal, y la noción de la independencia entre variables aleatorias. En particular, esta sección busca que el estudiante entienda cómo los econometristas enfrentan el problema de la complejidad del fenómeno que se desea modelar.

El capítulo 3 usa la estructura anterior para enfrentar el segundo problema del análisis econométrico: la limitación de información. La principal adición al modelo de probabilidades desarrollado en el capítulo 2 es la restricción derivada del uso de muestras estadísticas y la inevitable necesidad de usar métodos de inferencia estadística para emitir juicios informados respecto de alguna hipótesis. El capítulo busca que el alumno entienda cómo se transforma la incertidumbre respecto de más los resultados de un experimento aleatorio en incertidumbre sobre los parámetros que caracterizan dicho experimento, y cuáles son las ventajas y limitaciones de dicha transformación. Adicionalmente, se presenta la maquinaria de teoría asintótica que será fundamental en el análisis del modelo de regresión lineal del siguiente capítulo.

El capítulo 4 desarrolla el modelo de regresión lineal, que ha sido una de las principales herramientas de análisis empírico de los economistas en los últimos 100 años. Este modelo, al que usualmente se le acopla el método de mínimos cuadrados como técnica de parametrización, permite enfrentar un número muy grande de preguntas en economía. A la vez, es suficientemente flexible como para permitir que, en caso que no se cumplan alguno de los supuestos que le sustentan, se desarrollen estimadores alternativos simples y poderosos. Las propiedades de los estimadores de la familia de mínimos cuadrados deben ser estudiadas tanto en muestra pequeña (finita) como grande (infinita) para entender a cabalidad el papel de los supuestos del modelo. Igualmente, se debe estudiar las propiedades de los tests que se construyen a partir de dichos estimadores de mínimos cuadrados, para determinar más su aplicabilidad en circunstancias prácticas. Finalmente, la técnica de mínimos cuadrados no es la única forma de parametrizar un modelo. En el capítulo se estudian dos alternativas adicionales de gran aplicación práctica: el estimador de máxima verosimilitud y el método generalizado de momentos.

En el capítulo 5 se estudian los problemas derivados de la violación de los seis supuestos sobre los cuales se desarrolló el modelo de regresión lineal en el capítulo anterior. La lógica de operar es directa: en primer lugar se estudia el efecto de la violación sobre los estimadores de mínimos cuadrados y los diferentes tipos de tests. En segundo lugar, propondremos, si es posible, alguna solución, examinando el contexto en el que dicha solución es válida. En tercer lugar, se discuten los síntomas que delatan la violación de un supuesto y se desarrollan test formales de detección. Por razones

Page 8: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

1.5

pedagógicas, en este capítulo se estudian los problemas de manera aislada, es decir, afectando un supuesto a la vez.

El capítulo 6 extiende la tecnología anterior al área de los modelos no lineales. Esta es una literatura muy extensa y, posiblemente, aquella que se ha desarrollado con mayor interés en los últimos años como resultado del veloz desarrollo de la computación. La gran mayoría de los modelos no lineales se resuelven por medio de métodos de cálculo numérico debido a que no existen formas cerradas que permitan derivar expresiones matriciales simples para obtener los estimadores. En la primera parte de este capítulo se desarrolla el instrumental necesario para entender los métodos de optimización no lineal que se usan para la estimación de modelos no lineales. En la segunda parte se aplica dicho instrumental para derivar el estimador de mínimos cuadrados no lineales y los tests asociados.

El capítulo 7 presenta una introducción a los modelos de datos de panel. Estos métodos combinan observaciones de corte transversal con observaciones de series de tiempo. Así, nos permiten responder preguntas que no pueden ser respondidas por modelos de corte transversal o series de tiempo por separado, porque usan información sobre una cohorte donde hay N individuos heterogéneos a los que se les observa repetidamente durante un periodo de tiempo T.

La literatura de la econometría se expande de manera vertiginosa. Por ello, no tiene sentido intentar incluir un gran número de modelos, tests, estimadores y algoritmos de solución. Inevitablemente aparecerán mejores modelos, tests más precisos y estimadores más atractivos. El objetivo del libro es proveer al estudiante de una base sólida para entender las nuevas contribuciones que la econometría nos ofrece.

Page 9: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

Capítulo 2Teoría de Probabilidades1

¿Por qué necesitamos estudiar teoría de probabilidades para analizar observaciones o datos de la realidad? ¿Por qué no nos contentamos con hacer histogramas y usar medidas descriptivas? Supongamos que contamos con una muestra de datos de un fenómeno de interés. Podemos hacer un gráfico de frecuencias empíricas de los datos y derivar información útil.

Figura 2.1Inflación mensual en Chile, 1960-2005

Aunque el gráfico anterior describe adecuadamente la distribución de una muestra para la inflación mensual en Chile en el periodo 1960-2005, los estadísticos descriptivos están confinados a dicha muestra. Cualquier pregunta respecto de la población de la cual se derivó la muestra no puede ser discutida. La esencia del trabajo econométrico es, en este sentido, proveer resultados generales a partir de muestras cuya información es limitada.

La teoría de probabilidades provee un modelo matemático para la inferencia estadística que, al realizarse sobre una muestra de observaciones, permite estudiar fenómenos generales. Por eso, este capítulo repasa la principal teoría de probabilidades, en tanto que el siguiente revisa los fundamentos de la inferencia estadística clásica.

1 Probabilidad –documentado por primera vez en francés en 1387– viene del latín probabilis y significa “que puede ser probado”.

Page 10: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.2

2.01 Noción de Probabilidad

El desarrollo de la noción de probabilidad procedió de manera intuitiva y asistemática hasta mediados del siglo 16. La siguiente definición de probabilidad –que como veremos más adelante es insuficiente– fue utilizada primero por Abraham De Moivre en 17182 y formalizada por Pierre-Simón de Laplace en 18123:

Def. 2.1: Si un experimento puede resultar en N resultados mutuamente excluyentes y equiprobables y si NA es uno de dichos resultados, entonces la probabilidad de A es:

P A =N A

N(2.1)

Esta definición tiene dos problemas bastante obvios. Primero, se requiere que el número de posibles resultados sea finito. Segundo, y más importante, al usarse el concepto de “equiprobable” la definición de Laplace adolece de circularidad.

Por ello se necesita una definición formal del concepto de probabilidad. Richard von Mises (1919) sintetiza una primera solución a los problemas anteriores, señalando que la noción de equiprobabilidad puede ser eliminada y, en su reemplazo, se puede hablar de frecuencia empírica de los datos.4 Para que ésta sea de aplicación general, se requeriría:

limN → ∞N A

N =P A (2.2)

Así, por ejemplo, la probabilidad que al lanzar una moneda salga cara no es ½ porque “de dos posibles eventos, cara es uno de ellos” sino porque al repetir el experimento un número grande de veces se observa que cara sucede un 50% de los casos.

Las limitaciones del enfoque frecuentista son también obvias. Entre ellas, ¿qué significa “límite cuando N tiende a infinito”? ¿Cómo generamos secuencias infinitas de eventos? ¿Qué hacemos cuando no es posible generar secuencias arbitrarias de datos de un experimento?

2 "The probability of an Event is greater or less, according to the number of chances by which it may happen, compared with the whole number of chances by which it may either happen or fail." The Doctrine of Chances.

3 Théorie Analytique de Probabilités. Laplace expresa de forma sencilla el significado del cálculo de probabilidades: "En el fondo, la teoría de probabilidades es sólo sentido común expresado con números".

4 “Grundlagen der Wahrscheinlichkeitsrechnung”, Zeitschrift für Angewandte Mathematik und Mechanik, 5:52-99.

Page 11: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.3

Lo que se necesita es una teoría de probabilidades con una sólida base matemática. Ella no estuvo disponible sino hasta los años 1930.

2.02 Axiomatización de las Probabilidades

El enfoque axiomático de probabilidades procede, naturalmente, de un conjunto de axiomas (verdades a priori) y ofrece una formalización matemática de la noción de probabilidad, cuyas ventajas radican en ser completo (todas las proposiciones de la teoría se derivan de los axiomas), no-redundante (ningún axioma puede ser derivado de otros), y congruente.5 El trabajo fundacional para la econometría clásica en esta área es el de Andrei Kolmogorov (1933).6 Existen otros trabajos fundacionales para la econometría Bayesiana.7

El punto de partida es definir el experimento aleatorio,8 que describe de manera idealizada y simplista el mecanismo que genera los datos (usualmente llamado proceso generador de los datos, PGD). En particular:

Def. 2.2: Un experimento aleatorio, llamado , es un experimento que satisface:ℰ

I. Todos los posibles eventos resultantes son conocidos a-priori.

II. En cada realización particular, el resultado no es conocido a-priori.

III. Se puede repetir en idénticas condiciones.

Un problema con la condición I es que es difícil de formalizar. Kolmogorov sugiere utilizar el conjunto S que contiene todos los posibles resultados de un experimento definidos antes de empezar el experimento. Así,

5 Con frecuencia se traduce erróneamente la palabra “consistency” por “consistencia”. El término correcto es congruencia (del Latín, coincidir), aunque el uso popular es inexacto como pasa con otras palabras (p.e., sofisticado).

6 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer eds. 1933.

7 R. T. Cox, The Algebra of Probable Inference, Johns Hopkins University Press, Baltimore, MD, (1961).8 El término “aleatorio” se popularizó a raíz del trabajo de Christiaan Huygens (De Ratiociniis in Ludo

Aleae, 1657) sobre el cálculo de probabilidades en juegos de dados (aleae en latín). Aunque se considera que este es el primer libro de probabilidades de la historia, hay un libro anterior de Girolamo Cardano (Liber de Ludo Aleae, 1564) que está a mitad de camino entre manual de cómo apostar y libro de probabilidades. Huygens fue además un famoso astrónomo: descubrió la luna más grande de Saturno –Titán– y sus anillos (en 1655) y la nebulosa de Orión (en 1656).

Page 12: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.4

Def. 2.3: El espacio muestral, llamado S, es el conjunto de todos los posibles resultados del experimento . Los elementos de ℰ S se llaman “eventos elementales”.

Por ejemplo, el experimento que consiste en lanzar una moneda al aire dos veces tiene como espacio muestral: {CC ,CS , SC , SS } . Los elementos CC, CS, SC, SS son los eventos elementales.

Por otro lado, al examinar la condición II notamos que el evento de interés no tiene por qué ser únicamente referido a eventos elementales y podría ser una función de ellos. Por ejemplo, el evento “al menos una cara” define el conjunto A1={CC ,CS ,SC } , que no es un evento elemental.

En esta lógica de definir conjuntos ( A1 , los eventos elementales, etc.), resulta natural incorporar los dos elementos clásicos de los conjuntos: el elemento vacío es en este contexto el evento imposible (denotado por ∅ ), en tanto que el mismo conjunto S es llamado el evento seguro.

Un tercer problema es la noción de incertidumbre implícita en la definición de .ℰ Es directo asociar probabilidad con evento elemental y, si sólo existieran éstos, no sería problema usar dicha asociación. La existencia de eventos no elementales complica el problema porque si A1 es un evento que ocurre con P A1 , entonces A1=S−A1 también ocurre con alguna probabilidad cuando ocurre A1 . De hecho si existen dos eventos, A1 y A2 , se deduce que A1∪A2 y A1∩A2 también ocurren. Entonces, habrá que imponer alguna estructura sobre dichas probabilidades con el fin que el modelo matemático sea congruente.

Una alternativa sería usar el conjunto de todos los posibles A i y todas sus combinaciones y relaciones (es decir, el conjunto potencia de S). En el experimento de lanzar la moneda dos veces éste incluiría, aparte de los eventos elementales, eventos tales como “que salga al menos una cara”, “que no salgan dos sellos”, etc. Así, el conjunto potencia de este experimento es:

ℱ ={S ,∅ ,CS ,CC ,SC ,SS , SC ,CS , SC , CC ,SC , SS , CS ,CC ,CS ,SS ,CC ,SS , CS , SC , CC ,CS ,SC , SS ,CC ,SS , SC , CC ,SS ,CS }

(2.3)

De esta manera incluiríamos en el espacio de los eventos, , todas las posiblesℱ alternativas. De hecho, no importa cómo combinemos los elementos de siempreℱ obtenemos un elemento de .ℱ

Page 13: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.5

No obstante, cuando S es infinito es posible observar incongruencias (p.e., suma de probabilidades mayor que 1).9 Así, debemos definir independientemente de ℱ S o, lo que es lo mismo, debemos dotarlo de estructura matemática.

Def. 2.4: Sea un conjunto de sub-conjuntos de ℱ S. es un σ-álgebraℱ 10 si

• dado A∈ℱ entonces A∈ℱ (cerrado para el complemento)

• dado A i i=1, 2, entonces U i A i ∈ ℱ (cerrado para uniones contables o enumerables)

Ambas propiedades juntas implican que:

• S∈ℱ (porque A∪A=S )

• ∈ℱ (porque S=∈ℱ )

• A i∈ℱ entonces U i A i∈ℱ

Dicho de manera más simple, cualquier operación (unión o intersección) de elementos de produce un elemento de . Obviamente el conjunto potencia de ℱ ℱ S es un σ-álgebra. Un resultado fundamental para nuestro análisis posterior de convergencia es que un σ-álgebra contiene todos los límites de secuencias de eventos, en tanto que un álgebra no necesariamente los contiene. Esta propiedad se deriva del hecho que el σ-álgebra es cerrado para uniones contables, en tanto que un álgebra es cerrado para uniones finitas solamente.

Hasta aquí hemos resuelto el problema de incongruencias al postular la existencia de un σ-álgebra asociado con un espacio muestral ℱ S (este par constituye un espacio medible). El último paso en la estrategia de Kolmogorov consiste en definir el concepto de probabilidad formalmente, para lo cual se usa el Teorema de Extensión de Constantin Caratheodory y la noción de medida de Henri Lebesgue11. Empezamos primero con el caso más simple, en el cual S es finito.

9 Ejemplo, S={A1 , A2 ,} tal que A1∩ A2=∅ ∀ i ≠ j y P A i=a0 , entonces

P S =∑i=1

P Ai =∑i=1

a1 .

10 Algebra viene del título de un libro árabe –Hisab al jabr w‘al muqâbalah– escrito en 825 por Abu Ja'far Muhammad ibn Musa Al-Khwarizmi (de donde se deriva “algoritmo”). De acuerdo a In Khoálsat al-Hisáh (Esencia de la Aritmética) escrito por Behá Eddin en 1600. Al-Jabr significa posiblemente “reunión de partes quebradas” (es decir, completación), en tanto que al-Muqâbalah significa “reducción o balanceo”. El título se refiere a las operaciones de suma y resta necesarias para mantener balanceada una ecuación y resolverla.

11 Ver Probability Theory, S.R.S. Varadhan, Courant Lecture Notes #7, American Mathematical Society, 2001.

Page 14: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.6

Def. 2.5: Probabilidad es una función conjunto en que satisface los siguientesℱ axiomas:

• Axioma 1: P A ≥ 0 para todo A∈ℱ .

• Axioma 2: P S =1 .

• Axioma 3: P U A i = P A i si {A i} es una secuencia de eventos mutuamente excluyentes en (excluyentes significa que ℱ A i∩A j= ∀ i ≠ j ).

Es decir, probabilidad es una “función conjunto” con dominio en y rango en elℱ intervalo [0, 1]:

P · : ℱ [0, 1 ] (2.4)

La probabilidad es una medida en el sentido de Lebesgue. Medida es una función definida para un σ-álgebra del conjunto X y que toma valores en el intervalo [0, ∞] tal que se cumplen dos propiedades: (1) la medida del vacío es cero y (2) se cumple la aditividad contable (σ-aditividad), es decir, si tenemos una secuencia de conjuntos disjuntos, la medida total es la suma de las medidas individuales.

Es conveniente notar que el axioma 2 opera simplemente como una normalización.

Los dos primeros axiomas calzan tanto con la definición clásica de Laplace como con la frecuentista. El tercero es menos intuitivo, pero se resume en que la probabilidad de la unión de eventos no relacionados es la suma de las probabilidades individuales. Debido a su importancia, el trío S ,ℱ , P · tiene un nombre particular:

Def 2.6: Un espacio muestral S dotado de un espacio de eventos o σ-álgebra yℱ una función de probabilidades que satisface los axiomas 1 a 3 se llama espacio de probabilidades.

Algunas propiedades interesantes de esta teoría de probabilidades son:

• P A=1−P A A∈ℱ• P =0

• Si A1⊂A2 ⇒ P A1≤ P A2 A1, A2∈ℱ

• P A1∪A2=P A1P A2−P A1∩A2

Page 15: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.7

• Si {An }n=1∞ es una secuencia de eventos monótona (ordenada) en , entoncesℱ

P limn →∞ An= limn →∞ P An .12

Un problema evidente de la construcción de probabilidades hecha de esta manera es que no puede usarse para enfrentar fenómenos con “infinitos eventos”. Por ejemplo, ¿cómo le asignamos probabilidades al caso en que se tiran dos dados un número infinito de veces? Naturalmente, no podemos escribir el conjunto potencia como en la ecuación (2.3). De hecho, una pregunta crucial es si es posible construir una función que cumpla con las características que se le exige a la función de probabilidades cuando hay infinitos eventos. Usaremos dos elementos para extender el análisis al caso en cuestión: el teorema de extensión de Carathéodory y los álgebras de Borel.

Un álgebra de Borel corresponde al siguiente conjunto. Supongamos que S es la recta de los reales ℝ={x : −∞x∞} y que el conjunto de eventos de interés es J=Bx : x∈ℝ donde Bx={z : z ≤ x }=(−∞ ,x ] . Es decir, el conjunto J incluye todos los

intervalos de reales menores o iguales a x. ¿Podemos construir un σ-álgebra en ?ℝ Usando la definición de σ-álgebra debiésemos partir de Bx , luego añadir su complemento Bx , e incluir todas las uniones enumerables de Bx y Bx . Con ello tendríamos el mínimo σ-álgebra generado por los eventos en Bx , llamado J . Este es un conjunto verdaderamente grande, pues incluye todos los x, todos los (−∞ , x ] , todos los (−∞ , x ) , todos los x ,∞ , y todos los (x,z) tal que están ordenados, x<z. Esta álgebra es llamada álgebra de Borel, B , y permite incluir cualquier tipo de eventos, sean o no elementales, en .ℝ 13

El teorema de extensión de Constantin Carathéodory prueba que para cualquier medida de probabilidad P(.) en el álgebra puede extenderse de manera única al σ-ℱálgebra generado por los reales. Note que esta medida extendida es única. La prueba de este teorema excede los objetivos del curso.

Si aplicamos el teorema de extensión de Carathéodory al álgebra de Borel, entonces podemos dotar de una medida a cualquier conjunto de eventos. Si esta medida es la medida de probabilidad definida más arriba, podemos dotar de estructura de probabilidades a cualquier conjunto de eventos, pero al costo de generar álgebras verdaderamente complejas.

12 Usaremos esta propiedad frecuentemente más adelante.13 Los conjuntos de Borel también se denominan conjuntos de Baire (1874-1932).

Page 16: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.8

2.03 Variables Aleatorias

En la sección anterior hemos construido el enfoque axiomático de probabilidades sobre la base del trío S ,ℱ , P · . Ahora usaremos este enfoque para estudiar variables, probabilidades de eventos y, al final, modelación de incertidumbre. El espacio de probabilidades fue sugerido como una formalización –un tanto rígida– de un experimento . Intuitivamente la conexión entre los tres elementos queda descrita en laℰ Figura 2.2.

Evidentemente, es difícil pensar en funciones de probabilidades a partir de la Figura 2.2. Habría que tabular todos los elementos de y luego construir un sistemaℱ congruente de P · .

Figura 2.2

Si los resultados del experimento fuesen descritos directamente por medio de atributos cuantificables, entonces tendríamos un enfoque mucho más flexible que S ,ℱ , P · . Eso es, por lo demás, lo que sucede usualmente en economía. Ese es el

papel que juegan las variables aleatorias.

La variable aleatoria es una función X que mapea el conjunto S directamente en los reales, , es decir:ℝ

X · : Sℝ + (2.5)

(CC)(CS)(SC)(SS)

(CC)(CS)(SC)(SS)

(CS,SC,CC)(CS,SC,SS)(SS,CC)

Ф

S

S F P(· )

0 1¼ ½ ¾

Page 17: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.9

y asigna a cada elemento de S un valor en los reales positivos, x i . Gráficamente, el conjunto de eventos “obtener sellos al lanzar dos monedas” corresponde a:

Figura 2.3

La pregunta que nos preocupa es, obviamente, si esta variable aleatoria es capaz de mantener la congruencia del análisis de probabilidades al haber eliminado . Laℱ respuesta, no muy sorprendentemente, es no. Las probabilidades fueron asignadas a eventos en , en tanto que X asigna valores a elementos de S.ℱ

Así el problema radica en cómo escoger X tal que al asignar valores de S en seℝ preserve el orden impuesto en , es decir, que preserve uniones, intersecciones yℱ complementos. Ello es equivalente a pensar en que la (imagen) inversa de X debe ser un evento en . De esta manera, una variable aleatoria será cualquier función que preserveℱ el ordenamiento de los eventos para un σ-álgebra determinado, usualmente el álgebra de Borel, B

Def. 2.7: Una variable aleatoria X es una función que toma valores reales y que mapea de S a ℝ y que satisface la condición que para cada conjunto de Borel B∈ B en ℝ, el conjunto X−1B={ s : X s ∈ B ,s ∈ S } es un evento en .ℱ

(CC)

(CS)

(SC)

(SS)

S

0 1 2

ℝX(· )

Page 18: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.10

Algunas implicaciones importantes de la definición anterior son:

• Una variable aleatoria está siempre definida relativa a un espacio de eventos, .ℱ

• Al decidir si alguna función Y · : S →ℝ es una variable aleatoria procedemos siempre de los elementos del espacio de Borel B al espacio de eventos, y noℱ viceversa.

• Una variable aleatoria no es “variable” ni “aleatoria”.

Note que la pregunta “¿es Z · :Sℝ una variable aleatoria?” no tiene ningún sentido si no se especifica el espacio de eventos asociado. En algunos casos habrá ℱ Z que es una variable aleatoria para algunos y no para otros.ℱ 14 Para estos últimos siempre se puede general el mínimo σ-álgebra, tomando uniones, intersecciones y complementos. Es directo demostrar que estos mínimos σ-álgebras no tienen por qué calzar con , pero que frecuentemente son subconjuntos de éste.ℱ

Adicionalmente, si X 1 y X 2 están definidos para un mismo espacio de probabilidades y definimos operaciones con ellos, por ejemplo, Z=X 1X 2, entonces los mínimos σ-álgebras generados por estas variables aleatorias son subconjuntos ordenados de :ℱ

X 1⊂ Z ⊂ℱ

En términos prácticos, este último argumento sugiere que al estudiar una variable aleatoria nos estamos concentrando en una parte (el σ-álgebra asociado) del experimento completo .ℱ

Note que la variable aleatoria no es ‘aleatoria’ en el sentido que la noción de probabilidad no entra en su definición sino que se le asigna para completar el modelo del experimento aleatorio. Y tampoco es una variable, sino que es una función de valor real.

Como vemos, la definición “popular” de variable aleatoria (p.e., Greene15 usa Función cuyo rango de valores es conocido ex-ante pero el valor que toma es sólo conocido ex-post) esconde la verdadera naturaleza de la variable aleatoria, porque menoscaba el concepto de función incluido en la definición y enfatiza el de variable.

Recapitulando, una variable aleatoria X relativa a mapea ℱ S en un subconjunto de la línea de los reales. El espacio de Borel B en ℝ juega el papel que antes ocupaba .ℱ

14 Esto no es tan extraño: en un experimento en el que hay hombres y mujeres, el género es una variable aleatoria. Pero si sólo seleccionamos hombres o mujeres, el género ya no es una variable aleatoria.

15 Econometric Analysis, Prentice Hall, Tercera Edición, 1997, p. 62.

Page 19: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.11

Falta, por lo tanto, asignarle probabilidades a los elementos B de B , es decir, definir una función:

P x · :B[0,1]

tal que P x B =P X−1 B ≡ P s : X s ∈B , s∈S para todo B en B.

Note que no es necesario definir todos los elementos de B, porque cada uno de sus elementos puede ser escrito como un intervalo semi-cerrado del tipo (-∞,x]. Así, eligiendo los intervalos de manera adecuada, podemos construir fácilmente la función de probabilidad de X. Por ejemplo, en el caso del lanzamiento de dos monedas descrito en el Cuadro 2.1.

Cuadro 2.1S X 1 X 2 X

{C,C} 1 1 2

{C,S} 1 0 1

{S,C} 0 1 1

{S,S} 0 0 0

las probabilidades son simplemente:

Px({0})=¼ Px({1})=½ Px({2})=¼

Px({0} {1})=¾∪ Px({0} {2})=½∪ Px({1} {2})=¾ ∪ Px({0} {1} {2})=1∪ ∪

Px({0}∩{1})=0 Px({0}∩{2})=0 Px({1}∩{2})=0 Px({0}∩{1}∩{2})=0

Note que no es necesario asignarle a cada elemento de la recta real una probabilidad sino que definimos el problema por intervalos:

P x (−∞ , x ]=[ 0 x0¼ 0 ≤ x1¾ 1≤ x21 2≤ x ] (2.6)

Page 20: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.12

Recapitulando, empezamos con un experimento16 definido en el espacio deℰ probabilidades S ,ℱ ,P · y luego hemos definido la variable aleatoria X definida en un espacio de probabilidades equivalente ( , ℝ B , P x · ). La ventaja de este último es que es más fácil manejar “elementos en la recta real” que “elementos en conjuntos arbitrarios”. Gráficamente:

Figura 2.4

Lo último que falta es definir apropiadamente P x · . Hasta el momento esta función sigue siendo arbitraria en un subconjunto de los ℝ+, pero lo que se requiere es una “función punto” (es decir, que mapee punto a punto). Recordemos que todos los elementos del espacio de Borel pueden ser descritos como intervalos (−∞, x] lo que permite definir la función F :ℝ[0,1 ] de la siguiente manera:

P x (−∞ ,x ]=F x −F −∞=F x (2.7)

16 Tal vez el énfasis en la noción de experimento pueda parecer exagerada. R.A. Fisher nos ofrece una contundente visión de la importancia del diseño del experimento “To call in the statistician after the experiment is done may be no more than asking him to perform a postmortem examination: he may be able to say what the experiment died of (Indian Statistical Congress, Sankhya, 1938).

(CC)(CS)(SC)(SS)

(CC)(CS)(SC)(SS)

(CS,SC,CC)(CS,SC,SS)(SS,CC)

Ф

S

S F P(· )

0 1¼ ½ ¾

0 1 2 0 1 2 0 1

Px(· )ℝ B

Page 21: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.13

y como los intervalos son ordenados, debemos exigir que F · sea no decreciente, continua y con máximo igual a 1. Es decir, limx ∞ F x =1 . Esta función es la que llamamos función de distribución:

Def. 2.8: Sea X una variable aleatoria definida en S ,ℱ , P · . La función punto F: →[0,1] definida por:ℝ

F x =P x ( − ∞ , x ]=Pr X ≤ x ∀ x ∈ X

se llama Función de Distribución de x y cumple:

• F · es no-decreciente

• F −∞= lim x−∞ F x =0 F ∞=limx ∞ F x =1

• F · es continua por la derecha

¿Por qué preferimos F · a P · o a P x · ? La principal ventaja de F · es que ésta es una función punto que se puede representar de manera algebraica, que es el manejo habitual que le damos a las funciones de distribución.

Habrá dos tipos de variables aleatorias:

• Variables aleatorias discretas (ej: robos): aquella cuyo rango ℝ+ es, por convención, algún subconjunto del conjunto de los enteros.

• Variables aleatorias continuas (ej: ingresos familiares): aquella para la cual su función de distribución F x es continua para todo x y existe una función∈ ℝ no-negativa f · en la recta real tal que:

F x =∫−∞

x

f x dx

donde f · es llamada la Función de Densidad de x.

Page 22: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.14

2.04 Momentos de una Distribución

El valor esperado de una variable aleatoria se define como el promedio de las realizaciones de X ponderado por su probabilidad de ocurrencia.17

E[ x ]=∑ x f x =x para toda función X discreta (2.8)

E[ x ]=∫x

x

x f x dx=x para toda función X continua

Note que la esperanza (media) no tiene que ser un valor que la variable aleatoria puede tomar cuando ésta es discreta. Por ejemplo considere el siguiente problema: usted recibe $1 por cada punto que salga al tirar un dado numerado de 1 a 6 ($1 si sale 1, $2 si sale 2, etc). ¿cuánto es lo más que está dispuesto a pagar por jugar una vez? El valor esperado del juego es, naturalmente, $3.5.

Otros descriptores comunes del “valor central” de una distribución son la mediana que es el valor “del medio” del rango de valores de la distribución y se usa principalmente cuando hay valores extremos, pues a diferencia de la esperanza no se ve tan influida por éstos. Cuando se trata de variables discretas ocasionalmente se usa la moda, que es el valor que ocurre con mayor probabilidad. No tiene una aplicación interesante en variables continuas pues su definición es arbitraria.

Más allá del valor esperado, se utiliza frecuentemente:

• Varianza de una distribución V x =E [x−E x ]2 es decir, es el valor esperado de la dispersión de la variable aleatoria.

• Skewness de una distribución S x =E [x−E x ]3 es decir, es el valor esperado de la asimetría de la variable aleatoria.

• Kurtosis18 de una distribución K x =E [x−E x ]4 es decir, es el valor esperado de las colas de la distribución de la variable aleatoria.

17 En estricto rigor debiésemos usar f(x) para variables aleatorias continuas y p(x) para discretas. Para evitar un exceso de notación, usaremos sólo f(x) entendiendo la naturaleza de cada una dependiendo del contexto que se trate.

18 Kurtosis, del griego kurtos, encorvado, curvo. Kurtosis fue usado por primera vez por Karl Pearson en 1905 en su trabajo "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. A Rejoinder," Biometrika, 4, 169-212. En ese trabajo se acuñó además los términos leptokurtica (lepto significa flaco) para distribuciones concentradas alrededor de la media y con colas largas), platykurtica (platy significa gordo), para distribuciones con colas flacas, y mesokurtica (colas normales).

Page 23: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.15

Para describir la distribución de una variable aleatoria resulta más efectivo usar los llamados momentos19 de la distribución (esperanza, mediana, moda, varianza, skewness, Kurtosis, etc.), los cuales pueden ser “brutos” o “centrados”. Un momento no centrado de la distribución de x tendrá la forma genérica E[ x m] en tanto que un momento centrado es de la forma E[∣x−x∣

m] . Resulta natural preguntarse si existe alguna forma de generar estos momentos de la distribución. La función generatriz de momentos provee una manera elegante de obtener los momentos de una distribución:

Def. 2.9: La función generatriz de momentos de una variable aleatoria –posiblemente vectorial– X se define como:

m t =E [ e t ' x ]=∫ e t ' x dF x (2.9)

donde t es el conjunto de vectores no aleatorios para los cuales la función generatriz de momentos existe y es finita en la vecindad de t=0 (es decir, existe h0 tal que para −hth existe E[ e t ’ x ] .

La función generatriz de momentos provee, como su nombre indica, una manera simple de generar todos los momentos de una distribución. En el caso univariado, se puede expandir la ecuación (2.9) usando una expansión de McLaurin para obtener (el resultado es general):

m t =E [ e t ' x ]=E [1txtx 2

2 !

tx3

3 !... ]

=1tE [x ] t 2

2 ! E [x 2 ]t 3

3 ! E [x 3 ]...(2.10)

es decir, el término que acompaña a t i

i ! es un momento no-centrado de la distribución

de x. Ahora, tomando derivadas con respecto a t de la expresión (2.10) evaluadas en t=0 tenemos:

19 Momento –que fue utilizado inicialmente por Newton para designar el “cambio infinitesimal de una variable” (De Quadraturaa Curvarum, 1704)– fue introducido en estadística por Pearson en 1893, en su tratamiento de la media de la curva de frecuencia como el centro de gravedad entre la curva y el eje horizontal (“Asymmetrical Frequency Curves”, Nature, October 26th, 1893).

Page 24: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.16

∂m t=0∂ t = E [x ]

∂2 m t=0∂ t 2 =E [x 2 ] etc.

(2.11)

De esta manera podemos generar los momentos de la distribución de una variable aleatoria si ésta existe. Algunas propiedades interesantes de esta función son

• m x−=E[ ex−]=e− t m x t si μ es constante.

• m x y=E [ ex y ]=m x t m y t si x y y son variables aleatorias independientes.

Si las variables son acotadas la función generatriz de momentos siempre existe y es finita. Sin embargo, para una distribución como la Cauchy esto no se cumple. Si x se distribuye:

f x = 11x 2

(2.12)

la función generatriz de momentos es:

m t =∫−∞

e tx f x dx =[∞ si t ≠ 01 si t=0 ] (2.13)

Una solución a este problema consiste en modificar la función generatriz de momentos para obtener la función característica, reemplazando t en la ecuación (2.9) por it donde i=−1 . Naturalmente, esta es la transformación de Fourier de la función generatriz de momentos. Así,

t =E [ e it ' x ] (2.14)

Se puede demostrar que dos variables aleatorias son idénticas si tienen igual t . Para ilustrar el uso que se le da a este tipo de función, consideremos la

distribución Normal:

Page 25: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.17

f x = 1

2 2e−x−2

22

(2.15)

Aplicando la transformación de la ecuación (2.14), tenemos

t = 1 2 2∫

−∞

eit ' x−x−2

22

dx =e it −1/22 t 2 12 2∫

−∞

e−x−−i2 t

2 2

dx (2.16)

Es posible, aunque tedioso20, demostrar que ∫−∞

e−x−−i2 t

22

dx= 22 , por lo

que se deduce que la función característica de la normal es simplemente:

t =e it −1 /22 t2 (2.17)

La función característica describe completamente la distribución que, en este caso, depende de la media y la varianza 2 . La función es simétrica alrededor de y si =0 su valor es real (de otro modo tiene componentes imaginarios). En particular, si =0 , la función característica de la normal es t =e−1 /2 2 t2

.

2.05 Distribuciones Discretas de Uso Común

Supongamos que el experimento tiene dos posibles resultados ℰ S={éxito, fracaso} y que tienen probabilidades p y 1-p, respectivamente:

Exito x=1 P(x=1) = p

Fracaso x=0 P(x=0) = (1-p)

En 1713 se publicó el libro Ars Conjenctandi que sintetiza los descubrimientos de Jacques Bernoulli (1654-1705) sobre matemáticas –en particular, probabilidades– entre

20 Para demostrar este resultado recuerde que e itx=costx i sin tx .

Page 26: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.18

las cuales se encuentra la distribución (o descripción) de los datos del experimento anterior:

f x = px 1− p 1−x ∀ x=0,1 =0 en cualquier otro caso

(2.18)

Como el mismo Bernoulli se encargó de demostrar, si el experimento se repite n veces se obtiene la distribución “binomial”21

f y = ny p y 1− p n− y

(2.19)

donde ny= n !

n− y ! y ! .

Hay muchas otras distribuciones discretas útiles. Entre ellas está la descubierta por Poisson en 1837 como el límite de la binomial cuando n → ∞ y p → 0 , tal que np es constante.22

f x i ;=e−i

x

x i !(2.20)

21 Bernoulli gratuitamente asigna el descubrimiento de la binomial con exponente entero a Pascal. Newton provee la descripción para exponente racional pero no la prueba, que fue provista tiempo después por Euler. El nombre “distribución binomial” fue acuñado por G.U. Yule en An Introduction to the Theory of Statistics (1911, p. 305).

22 S.D. Poisson (1781-1840) dijo: “La vida es buena para sólo dos cosas: descubrir matemáticas y enseñar matemáticas”.

Page 27: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.19

2.06 Distribuciones Continuas de Uso Común

En muchos experimentos en economía no puede suponerse que las variables aleatorias de interés sean discretas, por lo que se utilizan funciones continuas.

La distribución normal. Si n →∞ , la expresión de la binomial es poco práctica. De Moivre23 encuentra la función de densidad que resulta en este caso:

f z = 1 2

1

e−z−Ez 2

22

(2.21)

es decir, la distribución normal24. Esta distribución es la base de muchos tests y procedimientos de estimación que usaremos en este curso.

La distribución normal estándar. La distribución normal se estandariza fácilmente:

si z↝N ,2 ⇒ x=z−↝ N 0,1 (2.22)

La distribución Chi cuadrado. Esta distribución deriva de la distribución normal.

si x ↝N 0,1⇒ y=x 2↝ χ² 1 (2.23)

Una propiedad de esta función es que sumas de variables que se distribuyen χ² también se distribuyen χ²:

si x 1↝ χ² 1 y x 2↝ χ² 1 entonces y=x 1x 2↝ χ² 2 (2.24)

23 De Moivre descubrió en 1733 esta distribución y la incluyó en su libro The Doctrine of Chance de 1755. Laplace extendió y generalizó este resultado en 1812 (Theorie Analytique de Probabilités), por lo que el resultado se conoce como Teorema de De Moivre y Laplace.

24 El nombre de la distribución normal parece haber sido acuñado en los años 1870 independientemente por Charles S. Peirce (Report to the US Coast Guard, 1873), Wilhelm Lexis (Theorie der Massenerscheinungen in der menschlichen Gesellschaft, 1877) y Francis Galton (Typical Laws of Heredity, 1877). De los tres, Galton fue el más influyente y popularizó el nombre de curva normal a partir de su libro Natural Inheritence (1889).

Page 28: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.20

La distribución F25

si y↝ χ² m y w ↝ χ² n ⇒ x= y /mw /n ↝ F m , n (2.25)

La distribucion “t” de Student26

si z↝N 0,1 y w↝ χ² n ⇒ x= zw /n

↝ t n (2.26)

La distribución de Cauchy estándar27

si X 1 y X 2↝ N 0,1 independientes , z=X 1

X 2↝ f z = 1

1

1z 2 (2.27)

La distribución logística28

F z =[1ez−a

b ]−1

(2.28)

La Figura 2.5 señala la relación que hay entre las distintas funciones de distribución.

25 La distribución F fue tabulada en 1934 por G. W. Snedecor en “Calculation and Interpretation of Analysis of Variance and Covariance”. Aunque a veces se le llama distribución F de Snedecor, la letra F que la designa fue escogida en homenaje a Fischer que usó una distribución muy similar llamada z.

26 "Student" fue el seudónimo que usó William Sealy Gosset (1876-1937) en su trabajo de 1908 "The Probable Error of a Mean", Biometrika, 6:1-25. Gosset le escribió a R. A. Fisher, "I am sending you a copy of Student's Tables as you are the only man that's ever likely to use them!".

27 La paternidad de la distribución de Cauchy es discutible. Algunos se la atribuyen sobre la base de una notas presentadas a la Académie de Sciences en 1853, pero no publicadas. S. M. Stigler señala que Poisson ya había estudiado la distribución en 1824.

28 Al parecer, el primero en usar el término “logística” fue Edward Wright (ca. 1558-1615), aunque es posible que se refiriese a una función logarítmica y no a la distribución logística propiamente tal. La derivación formal se debe a P.F. Verhulst (1845): “La Loi d' Accroissement de la Population”, Nouveaux Memoirs de lÁcadémie Royale de Sciences et Belles-Lettres de Bruxelles, 18, 1-59.

Page 29: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.21

Figura 2.5

Page 30: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.22

2.07 Distribuciones Conjuntas

Es posible que dos (o más) variables puedan ser descritas por una función de probabilidades conjunta

P a≤x≤b ; c≤ y≤d = ∑a≤x≤b

∑c≤ y≤d

f x , y

=∫a

b

∫c

d

f x , y dxdy (2.29)

El objetivo principal de las ciencias sociales y la economía en particular es describir (i.e., modelar) distribuciones conjuntas. La distribución conjunta permite asignar probabilidades de ocurrencia a fenómenos económicos multidimensionales, es decir, nos permite modelar la relación entre variables que es lo que caracteriza el análisis económico. Es importante notar que de la existencia de una distribución conjunta no se deriva que exista una relación causal o de dependencia entre las variables. Simplemente verifica la existencia de eventos que suceden simultáneamente, lo que no implica que no pueda existir alguna relación entre ellos.

2.08 Distribuciones Marginales

Suponiendo que existe la densidad conjunta de dos o más variables, resulta natural preguntarse: ¿qué probabilidad tiene x (o y) de ocurrir, independientemente de los valores que tome la o las otras variables y (o x)?

Es decir, tomamos la distribución conjunta y sumamos sobre todos los posibles valores de “la o las otras variables”. En un caso de dos variables:

f x x =∑y

f x , y

=∫

yf x , y dy

(2.30)

Asociadas a la distribución marginal habrá, naturalmente, una esperanza marginal, varianza marginal, etc.

Page 31: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.23

De la existencia de las distribuciones marginales se deriva el concepto de independencia estadística: “Si la densidad conjunta es el producto de las marginales, las variables son independientes”. El siguiente ejemplo utiliza el concepto de independencia estadística de un modo interesante.

Usando variables independientes resulta directo demostrar la utilidad de la función generatriz de momentos. Suponga que x e y son variables aleatorias independientes normales, entonces el proceso z = x+y cumple la siguiente propiedad:

m x t =ex t

x2 t 2

2 m y t =e y t

y2 t 2

2

m x y t =ex t

x2 t 2

2 ⋅e y t

y2 t 2

2 =ex y t

x2 y

2 t2

2

es decir, z se distribuye como una normal con media x y y varianza x2 y

2 .

Paradoja del Chevalier de Mere

En una carta de Pascal a Fermat (29/07/1654) se presenta el siguiente problema propuesto por el Sr. de Méré, un noble francés que se apasionó por los juegos de azar. Empíricamente, de Méré observó que la probabilidad de sacar al menos un 6 en 4 lanzamientos de un dado es más que ½, en tanto que la probabilidad de sacar dos 6 en 24 lanzamientos es menor que ½. En su razonamiento, de Méré concluyó que ambas debian ser iguales: 6 es a 4 como 36 es a 24.

Naturalmente, la probabilidad de obtener un 6 en 1 lanzamiento de un dado es 1/6. Debido a que los eventos son independientes, la probabilidad de obtener un 6 en n lanzamientos es (1/6)n. Así, la probabilidad de no obtener 1 seis en 4 lanzamientos es (5/6)n, por lo que la probabilidad de obtener al menos 1 seis en 4 lanzamientos es 1-(5/6)4=0.5177. Por otro lado, y usando un razonamiento similar, la probabilidad de obtener un doble 6 en 1 lanzamiento de dos dados es 1/36. Nuevamente, por independencia estadística, la probabilidad de obtener un doble 6 en n lanzamientos de dos dados es (1/36)n, por lo que la probabilidad de no obtener 1 doble seis en n lanzamientos es (35/36)n. Finalmente, la probabilidad de obtener al menos 1 doble seis en 24 lanzamientos es 1-(35/36)24=0.4914. De Méré estaba en lo correcto desde el punto de vista empírico pero su razonamiento era erróneo.

Page 32: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.24

2.09 Distribuciones Condicionales

Para ciencias sociales, la distribución más interesante es la condicional, es decir aquella que describe cuál es la probabilidad que ocurra y condicional en que x tome algún cierto valor y que denotamos por f y | x .

Se puede demostrar que f y | x = f x , y f x x , y . Para ello, definiremos primero la

noción de probabilidad condicional. Supongamos que en el experimento de tirar dos monedas, sabemos que el primer tiro fue cara. ¿Cambia esta información la estructura de probabilidades? Primero, note que ahora el espacio de eventos se reduce a SA={{CC}, {CS}}. Por lo tanto, el σ-álgebra asociado a SA es ahora ℱ A={∅ ,{S },{CC },{SS }} . Entonces, tienen que cambiar las probabilidades P · , siendo ahora:

PA({ ∅ })=0 PA({SA})=1 PA({CC})= ½ PA({CS})= ½

El conocimiento a-priori que “ya salió una cara” nos lleva del espacio de probabilidad S ,ℱ , P · al espacio de probabilidad condicional S A ,ℱ A ,P A · .

Definiremos la probabilidad condicional como:

P A A1=P A1| A=P A1∩A

P A(2.31)

si y sólo si P A 0 . Si ahora escogemos A1=X 1 S ≤ x 1 –de forma análoga a como definimos la función de densidad– obtenemos la Función de Densidad Condicional que describimos más arriba.

Resulta clave entender que la media condicional de y en x, E[ y |x ] , es exactamente el concepto de una regresión lineal en econometría. Suponga que el experimento puede ser descrito por la siguiente relación: y i=x ii con i una variable aleatoria llamada ruido blanco, cuyas características son E[]=0 y cov [i , j ]=2 para i=j y 0 en todo otro caso. Entonces E[ y | x ]=x .

Un segunda propiedad interesante se deriva al aplicar el operador varianza condicional al modelo anterior. Un poco de álgebra permite obtener:

V [ y |x ]=E [ y 2 | x ]−E [ y |x ]2 (2.32)

Esta es la función cedástica.

Page 33: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.25

De la ecuación (2.32) y usando la ley de las esperanzas iteradas E[ y ]=Ex [E [ y | x ]] , se puede obtener la siguiente expresión (denominada

descomposición de varianza) V [ y ]=V x [E y | x ]Ex [V y |x ] . Esta expresión indica que la variación total de los datos puede ser entendida –o descompuesta— como la variación de la media condicional más la variación de las realizaciones alrededor de la media condicional. De esta descomposición se desprende que:

Ex [V y |x ]=V [ y ]−V x [E y |x ] (2.33)

es decir, la incertidumbre asociada a la predicción hecha sobre la base de una regresión es menor que aquella de los datos.29

También se define la bondad de ajuste de una regresión como la relación entre la varianza de la media condicional (es decir, modelada) respecto de la varianza total del fenómeno:

R 2=V x [E y |x ]

V [ y ] (2.34)

Note que la bondad de ajuste depende de la media condicional, es decir, depende como se modele la media condicional. Ello pone límites al uso de la bondad de ajuste como instrumento de selección de modelos econométricos.

Más adelante volveremos a revisar conceptos tales como función cedástica, bondad de ajuste, media condicional, etc. en el contexto del modelo de regresión lineal. Es importante, a estas alturas, comprender que dichos conceptos no se restringen al método de mínimos cuadrados, sino que son de aplicación general.

29 Nuevamente, “Errors using inadequate data are much less than those using no data at all” (C. Babbage).

Page 34: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.26

Apéndice A: Ejercicios

1. Dé un ejemplo de un experimento en economía que pueda ser descrito por una distribución normal, para las cuales usted estimó su media y varianza. Justifique cuidadosamente cada uno de sus pasos.

2. Usando la definición de σ-álgebra asociado a S, demuestre que el evento seguro y el evento imposible pertenecen al σ-álgebra asociado.

3. A la luz de la axiomatización de Kolmogorov de las probabilidades, critique la siguiente definición de variable aleatoria: Función cuyo rango de valores es conocido ex-ante pero el valor que toma es sólo conocido ex-post.

4. Identifique las principales limitaciones de las definiciones de probabilidad clásica (de Moivre, 1718) y frecuentista (von Mises, 1919). Explique cómo el enfoque axiomático de probabilidades de Kolmogorov (1933) da cuenta de dichas limitaciones.

5. En el ejemplo 2.3 del texto, ¿es A={SC ,CS } un σ-álgebra?

6. Use la siguiente distribución conjunta f(x,y) para demostrar que aunque la correlación entre x e y es cero, no son independientes: f(-1,1)=f(0,0) = f(1,1) = .⅓

7. Considere la distribución conjunta Z(M1, IPC), donde M1 es el dinero y IPC un índice de precios. La distribución marginal del dinero es normal con media x y varianza unitaria, en tanto que la distribución marginal del índice de precios es también normal con media y y varianza igual a . Use la función característica para encontrar la distribución de Z, suponiendo que ambas variables son independientes.

8. Sea una muestra de n observaciones con distribución f y =[1 y 2]−1 . Demuestre que el valor esperado no existe. ¿Existe su varianza?

9. Demuestre que el coeficiente de correlación es invariante ante transformaciones lineales (afines) de los datos. Es decir, si r 1 y r 2 son los coeficientes de correlación de los datos { yn , x n} para las transformaciones abx i ; cdy i , i=1 ... n, con a, b, c, y d constantes no-negativas conocidas, entonces es cierto que r 1=r 2 .

10. Considere una variable aleatoria {x} con distribución normal de media μ y desviación estándar σ. Encuentre c –en función de la esperanza y la varianza– tal que P xc =2P x ≥c

Page 35: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

2.27

11. Suponga que tiene una muestra con 1.000 datos que provienen de una normal con media y varianzas desconocidas (μ y σ²). Suponga que un cuarto de los datos es menos de 2 y que tres cuartos de ellos son menores a 4. Obtenga una expresión para estimar μ y σ².

12. Si la función de densidad de y es y2 1− y 3 para y definido entre 0 y 1: ¿qué número es α y cuál es la probabilidad de que y esté entre 0 y ½?

13. Considere el sorteo Kino30 (que excluye el super número) como un experimento aleatorio sujeto a la siguiente regla: En la cartilla de juego, usted debe escoger 7ℰ números, que se eligen ambos de entre 30 alternativas. Si acierta a los 7 números, ya ganó el pozo Kino. (Note que en cada sorteo se sacan 7 números de 1 a 30 sin reemplazo.)• Describa el espacio muestral, S.

• Describa el σ-álgebra asociado a S.

• Compute la probabilidad de ganar si el experimento es sin reemplazo.

• ¿Es la probabilidad que Usted computó congruente con la información que entrega la Lotería en la misma página web? Información adicional: Sorteos realizados a la fecha: 922, Ganadores con 7 aciertos: 40.

14. Suponga que usted debe reorganizar el poder judicial creando un sistema de incentivos que promueva eficiencia y ecuanimidad. Hay seis tipos de jueces (honestos, deshonestos, ineptos, eficientes, flojos, trabajadores) y cada juez sólo tiene dos de estos atributos. Se desea estimar cuántos jueces deben ser removidos. Considere que hay n jueces, pero usted sólo puede estudiar dos jueces cada día, los que permanecen incógnitos (muestra con reemplazo).• Construya el modelo probabilístico que describe el fenómeno. Defina

claramente el experimento aleatorio y el espacio de probabilidades.

• Construya el modelo muestral asociado.

• Determine un criterio de remoción razonable. ¿cómo podría estimar cuántos jueces hay que remover?

15. El psicólogo Tversky y sus colegas observan que cerca de 80% de las personas preferirán la respuesta (a) a la siguiente pregunta: En un pueblo hay dos hospitales. En el grande nacen unos 45 niños cada día; en el chico, 15. Aunque a nivel nacional la proporción de hombres es 50%, en cada hospital y en cualquier día dicha proporción puede ser más o menos que 50%. Al final del año, ¿cuál de los dos hospitales tendrá el mayor número de días en los que dicha proporción es más que 60%? (a) el hospital grande, (b) el hospital chico,y (c) ninguno (el número de días será igual). ¿Puede usted decir por qué la gente se equivoca tanto al responder?

30 “I've heard that the government wants to put a tax on the mathematically ignorant. Funny, I thought that's what the lottery was!” Gallagher

Page 36: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

Capítulo 3Elementos de Inferencia Estadística

Es muy cierto que cuando no está en nuestro poder determinar lo que es verdadero,debemos actuar de acuerdo a lo que es más probable.

R. Descartes, Discurso del Método, 1637

En el capítulo anterior hemos discutido la estructura axiomática de las probabilidades que será la base del análisis de inferencia estadística. Resulta natural preguntarse por qué es necesario “inferir”.1 Después de todo, si tenemos un conjunto de observaciones podemos describirlas usando alguna función de probabilidad o, en el peor de los casos, usando un histograma.

3.01 Modelo probabilístico, modelo muestral y modelo estadístico

La lógica de razonar hasta ahora ha sido la siguiente. Utilizamos el enfoque axiomático de probabilidades para formalizar el concepto de experimento aleatorio ( )ℰ definido en el espacio de probabilidades S ,ℱ , P · . La incertidumbre respecto del resultado particular del experimento se resume en P · . Para evitar la rigidez de esta formalización utilizamos un espacio equivalente ( , ℝ B , P x · ), en el que definimos variables aleatorias, x. Escogiendo apropiadamente los eventos asociados a x de la forma (−∞ , x ] podemos construir una función punto que describa congruentemente la

probabilidad de ocurrencia de los eventos en x y que llamamos la función de distribución, F ⋅ :

P s : X s∈(−∞ , x ] , s∈S =Px (−∞ , x ]=F x (3.1)

Esta función puede ser simplificada y hecha aún más flexible con la ayuda de la

función de densidad, la que cumple F x =∫−∞

x

f u du . La ventaja de usar f u es que

ella puede ser descrita de manera algebraica. Esto nos permite sustituir la incertidumbre asociada al experimento por incertidumbre respecto de los parámetros ℰ que, dentro de una familia de formas funcionales, identifican una función de densidad específica a la que denominamos f x , .

1 Inferir viende del latín “inferre” que significa “causar o llevar en sí”. El sentido popular de “extraer una conclusión” es probablemente del siglo 16.

Page 37: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.2

Finalmente, definimos el modelo probabilístico ={ f x; ,∈} a la familia de funciones paramétricas de probabilidad (p.e., normal, Poisson, etc.) que se usa para describir las observaciones, x. Se presume que el vector de parámetros pertenece al espacio de los parámetros (típicamente un múltiplo de la recta real).

La intuición es directa: dado un conjunto de observaciones, x, cuando se postula un modelo probabilístico que las describa basado en una distribución f x , , se ha eliminado la incertidumbre respecto del verdadero mecanismo que genera los datos (PGD), reemplazándola por incertidumbre respecto de la parametrización adecuada de la función f x , .

El objetivo de la inferencia estadística es precisamente identificar y hacer tests de hipótesis sobre aquel * que, con algún criterio, sea elegido para que f x ,* describa adecuadamente los datos. Para la inferencia se usarán datos de corte transversal, de series de tiempo, o una combinación de ambos tipos de datos que llamamos datos de panel.

Note la importante diferencia entre la descripción de datos y la inferencia estadística. La descripción de las observaciones puede ser hecha por medio de funciones de distribución escogidas a su vez mediante el análisis de la frecuencia de los datos. Por su lado, la inferencia estadística pretende identificar (aproximarse) el mecanismo que genera los datos (y no los datos mismos). Es decir, el objetivo de la inferencia es hacer un modelo general.

La inferencia estadística parte de la base que existe un modelo probabilístico ={ f x; ,∈} al que se le añade un segundo modelo, llamado modelo muestral,

que es el que provee la conexión entre el modelo probabilístico y las observaciones. Para ello definiremos primero algunos conceptos necesarios:

Def. 3.1 Una muestra es un conjunto de variables aleatorias x1 , x2 , cuyas funciones de densidad coinciden con la función de densidad f x , postulada por el modelo probabilístico.

Note que este significado está lejos del uso cotidiano de la palabra muestra, en particular porque no se refiere a datos observados. De la definición se deduce que una muestra en el sentido coloquial –una colección de números– en realidad corresponde a una de las muchas posibles realizaciones del conjunto de variables aleatorias que componen la muestra. La muestra es, entonces, un segundo experimento, diseñado para complementar el experimento descrito por el modelo probabilístico.

Así, dado que la muestra es un conjunto de variables aleatorias, ella deberá tener una distribución:

Page 38: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.3

Def. 3.2 La distribución de la muestra x=x1 , x2 , , xn se define como la distribución conjunta de la variables aleatorias {x1 , x2 , , xn} denominada por:

f {x1 , x2 , , xn};≡ f x ; (3.2)

Note que la distribución muestral incluye dos elementos: la información respecto de la probabilidad y aquella sobre la muestra. Habrá, por tanto, dos fuentes de incertidumbre. Así, la forma que tome f x ; depende crucialmente del muestreo. La manera más intuititiva de pensar en el muestreo se deriva del mismo experimento aleatorio, .ℰ

Resulta conveniente discutir la naturaleza de las muestras para identificar algunas de sus características y, más importante aún, para saber el tipo de información contenida en ellas.

Def. 3.3 Un conjunto de variables aleatorias {x1 , x2 , , xn} es llamado una muestra aleatoria de tamaño n de f x ; si dichas variables aleatorias provienen de una misma distribución (población) y son independientes, i.i.d. En este caso, la muestra queda descrita por:

f x1 , x2 , , xn ;=∏i=1

n

f xi ;=[ f xi ;]n (3.3)

La primera igualdad proviene de la noción de independencia estadística que ya vimos y la segunda de la condición que las variables están distribuidas idénticamente.

Cuando las variables aleatorias no se distribuyen idénticamente, la muestra es

llamada muestra independiente y su distribución es f x 1 , x 2 , ... , x n ; =∏i=1

n

f x i ; . Si las

variables aleatorias tampoco son independientes, la muestra es llamada muestra no aleatoria y la única descripción posible de la función de probabilidad que dió origen a las

observaciones es la distribución condicional f x i | x 1 ,x 2 , ... , x n ;=∏i=1

n

f x i | x 1 , x 2 , ... ; .

La combinación de los modelos probabilístico y muestral permite definir el modelo estadístico, que será la base de todo el análisis econométrico que se desarrolla posteriormente:

Page 39: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.4

Def. 3.4 Un modelo estadístico se define como aquel que incluye:

● un modelo probabilístico, ={ f x ; ,∈}

● un modelo muestral, x=x1 , x2 , , xn

Obviamente, los dos modelos están interrelacionados, pues no resulta razonable suponer un modelo del tipo ={ f x; ,∈} si la muestra no es aleatoria. En tal caso, habría que proponer un modelo para la distribución conjunta ={ f x1 , x2 , , x n ; ,∈} .

El modelo estadístico y los datos observados nos permiten responder varios tipos de preguntas:

1. ¿Es el modelo estadístico postulado congruente con los datos? Este tipo de pregunta es también conocido como análisis de especificación del modelo2.

2. Suponiendo que el modelo estadístico es congruente con los datos, ¿qué podemos inferir de los parámetros?

a) ¿Podemos reducir la incertidumbre sobre reduciendo el espacio de parámetros a 0 donde 0 es un subconjunto de ? Llamada región de confianza de la estimación.

b) ¿Podemos reducir la incertidumbre sobre escogiendo un valor particular en –llamado – que sea el más representativo de ? Estimación punto.

c) ¿Podemos responder la pregunta si pertenece a algún subconjunto de ? Esta es una amplia área de análisis colectivamente denominada prueba de hipótesis.

3. Suponiendo que hemos escogido , ¿qué podemos inferir de las siguientes observaciones del mecanismo generador de datos? Esta área –predicción— es una de los principales objetivos del análisis econométrico.

2 “El hombre mejor dotado plantea mal el problema que no comprende”, Fulcanelli, Las Moradas Filosofales, 1929.

Page 40: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.5

3.02 Estadísticos muestrales

Sobre la base del modelo estadístico y de los datos observados podemos construir estadísticos, definidos como:

Def. 3.5 Un estadístico es una función de Borel tal que q ⋅ : X →ℝ , donde X es el espacio de las observaciones. Note que q ⋅ no depende de parámetros desconocidos.

Existen bastantes estadísticos de uso común, entre ellos la media muestral

definida por x=1n∑i x i y la varianza muestral, Var [ x ]=

1n−1∑i [ x i−x ]2 . En términos

generales, una parte sustancial del análisis econométrico se realiza sobre la base de estadísticos. Debido a que éstos son funciones de variables aleatorias, deberemos derivar sus distribuciones, cosa que usualmente no es fácil.

Podemos generalizar la definición de estadístico para el caso multivariado haciendo:

Def. 3.5' qm⋅ : X →ℝ m m≥1 donde qm⋅ es una función vector.

3.03 Distribución de la media muestral

Si {x1 , x2 , , xn} es una muestra aleatoria extraída de una población con media y varianza 2 , entonces x es una variable aleatoria con media y varianza 2 /n .

La demostración es directa, la intuición también:

x=1n∑i x i (3.4)

entonces

E [x ]=1n∑i =

Var [x ]=1n2 Var [∑

ix i]=

1n2∑

i2=

2

n

(3.5)

Page 41: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.6

Note que la varianza de la suma converge a cero cuando n→∞ . Este resultado es intuitivo pues la media muestral tiene que converger a la media de la población cuando la información muestral se aproxima a la población. Nóte, además, que estos resultados no dependen de ningún supuesto de distribución de las variables aleatorias x.

3.04 Características deseables de los estimadores en muestra finita

Debido tanto a nuestro interés por aproximarnos al proceso generador de datos con precisión y eficiencia, como al objetivo de responder al tipo de pregunta planteado más arriba, tendremos que estudiar para cada estadístico algunas características deseables. Aunque no son las únicas características, las dos más importantes son:

Estimador insesgado E [ ]=∫−∞

∞ f d =

Estimador eficiente Menor V [ ] posible

Naturalmente, no puede esperarse que todos los estimadores sean insesgados y de varianza mínima. Por ello es usual preguntarse si para un determinado problema es preferible tener un estimador con sesgo pero eficiente o insesgado pero ineficiente. Un criterio posible para evaluar este trade-off es estudiar la estructura del error cuadrático medio ECM, que se define como:

ECM=E [−2]=Var []sesgo [ ]2 (3.6)

La existencia de un trade-off nos hace usualmente preguntarnos si existe algún estimador que sea “óptimo” (es decir, insesgado y de varianza mínima). Bajo ciertas condiciones, el estimador de máxima verosimilitud resulta ser óptimo.

Consideremos que tenemos una muestra de n observaciones de la variable aleatoria x tal que sus componentes son independientes e idénticamente distribuidos. Como señalamos, si cada dato viene de f x i , , la distribución conjunta de la muestra es:

ℒ = f x1 , x2 , , xn ;=∏i=1

n

f xi ;=[ f x ;]n (3.7)

donde es llamada la función de verosimilitud. Esta función mide la probabilidad queℒ los datos que disponemos vengan de un mismo modelo probabilístico.

Page 42: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.7

El estimador de máxima verosimilitud será aquel * que hace máxima la probabilidad que los datos provengan de f x , . Este estimador es formidable, en el sentido que posee cuatro características importantes: es insesgado, es de varianza mínima, es asintóticamente normal y es invariante para transformaciones afines. Más adelante desarrollamos in extenso este estimador, estudiando sus propiedades y las condiciones necesarias para su existencia.

Ejemplo:

Supongamos que los datos son tomados independientemente y corresponden a “robos de billeteras por mes en el campus San Joaquín”. La muestra X es: {2,0,3,4,1,3,0,2,3,4,3,5}. Si creemos que la distribución de probabilidades que mejor representa los datos es alguna de la familia de la Poisson. Entonces:

f x i ;=e−i

x

xi !

En este caso particular, la función de verosimilitud es:

f x1 , x2 , , x12 ;=∏i=1

12 e−ix

x i!=e−12

∑i=1

10

x i

∏i=1

12

xi !=

e−1230

358,318,080

Podemos optimizar la ecuación anterior pero resulta más fácil optimizar el logaritmo de la función de verosimilitud, ya que éste es una transformación monótona. Entonces,

log f x1 , x2 , , x12; =−1230 log−log 358,318,080

Buscamos aquel que hace más probable que los datos vengan de una Poisson. Lo que se resuelve de manera elemental mediante cálculo para obtener =2,5 . Se debe comprobar que la segunda derivada sea negativa, para asegurar que es un máximo.

Page 43: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.8

3.05 Límite de Cramer-Rao3

Suponiendo que la función de densidad satisface ciertas restricciones –que estudiamos más adelante–, la varianza de un estimador lineal insesgado de un parámetro es mayor o igual a:4

[ I n]−1=−E [ ∂2 ln L

∂ 2 ]−1

=−E [∂ ln L∂

2]−1

(3.8)

Un estimador que alcanza este límite inferior es llamado completamente eficiente. El inverso de la cota de Cramer-Rao es llamado número informacional de Fisher y se le designa por I n . La ecuación anterior requiere que se cumpla el teorema de Lindberg y Feller que ya vamos a estudiar y demostrar. En palabras sencillas, las condiciones requeridas para que sea válido son:

● El conjunto de eventos que cubre la función de probabilidad no depende de .

● Para cualquier parámetro , las derivadas de la función de verosimilitud existen y, en particular, las segundas derivadas son finitas.

Por ejemplo, el límite Crámer-Rao en el ejemplo de la Poisson sería:

∂2log L ∂2 =

−∑ix i

2 =−n2

(3.9)

La utilidad del límite de Crámer-Rao es que si algún estimador insesgado alcanza dicho límite, entonces éste será óptimo y no será necesario buscar otro. Note que en el caso multivariado, I es una matriz, con valores fuera de la diagonal, posiblemente distintos de cero.

Un segundo concepto relacionado de gran utilidad es el de estadístico suficiente. Intuitivamente, un estadístico suficiente condensa la información de n variables

3 Esta desigualdad fue obtenida independientemente por H. Cramér (1946 Mathematical Methods of Statistics) y C. R. Rao (1945 Bull. Calcutta Math. Soc. 37, 81-91). L. J. Savage (Foundations of Statistics, 1954) señala, no obstante, que M. Fréchet (1943) y G. Darmois (1945) habían propuesto tentativamente el nombre "desigualdad informacional” para la misma ecuación. Predeciblemente, sólo los franceses usan “desigualdad de Fréchet-Darmois-Cramér-Rao”.

4 Note las diferencias entre ambas expresiones. Más adelante mostramos por qué ambos paréntesis son iguales.

Page 44: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.9

aleatorias en una sola variable aleatoria. Si no hay pérdida de información en esa reducción, el estadístico efectivamente describe los datos de la muestra. Un estadístico . es suficiente si al hacer inferencias sobre estamos indiferentes entre usar la

colección de variables aleatorias X o x . Obviamente preferimos x por ser de menor dimensión que X. Más formalmente, el teorema de factorización de Neyman-Fisher es:

Def. 3.6 Un estadístico τ ⋅ : X →ℝ es llamado suficiente para si la distribución condicional de f x | τ x =τ es independiente de , es decir no aparece en f x | τ x =τ y el dominio de f(.) no envuelve a .

3.06 Elementos de teoría asintótica: convergencia

Usualmente la distribución de un estimador es desconocida. Para poder hacer inferencias utilizamos elementos de la teoría asintótica, que nos permiten estudiar las propiedades de los estimadores cuando la muestra es de tamaño infinito.

A lo largo de este capítulo vamos a usar dos herramientas: Leyes de los Grandes Números (en términos generales describen qué tan lejos está de ) y Teoremas del Límite Central (que permiten hacer inferencias sobre usando ).5 Un primer paso será estudiar el concepto de convergencia, que en nuestro caso es análogo pero no equivalente al concepto de convergencia usado en series y progresiones.

Def. 3.7: Una secuencia es una colección infinita de objetos ordenados y contables. Podemos tener secuencias de números, vectores, matrices, etc.

La secuencia {a t} converge a a si ε>0 existe N tal que T>N, ∀ ∀ ∥aT - a < ε donde∥ . es la distancia Euclideana. Escribimos∥ ∥

limT →∞ aT=a ó aT→a (3.10)

5 El nombre de esta familia de teoremas fue acuñado por George Polya (1887-1985) en "Über den zentralen Grenzwertsatz der Wahrscheinlichkeitsrechnung und das Momentenproblem", (Mathematische Zeitschrift, 8 (1920), 171-181). Posiblemente, Polya usó el término "Zentral" para indicar que su importancia es central en el análisis. No obstante, el trabajo de Polya es de tercera generación. La primera generación la encabeza De Moivre en los años 1730 cuando deriva la distribución normal. La segunda generación corresponde a los trabajos sobre la distribución normal del siglo 19 de Laplace, Poisson, Cauchy y otros. La tercera generación es aquella que encabeza Chebyshev y sus estudiantes Markov y Lyapounov.

Page 45: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.10

Este tipo de convergencia no es el que nos interesa en estadística; no es la secuencia de valores o realizaciones de un experimento aleatorio sino la convergencia de las probabilidades asociadas a la variable aleatoria. Así, hay varios modos de convergencia de interés para la modelación econométrica. Ya nos hemos referido a dos de ellos al revisar las distribuciones Bernoulli y Normal, que en sí son dos límites que reflejan distintos modos de convergencia.

Bernouilli demostró que si Sn es el número de ocurrencias de un evento A en n intentos de un experimento aleatorio y ℰ p=P A es la probabilidad de ocurrencia de A en cada intento, entonces para 0 :

limn∞ Pr∣S n

n− p∣=1 (3.11)

es decir, el límite de la probabilidad del evento ∣S n/n− p∣ se acerca a 1 cuando n→∞ .

Prueba: Si las variables aleatorias siguen una Bernoulli, su suma sigue una Binomial:

P Sn=r =nr pr 1− pn−r

entonces se cumple:

P ∣S n−np∣≥ n= ∑∣r−np∣≥ n nr pr 1− pn−r≤ 1

n22 ∑∣r−np∣≥ n

r−np 2nr pr1− pn−r

= 1n22 E Sn−np

2= 1n22V S n

= 1n22np1− p= p 1−p

n2 ▄

Por otro lado, De Moivre y Laplace encontraron que cuando ∣S n/n− p∣ es multiplicado por el inverso de la desviación estándar y n→∞ , el resultado se aproxima a una distribución normal.

lim n→∞ Pr ∣Sn

n− p∣

[ p1−pn ]

½≤z=∫−∞z 12

e−½ u2

du (3.12)

Page 46: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.11

Estos dos teoremas proponen –como veremos más adelante– distintos modos de convergencia. Además, tienen algunos supuestos que deben cumplirse y vale la pena revisar antes de seguir avanzando:

1. Sn=∑ x i , es decir, Sn corresponde a una suma de variables aleatorias.

2. x i=1 si el evento A ocurre y x i=0 si no ocurre, es decir, x i es una variable aleatoria que se distribuyen Bernoulli y, por lo tanto, Sn es una variable aleatoria que se distribuye Binomial.

3. Las variables aleatorias x i son independientes.

4. f x1= f x2=⋯= f xn , es decir, las variables aleatorias x i están idénticamente distribuidas con Pr xi=1=p y Pr xi=0=1− p para todo x i .

5. Debido a que E Sn /n=p , entonces el análisis se hace considerando las diferencias entre una variable aleatoria Sn y su valor esperado. Es decir, se refiere a la dispersión de x.

La diferencia más importante entre ambos teoremas, sin embargo, tiene que ver con el tipo de convergencia implícita en cada una: mientras Bernoulli se concentra en convergencia en probabilidad, De Moivre y Laplace usan el concepto de convergencia en distribución. En lo que sigue revisamos varias formas de convergencia.

Def. 3.8 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , converge en probabilidad si:

lim n→∞ Pr ∣xn−x∣=1 ∀ (3.13)

lo que escribimos plim xn= x . A veces se escribe xnp x .

Def. 3.9 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , converge en distribución a x si la función de distribución F nx converge a la distribución de F x para todo punto de F (ver Figura 3.2).

limn →∞ Fn x=F x (3.14)

Escribimos xnd x y llamamos a F la distribución límite de xn .

Page 47: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.12

Figura 3.2Convergencia en distribución

Def. 3.10 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , converge en media cuadrática a x si:

limn →∞ E xn− x2=0 (3.15)

lo que escribimos xnm x .

Def. 3.11 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , converge casi seguramente a x si:

Pr lim n→∞ xn= x=1 (3.16)

lo que escribimos xna.s. x .6

6 Suponga que el espacio muestral S está definido en el intervalo [0,1] con distribución uniforme. Suponga la siguiente variable aleatoria X n s =s s n y X s = s . Entonces, para todo S ∈ [ 0,1 ) , s n →0 cuando n→∞ y Xn(s)→X(s). Sin embargo, X n 1=2 para todo n y no converge a X(1). Como la convergencia

ocurre en [0,1) y P([0,1))=1, entonces Xn→X almost surely.

N=100

N=250

N=500

N=50

P

Page 48: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.13

La relación entre las distintas formas de convegencia puede sintetizarse en el siguiente diagrama.

La demostración de estas relaciones es directa aunque algo tediosa.

Teorema 1: E xn2→0⇒ x n

p 0

Demostración

E xn2=∫

−∞

x2dF nx

= ∫x | x2≥ 2

x2dF nx ∫x | x22

x2dF nx ≥ 2∫S

x2dF nx donde S= x | x 2≥ 2

Tomando la ultima integral

∫Sx2dF nx =∫

−∞

dF nx ∫

dF nx =F n−[1F n]

=P xn−P xn≥ ≥ P xn2

Entonces:

P xn2≤

E xn2

2

Así, si E xn2→0 , entonces xn converge en probabilidad a cero.

Teorema 2: xnm x⇒ xn

p x

Demostración: reemplace xn por xn−x en el Teorema 1.

Page 49: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.14

3.07 Elementos de teoría asintótica: leyes débiles de grandes números

A principios de 1800, S. Poisson7 se dió cuenta que el supuesto 4 de Bernoulli –distribución idéntica– no resultaba fundamental para obtener los resultados de convergencia.

Teorema de Poisson: Sea {xn} una secuencia de variables aleatorias independientes tipo Bernoulli con Pr x i=1= p y Pr x i=0=1− p , para todo x i , entonces para cualquier ε>0

lim n→∞ Pr∣S n

n−1n∑i=1

n

pi∣=1 (3.17)

Prueba: La manera más corta de probar este teorema es usar la función característica. Sea X i

t =E [ e itx ] la función característica de xi, una variable aleatoria que se distribuye con media μ y varianza finita. La expansión de la función

característica alrededor de t=0 es x it =1 it 1

it 2

2 !2

it 3

3 !3⋯ ,

por lo que la función característica de x in

es

x i/ n t =1it n1−

t 2

2 ! n2 2o1 /n2 . Entonces, la función característica de

la suma 1/n∑i=1

n

xi es ∑ x i/ nt =1 it

n1−

t 2

2 ! n2 2o 1 /n2n

. Aplicando

logaritmo se obtiene log∑x i /nt =n log 1 it

n1−

t 2

2 ! n2 2o 1 /n2 . Pero

si n∞ , se puede aproximar log 1z ≈z por lo tanto

log∑ x i/ nt = it 1−

t 2

2 ! n2o 1 /n . Finalmente, tomando límite tenemos

limn∞ log∑x i /n t =it 1 . Esta es la función característica de una distribución cuya densidad está concentrada en 1= . Es decir x i

p .▄

7 “Recherches sur la Probabilité de Jugements, Principalment en Matiere Criminelle”, Comptes Rendus Hebdomadaires des Sèances de lÁcadémie de Sciences, 1, 473-494, 1835.

Page 50: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.15

P. Chebyshev (1887)8 se dió cuenta que, en realidad, no sólo el supuesto 4 era innecesario sino que el supuesto 2 tampoco ayudaba a obtener el resultado. Lo importante es que se está comparando una suma de variables aleatorias con su media (valor esperado).

Teo. de Chebyshev: Sea {xn} una secuencia de variables aleatorias con media y varianza σ²c∞ y sean c y ε constantes, entonces para todo ε>0

lim n→∞ Pr∣1n∑i=1

n

x i−1n∑i=1

n

i∣=1 (3.18)

Para probar este teorema usamos la propiedad que las variables aleatorias x son independientes. Por ello:

Var1n∑i=1

n

x i = 1n2∑

i=1

n

i2 ≤ c

n(3.19)

Para probar el teorema (3.19), vamos a usar la desigualdad de Chebyshev:Prob[∣xn−cn∣]≤ E [ xn−cn2]/2 , pero se le aplicará a 1/n∑x i .

Antes vamos a probar la desigualdad de Chebyshev, para lo cual usamos la desigualdad de su discípulo A. Markov. Sea xn una variable aleatoria que toma valores no negativos y δ una constante, entonces:

Prob[ xn≥ ]≤E [ xn]

(3.20)

La prueba es directa. Recordemos que podemos separar la esperanza de x como:

E [ xn]=Prob[ xn]E [ xn | xn]Prob [ xn≥ ]E [ xn | xn≥] (3.21)

debido a que xn no es negativo, entonces ambos términos son no negativos. Por ello:

E [ xn]≥ Prob[ xn≥]E [ xn | xn≥] (3.22)

8 Existen numerosas formas de escribir este nombre, derivadas del uso de Tc en vez de C, i en vez de y, y ff en vez de v.

Page 51: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.16

pero la esperanza condicional debe ser mayor o igual que por definición, luego se obtiene que E [ xn]≥ Pr [ xn≥ ] . Ello prueba la desigualdad de Markov. Para probar la desigualdad de Chebyshev simplemente usamos en xn−cn en vez de xn y en vez de .

Volviendo al teorema de Chebyshev,

Pr∣1n∑i=1

n

x i−1n∑i=1

n

i∣≥ ≤ 12

∑i=1

n

i2

n2 ≤ cn2

(3.23)

pero tomando el límite cuando n→∞ de esta ecuación notamos que es cero.

lim n→∞cn2=0 , entonces lim n→∞ Pr∣1

n∑i=1

n

x i−1n∑i=1

n

i∣≥ =0 (3.24)

debido a que la probabilidad no puede ser negativa. Ello prueba el teorema de Chebyshev.

Markov9 se dió cuenta que en la prueba anterior, el supuesto que las variables x1 , x2 , , xn fueran independientes cumple un rol menor. De hecho, sólo se usa para

computar la varianza de la suma Sn :Var S n =1n²∑i=1

n

i2 . La prueba anterior sólo

requiere que Var Sn→0 cuando n→∞ . Pero la varianza de una suma es la suma de las varianzas más las covarianzas:

Var∑i=1

n

x i=∑i=1

n

Var x i∑∑i ≠ j

Cov x i , x j (3.25)

note que la doble suma de covarianzas es a lo más del mismo orden que la varianza. Por ello la condición que se necesita cumplir es que Var ∑ x converja más lento que 1/n2 para que el teorema se sostenga. Por ello, el supuesto 3 no es crucial.

Teo. de Markov: Sea {xn} una secuencia de variables aleatorias tales que 1/nVar S n→0,cuando n→∞, entonces

lim n→∞ Pr∣1n∑i=1

n

x i−1n∑i=1

n

E x i∣=1 (3.26)

9 “Über die freie Äquivalentz der geschlossenen Zöpfe.” Recueil Math. Moscu, 1935.

Page 52: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.17

No obstante, un estudiante de Markov llamado A. Kinchine10 notó que en el caso de variables aleatorias independientes e identicamente distribuidas, la condición de Markov tampoco era necesaria. Si las variables aleatorias son i.i.d., no es necesario poner restricción alguna sobre las varianzas.

Teo. de Kinchine: Sea {xn} una secuencia de variables aleatorias i.i.d., entonces la existencia de E x i= es suficiente para garantizar que

Pr ∣1n∑i=1

n

x i−∣=1 (3.27)

Pero ambos teoremas tienen distintas condiciones y no son generales. Finalmente, el teorema de Kolmogorov11 proveyó las condiciones necesarias y suficientes para que se cumpla la Ley Débil de Grandes Números (LDGN).

Teo. de Kolmogorov 1: La secuencia de variables aleatorias {xn} obedece LDGN si y sólo si:

E [S n−∑i

n

E xi]2

n2[ Sn−∑i

n

E x i]2 →0 , cuando n→∞ (3.28)

El teorema anterior requiere que [S n−∑ E x i]2 crezca más lento que n2 , de

otro modo el limite (3.28) no se desvanece cuando n crece.

10 “Recherches sur la structure des fonctions mesurables” en Fundamanta mathematica, 1927.11 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer

eds. 1933.

Page 53: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.18

3.08 Elementos de teoría asintótica: leyes fuertes de grandes números

A diferencia del caso anterior, ahora estamos interesados en convergencia casi segura. El primero en probar una ley fuerte de grandes números (LFGN) fue E. Borel en 190912.

Teo. de Borel: Si {xn} es una secuencia de variables aleatorias i.i.d. distribuidas a la Bernoulli, entonces:

Prlimn→∞

S n

n= p=1 (3.29)

es decir, el evento {s : limn→∞ S n s/n=p s∈S } tiene probabilidad 1 cuando n→∞ . Esta expresión puede ser re-escrita como:

limn →∞ Prmaxm≥ n[∣Sm

m− p∣≥ ]=0 (3.30)

de donde se puede ver la relación entre la LDGN y la LFGN. La primera se refería a

limn→∞ Pr∣S n

n−p∣=1 , pero:

∣S n

n− p∣≤ maxm≥ n∣S m

m−p∣ (3.31)

por lo tanto si alguna función cumple (3.34) cumplira con LDGN, es decir, xn

a.s. x⇒ xnp x .

A. Kolmogorov reemplaza la condición de Markov sobre las varianzas

V S n =1n2∑

i=1

n

i2→0 cuando n→∞ con una condición más fuerte:

∑k=1

∞ 1k 2 V x k ∞ (3.32)

12 “Les probabilités dénombrables et leurs applications arithmétiques”, reprinted as Note V in E. Borel, Leçons sur la Theorie de Fonctions, Gauthiers-Villars (1914), 182-216. En 1928, A.Y. Kintchine popularizó el término Ley Fuerte de los Grandes Números para distinguirlos de los teoremas a la Bernouilli basados en convergencia en probabilidad (“Sur la loi forte de grand nombres”, Comptes Rendus de lÁcadémie de Sciences, 186, p286, 1929).

Page 54: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.19

lo que le permite probar la LFGN para el caso en que las variables son simplemente aleatorias.

Teo. de Kolmogorov 2. Sea {xn} una secuencia de variables aleatorias independientes tales que existe E x i y V xi y se satisface la condición anterior, entonces:

Prlimn→∞1n∑i=1

n

[ x i−E x i]=0=1 (3.33)

Este teorema se prueba igual que la LDGN, con la salvedad que en vez de usar la desigualdad de Chebyshev se usa la desigualdad de Kolmogorov: Sean x1 , x2 , , xn variables aleatorias independientes tales que V x i = i

2∞ ∀ i , entonces para cualquier 0 :

Pr max l ≤ k≤ n∣Sk−E S k∣≥ = 12∑

i=1

n

i2 (3.34)

Más aún, si la secuencia x es i.i.d. tales que Ex i ∞ , entonces:

∑k=1

∞ Var X k

k2 =∑k=1

∞ 1k 2∫

−∞

x 2 f x dx (3.35)

lo que señala que, para tal caso, la existencia de la esperanza es una condición necesaria y suficiente para que se obtenga la LFGN.

Hemos visto algunas de las condiciones necesarias para la LDGN y LFGN. ¿Qué es lo que realmente se necesita? Para la LDGN se necesita la condición de Markov y para la LFGN se necesita la condición de Kolmogorov y ambas se refieren a que se debe restringir la V Sn para que no crezca más rápido que n2.13

La nomenclatura típica es V Sn=O n , donde O(.) significa orden de probabilidad. Orden de probabilidad es un concepto útil que viene en dos sabores: O(n) y o(n). Suponga que existen dos secuencias de números reales, a y b. La notación a n=O b n corresponde a “a es al menos del orden de bn”, en tanto que a n=o b n

corresponde a “a es de un orden menor a bn”. Formalmente,

13 Las series de tiempo integradas, que son la mayoría en macroeconomía, no cumplen esta restricción.

Page 55: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.20

a n=O bn cuando n→∞ si lima →∞∣a n∣b nK y K0

a n=o b n cuando n→∞ si lima →∞ ∣a n∣bn =0

(3.36)

por ejemplo, 12n²−4=O 1

n² y 2n 2−4=On2 =on3 .

3.09 Propiedades de los distintos tipos de convergencia

Algunas propiedades interesantes y útiles de los distintos tipos de convergencias son:

1. Teorema de Slutsky: plim g xn=g plim x n .

2. Teorema de mapeo continuo: Sea x i un vector de variables aleatorias y sea g ⋅ una función real continua en el vector fijo . Entonces, x i

p⇒g x i

p g .

3. Si g xn es cóncava, se cumple la desigualdad de Jensen: g E [ xn]≥E [ g xn] . Esta desigualdad es crucial cuando se desea hacer predicciones.

4. Si xn e yn son variables aleatorias con plim xn=a y plim yn=b entonces:

plim xn yn=ab

plim xn yn=ab

plim xn / yn=a/b si b≠0

5. Si xnd x y plim yn=c , entonces xn yn

d cx

6. Si xnd x y g xn es continua, entonces g xn

d g x

7. Si la distribución límite de xn existe y plim xn− yn=0 , entonces yn tiene la misma distribución límite de xn .

Page 56: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.21

3.10 Teoremas de límite central

Queremos describir las propiedades de un estimador de cuando la distribución de es desconocida. Saber que es insesgado, consistente, o que converge en probabilidad a es poco útil. Si plim = , entonces toda la densidad colapsa a un punto y no es posible hacer inferencias. Tampoco sabemos qué pasa antes que n→∞ .

Sin embargo, si plim = , entonces podría existir una función tal que:

Y n=n −d

f y (3.37)

donde f y es una distribución con media y varianza finitas. Ello nos permitiría hacer inferencias estadísticas sobre el estimador de . Esa es la lógica de los teoremas de límite central.

Antes de llegar ahí, consideremos que, al igual que en el caso de las leyes de grandes números, no resulta difícil demostrar que el supuesto 2 (distribución binomial) no es necesario para el teorema de de Moivre y Laplace. Note que la contribución de estos matemáticos fue descubrir la distribución límite para la distancia entre Sn y ESn ajustando por la desviación estándar. Para ello usaron la distribución binomial,

pero vamos a ver que es innecesario limitarse a la binomial, bastando imponer adecuadamente restricciones en algunos de los momentos de la distribución de probabilidades.

Sea {x n : n ≥1} una secuencia de variables aleatorias con Sn=∑x i. Los teoremas de límite central estudian la expresión en el límite de:

Y n=Sn−ESn

V S n(3.38)

es decir, una versión normalizada de Sn−E Sn que fue lo que estudiamos en LDGN y LFGN.

Page 57: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.22

Teorema de Límite Central de Lindeberg-Levy14

Sea {x n : n ≥1} una secuencia de variables aleatorias extraída de cualquier f.d.p.

con media finita y varianza finita 2 , y si x n=1n∑ x i , entonces

n x n−dN [0,2 ] (3.39)

alternativamente podemos escribir:

limn →∞ F n x =lim n→∞ P xn ≤x =∫−∞

x 12

e−12 u 2

du (3.41)

Es importante notar que el teorema se aplica a variables aleatorias de cualquier función de distribución y que sólo se aplica a Sn cuando la media existe y si la varianza es finita.

Prueba: Usamos la función característica. Sea x it =E [e itx ] la función característica

de xi, una variable aleatoria que se distribuye con media cero y varianza finita. Entonces queremos encontrar la función característica de Sn /n que es

t =[ t n

]n

. Use la expansión x i/n t =1it n

−t 2

2 ! n 2o1 /n y

recuerde que =0 , para obtener [ t n

]=1−2 t 2

2n o 1n . Aplicando

logaritmo se obtiene log∑X i /n t =n log1− t 2

2 ! n 2o1 /n . Pero si

n∞ , se puede aproximar log 1z ≈z por lo tanto se deduce que

log∑X i /n t =−t 2

2 ! 2o 1 /n . Finalmente, tomando límite cuando

n∞ obtenemos limn∞ log∑X i /n t =−t 2 2

2. Por ello,

limn∞ n t =e−2t 2

2 es decir, la distribución de la suma normalizada es

asintóticamente normal. Es decir x idN 0,2 .▄

14 Lindeberg, J. W. "Eine neue Herleitung des Exponentialgesetzes in der Wahrschienlichkeitsrechnung." Mathematische Zametki, 15:211-225 (1922) y W. Feller "Über den zentralen Genzwertsatz der Wahrscheinlichkeitsrechnung." Mathematische Zametki, 40:521-559 (1935)

Page 58: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.23

Note que cuando normalizamos Sn por n obtuvimos convergencia en probabilidad, en cambio cuando normalizamos por n obtuvimos convergencia en distribución. La razón es que la varianza de Sn crece a n , por lo que si normalizamos por n ésta se va a cero cuando n∞ .

Teorema de Límite Central de Lindeberg-Feller con distintas varianzas15

Este teorema, menos restrictivo que el anterior y señala: Sea {x n : n ≥1} una secuencia de variables aleatorias extraída de un conjunto de funciones de distribución {F n , n≥ 1} cada una de ellas con media finita i y varianza finita i

2 . Las siguientes relaciones son ciertas:

A. lim n→∞ max1≤ i≤ n i

n =0 donde =∑i=1

n

i2

B. limn→∞ Fn y=lim n→∞ P Y n≤ y=∫−∞

y 12

e−12 u2

du

si y solo si:

lim n→∞ 1n

2∑i=1

n

∫∣x−i∣≥ i

x−i2dF ix =0 (3.42)

Aunque parece difícil, la interpretación del teorema es intuitiva. La relación (B) señala que la distribución límite es una normal. La relación (A) señala simplemente que ningún i

2 domina a n2 y se deriva de la ecuación (3.41).

Podemos escribir el paréntesis del límite en (3.42) como:

1 n

2∑i=1

n

∫∣x−i∣≥ i

x−i2dF i x ≥

2∑i=1

n

Pr ∣x−i∣≥ ci

≥2max1≤ i≤ nPr ∣x−i∣≥ i(3.43)

15 A. Lyapounov (1901) sugirió el siguiente teorema que, por ser más restrictivo, fue superado por el teorema de Lindeberg-Feller. Sea {X n : n ≥1} una secuencia de variables aleatorias independientes con

E X i = y V X i = i∞ ∀ i y E ∣X i2∣∞ , 0 . Se define c n = ∑i

i2

, entonces si

limn→∞1

c n2∑

i=1

n

E∣X i − ∣2= 0 , se cumple que limn→∞ F n y =∫−∞

∞ 12

e−12 u2

du . Note que se

requiere que los momentos de orden superior sean finitos.

Page 59: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.24

es decir, que ninguna de las variables aleatorias domine la secuencia de sumas, o sea,

que cada x i−i

i es suficientemente pequeño en relación con la suma [S n−E S n]/ n

cuando n→∞ . Así, el TCL se refiere a los efectos sobre la distribución de una suma de variables aleatorias que individualmente no tienen efecto alguno sobre el comportamiento de la suma.

Una manera más simple de escribir el resultado anterior es:

n xn−nd N [0, 2] (3.44)

Es decir, sumas de variables aleatorias tienden a distribuirse como normales, independientemente de las funciones de probabilidades que las generaron. Casi todos los estimadores están basados de una u otra forma en sumas de variables aleatorias.

Teorema de Límite Central de Lindeberg-Levy Multivariado

Si x1 , x2 , , xn es una muestra de vectores aleatorios extraída de una función de distribución multivariada con medias finitas y matriz de varianzas y covarianzas finita y positiva definida Q , entonces

n xn−d N [0,Q ] (3.45)

Teorema de Límite Central de Lindeberg-Feller multivariado

Sea x1 , x2 , , xn una muestra aleatoria extraída de un conjunto de vectores aleatorios, tales que E [ x i ]=i , V [ x i]=Q y los terceros momentos son finitos. Sea n=1/ n∑ i y Qn=1/n∑Qi . Si limn →∞ Qn=Q y limn →∞ nQ n

−1Qi=0 , entonces:

n xn−nd N [0, Q ] (3.46)

Los teoremas anteriores –que se pueden extender para conjuntos de funciones usando Jacobianos– pueden ser sintetizados como:

● La ley débil de grandes números LDGN se refiere a S n/np p .

● La ley fuerte de grandes números LFGN se refiere a S n/na.s. p .

● El teorema del límite central se refiere a S n/nd N p ,Var Sn/n .

Page 60: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.25

Resulta difícil intuir lo que señalan estos teoremas de convergencia a una distribución normal. En particular, por cuanto en el análisis se mezclan dos conceptos. Por un lado, el tamaño de muestra. Por otro lado, el número de veces que se repite el experimento. Una manera fácil de ver el rol de cada elemento se presenta en la Figura 3.3. El experimento consiste en generar una muestra de T datos de una distribución uniforme definida en el intervalo [0,1] y luego computar la media muestral, z. El experimento se repite en condiciones idénticas llamadas réplicas.

En los paneles superiores se presentan los resultados del experimento para 50 réplicas en tanto que en los paneles inferiores, se presentan los resultados para 1.000 réplicas. En los paneles de la izquierda se hace el experimento con un tamaño de muestra 100, en tanto que en los de la derecha el tamaño de muestra es 1,000. Como resulta evidente, la distribución de la media muestral se aproxima a una normal cuando el experimento se replica un número grande de veces, independiente del tamaño de muestra.

Figura 3.3

Tamaño de Muestra 100, Réplicas = 50 Tamaño de Muestra 1000, Réplica = 50

Tamaño de Muestra 100, Réplicas = 1000 Tamaño de Muestra 1000, Réplicas = 1000

Page 61: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.26

3.11 Distribución asintótica

Frecuentemente vamos a usar el concepto de distribución asintótica, es decir, aquella distribución que se usa para aproximar la verdadera distribución muestral de alguna variable aleatoria. Tomemos un estimador de , la distribución asintótica de se obtiene de:

n −d N [0,V ] (3.47)

implica

d N [ ,V /n ] (3.51)

es decir, se distribuye asintóticamente normal, con media y matriz de covarianza asintótica 1/nV (ver Figura 3.4).

Figura 3.4

Distribución asintótica

Distribución exacta

Page 62: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.27

3.12 Estimación asintóticamente eficiente (máximo verosímil)16

Ya hemos visto el concepto de la función de verosimilitud. Ahora, la usaremos para derivar un estimador crucial en econometría y, además, para entender lo que hace cada tipo de test. En términos genéricos, la función de verosimilitud de una muestra x de variables aleatorias i.i.d. se puede escribir como:

ℒ | x i=∏i=1

n

f x i , (3.48)

Note que escribimos ℒ ∣ x para designar que la función se construye a partir de las realizaciones de una muestra x y que es condicional a ésta.

Lo que hace el estimador es buscar aquel que hace máxima la función de verosimilitud, es decir, la probabilidad que los datos vengan de la distribución f(.). Existen varias formas de maximizar ℒ ∣ x , pero casi siempre se utiliza una transformación que maximiza logℒ ∣ x ,

logℒ | x=∑i=1

n

log f x i , (3.49)

ya que es más simple. El procedimiento es legítimo porque la función logaritmo es una transformación monótona.

Analíticamente el estimador de máxima verosimilitud será aquel que cumpla:

∂L | x∂

=0 (3.50)

Cuando la función de verosimilitud es analíticamente diferenciable, se puede obtener una expresión cerrada para (3.50), pero ello no es siempre posible. Por ejemplo, considere f ∣ x=1 / con 0≤ x≤ . Cuando la ecuación (3.50) no tiene forma cerrada, es necesario resolver el problema usando cálculo numérico, como se describe en el capítulo 6.

16 Aunque la noción de función de verosimilitud es muy antigua, el método de estimar parámetros maximizando la función de verosimilitud fue desarrollada y popularizada en el artículo de J. Neyman y E. S. Pearson, "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. Part I" (Biometrika, 20 A, 175-240, 1928).

Page 63: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.28

No obstante, cuatro condiciones de regularidad resultan necesarias para que el estimador sea válido:

● El conjunto A={x : f x ,≥ 0} no depende de .

● Para todo ∈ , las derivadas ∂i f x i ,

∂i existen (i=1,2,3).

● 0≤ E[ ∂ logL x i ;∂ ]2

≤∞ .

● ∣∂i log Lx i ;∂i ∣≤ hi x ∀ , donde ∫

−∞

hi xdx∞ i=1,2 y

∫−∞

hi x dxK i2 y K no es función de .

De estos supuestos se derivan algunos resultados de gran utilidad. Primero, note que la función de verosimilitud es una densidad, por lo que se cumple:

∫−∞

∫−∞

∫−∞

L x1 , , xn ;dx1dx2=1 (3.51)

simplificando la notación pero sin pérdida de generalidad, denotamos la ecuación (3.47)

por ∫−∞

L xi ;dxi=1 . Derivando esta ecuación con respecto a , obtenemos:

∂∂∫−∞

L x i ;dx i=0 (3.52)

Las condiciones de regularidad aseguran que se cumple la condición de diferenciación bajo el signo de la integral,17 es decir,

∫−∞

∞ ∂L x i ;∂

dx i=0 (3.53)

17 Este resultado se deriva del siguiente teorema de Leibniz, para el caso en que los límites de integración no dependen de y, por lo tanto, los segundos dos términos son cero:

∂ ∫L

U

F x ; dx

∂=∫L

U

∂ F x ;

∂F U

∂U ∂

−F L ∂ L ∂

Page 64: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.29

multiplicando y dividiendo por L x i ; tenemos:

∫−∞

∞ ∂L x i ;∂

Lxi ;Lxi ;

dx i=0 (3.54)

pero ∂ f x ∂ x

1f x

=∂ log f x

∂ x . Entonces:

∫−∞

∞ ∂ log L x i ;∂

L x i ;dx i=0 (3.55)

lo que implica E [ ∂ log L x1 , , xn ;∂ ]=0 .

Un segundo resultado útil se obtiene al derivar (3.55) con respecto a :

∂∂∫−∞

∞ ∂ log Lx i ;∂

L xi ;dxi=0 (3.56)

usando el teorema de Leibniz

∫−∞

∞ ∂2log L x i ;∂ ' ∂

L x i ;dx i∫−∞

∞ ∂log L x i ;∂

∂ Lx i ;∂

dx i=0 (3.57)

es decir

∫−∞

∞ ∂2log L x i ;∂ ' ∂

L x i ;dx i∫−∞

∞ ∂ log L xi ;∂

∂ logL x i ;∂

Lx i ;dx i=0 (3.58)

por lo que obtenemos:

E [ ∂2log L x t ;∂ ' ∂ ]Var [ ∂ log Lx i ;

∂ ]=0 (3.59)

de donde se desprende

V [ ∂ logL x i ;∂ ]=−E [ ∂2log L x t ;

∂ ' ∂ ] (3.60)

El término de la derecha de la ecuación (3.60) es llamado número informacional de Fisher.

Page 65: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.30

Un tercer resultado importante se deriva de suponer la existencia de un estadístico x y ocupar la ecuación (3.51) tal que

∫−∞

x Lx t ;dx=E x (3.61)

Diferenciando la ecuación (3.61) con respecto a tenemos:

∫−∞

x∂ L xt ;

∂dx=∂E x

∂(3.62)

multiplicando y dividiendo por L x , y recordando la derivada del logaritmo se tiene

∫−∞

x ∂ log Lx ;∂

Lx ;dx=E[x ∂ logL x ,∂ ]=∂ E x

∂(3.63)

Note que por definición Cov x1, x2=E x1 x2−E x1E x2 . Considere,

además, que ∂L x i ;

∂=0 . Entonces:

Cov∂ log L x ;∂

,x =∂ E x ∂

(3.64)

Aplicamos ahora la desigualdad Cauchy-Schwartz: ∣Cov x1 , x2∣[V x1V x2 ]

½ y obtenemos:

∣∂E x ∂ ∣≤[V xV ∂ log L x ,∂ ]

½

(3.65)

pero V ∂ log L x ,∂ es el número informacional. Luego:

[ ∂E x ∂ ]2

≤ V x I (3.66)

Page 66: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.31

finalmente:

V x ≥ [∂ E x /∂ ]2

I n(3.67)

Es decir, cualquier estadístico de la muestra tendrá una varianza mayor o igual a la expresión del lado derecho que es conocida como el límite de Cramer-Rao.

Corolario: Var x ≥1

I n .

En conclusión, asintóticamente este estimador tiene cuatro propiedades que lo hacen formidable:

1. Consistencia:18 plim MV=

2. Normalidad asintótica: MVd N [ ,[ I ]−1 ] donde I =−E [∂2 log L

∂ ' ∂ ] .

3. Eficiencia Asintótica: MV es asintóticamente eficiente y alcanza Cramer-Rao.

4. Invarianza: si =g entonces g MV es el estimador máximo verosímil de γ.

Este estimador se puede extender al caso que las variables aleatorias no son idénticamente distribuidas de manera directa, excepto que n I ≠ I n .

18 El concepto de consistencia fue desarrollado por R. A. Fisher en "On the Mathematical Foundations of Theoretical Statistics", (Phil. Trans. R. Soc. 1922).

Page 67: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.32

3.13 Test de hipótesis19

Supongamos que existe una variable aleatoria definida en el espacio de probabilidades (S, , P(.) ) y consideremos el modelo estadístico asociado:ℱ

• ={ f x; ,∈}

• x={x1 , x 2 , , xn}

El test de hipótesis consiste en decidir si una conjetura sobre del tipo ∈0⊆ es congruente con la(s) realización(es) de la muestra x. Dicha conjetura –que

envuelve un pre/juicio– es llamada hipótesis nula20 y se denota usualmente por H 0:∈0 .

Para refutar o no refutar la conjetura a partir de una realización de la muestra, necesitamos un criterio C, tal que si x∈C , entonces no se rechaza la hipótesis nula y si x∉C se rechaza. El test de hipótesis es de manera más precisa un estadístico τ(x): X

→ . Con algún grado de incertidumbre podremos rechazar o no la presunción queℝ nuestro prejuicio sea correcto.

El procedimiento nos pide tener una hipótesis nula H 0 y una hipótesis alternativa21 H 1 , las que en general deben ser mutuamente excluyentes. Como se discute más adelante, es posible construir tests en que H 0 y H 1 no están “anidadas”, es decir, no agotan el conjunto 0 . La hipótesis nula puede ser simple, si es unidimensional, o compuesta, si no lo es.

19 El testeo de hipótesis es tan viejo como el estudio de probabilidades. Sin embargo el término “test de hipótesis” es relativamente moderno y no es consensual. El libro de R. A. Fisher Statistical Methods for Research Workers de 1925 parece ser el primero en usar un test de hipótesis, aunque bajo el nombre de “test de significancia”. El término test de hipótesis fue acuñado por J. Neyman y E. S. Pearson en su artículo "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. Part I" (Biometrika, 20 A, 175-240, 1928).

20 Hipótesis nula aparece en el libro de 1935 de Fisher The Design of Experiments, donde señala: "[W]e may speak of this hypothesis as the 'null hypothesis,' and it should be noted that the null hypothesis is never proved or established, but is possibly disproved, in the course of experimentation." (p. 19). En el lenguaje de Neyman y Pearson, la hipótesis nula corresponde a la “hipótesis probada”, que ellos denotaban por H 0 . Neyman reclamó, con justicia, que el término hipótesis nula es vago y que "the original term 'hypothesis tested' seems more descriptive" (First Course in Probability and Statistics, 1950, p. 259).

21 El término hipótesis alternativa se popularizó a raíz del trabajo de Neyman y Pearson’s "On the Problem of the Most Efficient Tests of Statistical Hypotheses" (Philosophical Transactions of the Royal Society of London. Series A, 231 (1933), pp. 289-337). En ese artículo también se definen términos tales como hipótesis simple y compuesta, región crítica, error tipo I y tamaño del test.

Page 68: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.33

Note que, puesto de esta forma, el test rechaza o no rechaza H 0 , pero no permite “aceptar” la validez de una conjetura.22 Además, se rechaza o no se rechaza dado un cierto nivel de probabilidad o confianza. Vale decir, cualquier conjetura puede ser rechazada, basta con hacer el intervalo de confianza arbitrariamente grande o, equivalentemente, haciendo C0 arbitrariamente pequeño.

Como la base del testeo es la realización particular de la muestra de variables aleatorias, es posible cometer errores:

Tipo I: Pr x∉C0 ;∈= Rechazar H 0 cuando es verdadera

Tipo II: Pr x∈C0 ;∉= No rechazar H 0 cuando es falsa

En principio, nos gustaría hacer que =→0 , lo que no es posible con n finito. Note que la distinta naturaleza de los errores lleva asociado dos distintos conceptos útiles:

Tamaño del Test: es la probabilidad de cometer error tipo I, que usualmente llamamos α. Tamaño es equivalente a nivel de significancia.

Poder del Test: es la probabilidad de que el test correctamente rechace H 0 cuando es falsa, es decir 1-β.

Algunas definiciones útiles asociadas a los tests son:

• Un test será más potente que otro si tiene más poder que otro para todo tamaño.

• Un test será insesgado si su poder es mayor o igual que su tamaño para todo .

• Un test será consistente si su poder tiende a 1 cuando n→∞ .

22 Neyman y Pearson (1928) hablan de aceptar y rechazar hipótesis. Fisher nunca usó el término “rechazo” pero no tenía objeción a su uso, sin embargo se oponía vehementemente a “aceptar” una hipótesis.

Page 69: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.34

3.14 Tres tests de hipótesis asintóticamente equivalentes

Hasta el momento hemos estudiado la función de verosimilitud y el estimador de máxima verosimilitud. También hemos discutido la estructura de los tests de hipótesis. A continuación describimos tres tests que son asintóticamente equivalentes –aunque numéricamente pueden diferir– que son ampliamente usados en aplicaciones prácticas.

Test de Razones de Verosimilitud

Al maximizar la función de verosimilitud obtenemos MV y Lmax . Si el R hipotético es estadísticamente igual a MV , entonces recalcular la función de verosimilitud con R debiera producir un valor similar al computado usando MV . Por ello el test estudia la distancia entre logℒ R | x y logℒ MV | x , para la cual se conoce su distribución asintótica:

−2[ logℒ R | x−logℒ MV | x ]d 2m (3.68)

donde m es el número de parámetros restringidos al imponer la hipótesis nula. Un inconveniente de este test es que exige computar dos veces la función de verosimilitud, cosa que es paulatinamente menos grave dada la creciente capacidad computacional.

Test de Wald23

A diferencia del caso anterior, el test de Wald se enfoca directamente en la distancia entre el parámetro estimado y el prejuicio R , bajo la premisa que dicha distancia no debiese ser estadísticamente significativa si el prejuicio es correcto. Note que este es el test t al cuadrado. Entonces:

−R '∑−1 −R↝

2m (3.69)

Multiplicador de Lagrange

Este test –llamado a veces efficient scores– parte de la base que cuando se obtiene el estimador máximo verosímil de , la primera derivada es cero. Si la primera

23 “Tests of Statistical Hypotheses Concerning Several Parameters When the Number of Observations Is Large” Transactions of the American Mathematical Society, 54 (1943), 426-482.

Page 70: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.35

derivada evaluada en R no difiere estadísticamente de cero, entonces la hipótesis nula no es falsa.

LM=∣∂ LnL∂ ∣=R ' [ I R]−1∣∂ LnL∂ ∣ =R↝2m (3.70)

Un descripción gráfica de estos tres tipos de tests se presenta en la Figura 3.5

Figura 3.5

3.15 Tests de hipótesis no anidadas

En ocasiones sucede que el problema de interés no produce hipótesis anidadas. Considere que existen dos modelos compitiendo por explicar el mismo conjunto de observaciones del fenómeno (y):

Modelo 1: y=x Modelo 2: y=z (3.71)

Ln L

Ln LR

MVR

Ln L()

C()Ln L()/

WaldLagrange

RazonesVerosimilitud

Page 71: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.36

En este caso se requiere hacer un test de la forma:

H 0:Modelo 1 bien especificadoH 1:Modelo 2 bien especificado (3.72)

Resulta evidente que las hipótesis nula y alternativa no están bien especificadas (o anidadas) en el sentido que ellas no son mutuamente excluyentes. Se dice que el modelo 1 y el modelo 2 son familias separadas dado que, para cualquier valor de β, el primero no puede ser arbitrariamente aproximado por el segundo mediante un proceso límite. Análogamente, para cualquier γ, el modelo 2 no puede ser aproximado arbitrariamente por el modelo 1. La verificación de las hipótesis anteriores, por lo tanto, no puede ser llevada a cabo mediante la teoría de Neyman-Pearson, debido a que ésta requiere que los espacios paramétricos asociados de ambos modelos sean iguales

Davidson y McKinnon (1981) proponen el siguiente test.24 Sea el modelo:

y=x 1−z =x 1−z donde =1− (3.73)

La idea del test es que si el Modelo 2 está bien especificado, =1 . En caso contrario, el Modelo 1 está bien especificado y =0 . Davidson y McKinnon probaron que el estadístico que permite verificar la restricción anterior se distribuye asintóticamente normal si H 0 es cierta. El test puede ser extendido de manera análoga para modelos no lineales.

Note, sin embargo, que si los modelos 1 y 2 comparten algunos regresores, el modelo propuesto en la ecuaciones (3.73) no está identificado, es decir, el parámetro no puede ser obtenido de manera independiente de los otros parámetros y, por lo tanto, no se puede hacer el test.

Una manera de solucionar el problema anterior es realizar una regresión auxiliar para obtener un estimador -por ejemplo, el de máxima verosimilitud o el de mínimos cuadrados- y rehacer el test propuesto como:

y=x 1−z =x y (3.74)

donde y=z z ' z −1z ' y .

24 El origen de la idea de hipótesis no anidadas se remonta al año 1962, con el trabajo desarrollado por D. R. Cox “Further Results on the Test of Separate of Families of Hypotheses”, Journal of the Royal Statistical Society B, 24:406-424 (1962), pero fue extendido por Davidson, R. y J. G. Mackinnon, “Several Test of Model Specification in the Presence of Alternative Hypotheses”, Econometrica, 49:781-793 (1981).

Page 72: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.37

Como se ve, el modelo de la ecuación (3.74) anida ambas hipótesis de una manera un tanto artificial. El test es llamado J-test. En muestras pequeñas la estimación por mínimos cuadrados ordinarios no es adecuada ya que E ≠0 , de forma que obtendríamos estimaciones inconsistentes del estimador de . No obstante, en muestra grandes, plim =0 .

Note que si el primer modelo es el correcto, tiende a cero y el test de la hipótesis nula H 0:=0 se distribuye asintóticamente normal estándar. Por el contrario, si el segundo modelo es el correcto, el estimador converge en probabilidad a 1 y su desviación estándar tiende a cero, por lo que el test t tiende a infinito. Así, el test siempre rechaza la hipótesis nula cuando ésta es falsa, porque el estadístico eventualmente excederá cualquier crítico con probabilidad uno.

Evidentemente, se puede revertir el procedimiento y plantear el test inverso haciendo:

y=x z 1−= x z (3.75)

Típicamente se realizan los tests (3.74) y (3.75). Por ello existen cuatro resultados posible.

● Se rechaza H 0 en (3.74)● Se rechaza H 0 en (3.75)● Se rechaza H 0 en (3.74) y en (3.75)● No se rechaza H 0 en (3.74) y en (3.75)

El J-test se aplica cuando los modelos son lineales. Si los modelos son no lineales, entonces se usa un test similar llamado P-test. Además, se ha supuesto que la variable dependiente ha sido transformada de la misma manera en ambos modelos: McKinnon, White y Davidson (1983) extienden el test para el caso en que las transformaciones difieren entre modelos. La evidencia de Monte-Carlo señala que estos tests tienden a sobre-rechazar un modelo correctamente especificado.

3.16 Criterios informacionales

Note que podemos re-interpretar el test de Davidson y McKinnon como un problema de “selección de modelos”. Es decir, como un criterio que guíe la selección de modelos. Existen, sin embargo, varios tipos de criterios. El criterio de mayor popularidad es el R2 ajustado, es decir, una función del coeficiente de correlación múltiple. El criterio es elegir aquel model con mayor R2 ajustado o, equivalentemente, con la menor varianza residual. H. Theil (1957) prueba que en promedio se realiza la

Page 73: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.38

selección correcta, siempre que (1) alguno de los modelos contendientes sea el “verdadero modelo” y (2) las variables explicativas sean no estocásticas (i.e. fijas en muestras repetidas). Ambas condiciones son difíciles de cumplir.25

Usualmente utilizamos criterios de información para seleccionar modelos, escogiendo aquel modelo M 1 ,M 2 ,⋯, M k que tenga un menor valor numérico. Los criterios de información tienen la forma

cnk =−2 ln Lnk /n k n/ n (3.76)

donde Lnk es la función de verosimilitud estimada usando k parámetros para una muestra de tamaño n . Los diferentes criterios ocupan una distinta función de penalización por el hecho que se use un mayor número de parámetros:

• El criterio de Akaike es n=2 26

• El criterio de Schwartz n=2 log n• El criterio de Hannan-Quinn es n=2 log log n

Note que la penalización se vuelve progresivamente más estricta.

Una pregunta pertinente es cuáles son las propiedades de estos criterios cuando los modelos están mal especificados. Obviamente, si se está comparando modelos, habrá algunos de ellos que esten mal especificados. En tal caso, k≠k 0 donde k 0 es el número correcto de parámetros. Hay, entonces, dos casos: modelos subparametrizados (es decir, mal especificados) y sobreparametrizados (es decir, bien especificados pero con exceso de regresores).

Caso en que el modelo está subparametrizado kk 0

Para estudiar la consistencia de los criterios, estudiamos su comportamiento cuando la muestra se vuelve infinita, es decir plimn∞ cnk /n−cnk0/n . Resulta evidente que si el modelo está subparametrizado:

plimn∞1n

log Lnk plimn∞1n

log Lnk 0 (3.77)

25 Theil, H. "Specification Errors and the Estimation of Economic Relations." Review of International Statistical Institute, 25:41-51, (1957)

26 El criterio de Akaike se deriva como un estimador de la distancia en información Kullback-Leibler K M =E log f y | x−log f y | x ,M entre la verdadera densidad y el modelo. Akaike, H. (1973):

“Information theory and an extension of the maximum likelihood principle.” In B. Petroc and F. Csake, eds., Second International Symposium on Information Theory.

Page 74: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.39

Además, es directo demostrar que limn∞ n/n=0 en cualquiera de los criterios.27 Entonces:

limn∞ P[ cnk 0n

≥cn k n ]=limn∞ P[−2 log Ln k 0k 0n

n≥−2 log Ln k kn

n ] =limn∞ P [ log Ln k0 −log Lnk

n

0.5 k 0−k nn ]

=0 (3.78)

lo que indica que los tres criterios son consistentes.

Caso en que que el modelo está sobreparametrizado kk 0

En este caso, la prueba anterior de consistencia no es válida porque ambos modelos están bien especificados (las funciones de verosimilitud tienen el mismo máximo). Considere, sin embargo, el siguiente test de razones de verosimilitud:

2 [ log Lnk − log Ln k 0]d X k− k0

k−k0

2 (3.79)

reemplazamos la definición del criterio de Akaike para obtener:

n [cnk0−cn k ]=2 [ log Lnk −log Lnk 0]−2 k−k0dk− k0

2 −2k−k 0(3.80)

por lo tanto,

limn∞ P [cnk 0cnk ]=P [ X k−k02k−k 0]0 (3.81)

Así, el criterio de Akaike va a sobre-estimar asintóticamente el número correcto de parámetros.

En los casos de Hannan-Quinn y Schwarz, limn∞ n=∞ , lo que indica que para ambos

plimn∞

−2[ log Lnk 0−log Lnk ]n

=0 (3.82)

27 De hecho cualquier funcion n que crezca mas lento que n sirve.

Page 75: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.40

por lo que

plimn∞

n cnk 0−cnk n

= plimn∞

−2 [log Lnk 0−log cn k ]n

k 0−k≤−1

(3.83)

así,lim n∞ P [cnk0≥cnk ]=0 (3.84)

esto, a su vez, implica que limn∞ P [kk 0]=0 o limn∞ P [k=k 0]=1 , por lo que ambos criterios son consistentes.

Page 76: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.41

Apéndice A: Ejercicios1. Suponga que n − converge en distribución a una normal estándar. ¿A qué distribución converge ? ¿ plim = ? Si la muestra crece hasta tener el tamaño de la población ¿cual es la distribución de ?

2. Suponga que es multivariado y que n − converge en distribución a N 0, Z . Suponga que Ud. está en realidad interesado en una transformación continua

del estimador f =log . ¿A qué distribución converge f ?

3. Suponga que tiene dos parámetros estimados independientemente que son insesgados 1 y2 con sus respectivas varianzas 1 y2 . ¿Qué combinación lineal de ambos parámetros =F 1 ,2 es el estimador insesgado de varianza mínima de ?

4. Explique en qué consisten y cuáles son las diferencias entre el teorema de Linberg-Levy y el de Lindberg-Feller para estimadores multivariados. Refiérase a los supuestos y las restricciones impuestas sobre los momentos de la distribución.

5. Cuando un estimador “convergencia en probabilidad” necesariamente debe “converger en distribución”. Comente.

6. Demuestre que si xnm x⇒ xn

p x y que si xnp x⇒ xn

d x .

7. Para el Teorema Central del Límite, una condición indispensable es que ninguna variable aleatoria de la secuencia que se está considerando domine a toda la secuencia de variables aleatorias. Comente.

8. ¿Qué es el poder de un test? ¿Qué es el tamaño de un test? ¿Cuándo un test es más poderoso que otro? y ¿cuándo es consistente?

9. Explique porqué se habla que la función de verosimilitud es una densidad y describa a qué corresponde el estimador de máxima verosimilitud. ¿Es el estimador de máxima verosimilitud es mucho más preciso que cualquier otro estimador lineal?

10. Sea una muestra de n observaciones de yn ¿Para cuales de las siguientes distribuciones es posible derivar analíticamente el estimador de máxima verosimilitud? Encuentre el estimador de máxima verosimilitud, demuestre que éste es un máximo y obtenga la varianza asintótica.

f y = e−y

!

f y = y−1 e− y

y0 ,0

Page 77: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.42

12. Usted tiene dos secuencias: {xn} e {yn} definidas en el soporte [−∞ ,∞ ] . Considere las siguientes afirmaciones:

A Cuando n→∞ , xn converge en probabilidad a la variable aleatoria Z que se distribuye F z . .

B Cuando n→∞ , xn− yn converge en probabilidad a cero.

C xn converge en distribución a F z . .

D yn converge en distribución a F z . .

Comente si las siguientes afirmaciones son verdaderas o falsas. Si son verdaderas, demuestre. Si son falsas, de un contraejemplo.

1. (A) (B)⇒

2. (C) (A)⇒

3. (C) + (D) (B)⇒

4. (A) + (B) (D)⇒

13. Cuando se hace un muestreo usando una distribución normal N 0,2 frecuentemente se usa el siguiente estimador insesgado de la varianza

2=∑i=1

n

xi−E x 2

n−1.

(a) Demuestre que la varianza de este estimador es Var [ 2]=2 4

n−1.

(b) Considere el siguiente estimador alternativo: 2=1n∑i=1

n

x i2 .

(c) Demuestre que el estimador 2 es sesgado pero tiene menor varianza que 2 . (Ayuda: exprese 2 en función de 2 .

15. El estimador de máxima verosimilitud es usualmente derivado a partir de una muestra de variables (vectores) aleatorias i.i.d. Bajo estas condiciones el estimador posee cuatro características:

(a) Identifique esas cuatro características y explique su importancia.

(b) Suponga que las variables aleatorias de la muestra no se distribuyen idénticamente pero sí independientemente. Plantee la función de verosimilitud y

Page 78: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

3.43

obtenga un estimador máximo verosímil en este caso. ¿Cuáles de las cuatro características se mantienen?

(c) Suponga ahora que la muestra no se distribuye independientemente ni idénticamente. ¿Cuáles de las cuatro características se mantienen?

16. Se desea estudiar el poder del test t −

Var para el siguiente caso. Suponga

que el proceso generador de los datos es y i=i donde iN 0, i .

(a) Obtenga un estimador insesgado de θ.(b) Identifique el problema analítico del test t en este caso.(c) Construya un programa de Gauss que le permita determinar el poder del test. El

programa debe ser flexible en (i) número de replicaciones, (ii) tamaño de muestra, (iii) tamaño del test (nivel de significancia)

Page 79: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

Capítulo 4Modelo Clásico de Regresión Lineal

En las secciones anteriores hemos definido el modelo estadístico como aquel que incluye:

● un modelo probabilístico, ={ f x; ,∈}● un modelo muestral, x= X 1, X 2, ... X n

de modo tal que al caracterizar el mecanismo generador de los datos (MGD), el problema consiste en sustituir la ignorancia sobre la función de probabilidad por la ignorancia respecto de los parámetros de la función de densidad f · que se escoge para describir el fenómeno de interés.

En general, los datos recolectables no corresponden de manera precisa con la noción de la muestra observada de variables aleatorias independientes que está implícita en el uso del modelo muestral por varias razones. Primero, porque no necesariamente las muestras tienen las características que se requieren para hacer la inferencia. Por ejemplo, datos agrupados –que son muy comunes– corresponden típicamente al resultados de un muestreo estratificado. En series de tiempo no puede pensarse en que los datos correspondan a una muestra aleatoria simple porque hay dependencia temporal. Segundo, porque en muchos casos existen parámetros incidentales que complican la inferencia. Por ejemplo, cuando hay heterogeneidad en el tiempo o espacio y se debe incluir parámetros adicionales para capturar esa dimensión (p.e., datos nominales en presencia de inflación)

Formalmente, se postula la existencia de un modelo adicional que da origen a los datos estadísticos (MGE) que aproxima, a veces de manera gruesa, el MGD que dió origen a los datos. La existencia de este modelo suplementario permite incluir no sólo la información de la muestra, sino otra que sea a-priori sobre el fenómeno.

Exigiremos que para una variable aleatoria de interés y definida en S ,ℱ , P . el modelo MGE quede definido por

y i=ii (4.1)

donde i=E y i |℘ y es cualquier σ-álgebra que cumpla . Definido de esta℘ ℘ ⊆ ℱ manera, llamaremos parte sistemática a i y parte asistemática a i , donde se cumple que ambas partes son ortogonales entre sí, i⊥i . Analíticamente es importante que ambas partes sean ortogonales, porque de otro modo invalidaría la elección de . Note que al℘ definir el problema de este modo, el concepto de “error” es mucho más amplio que el que se le da en la interpretación clásica como el resultado de error de medición o en variables.

Page 80: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.2

4.01 Lógica del modelo de regresión1

El modelo de regresión lineal será nuestra principal herramienta en este curso, aunque no la única. Una definición apropiada de regresión econométrica es: Regresión es una relación funcional entre dos o más variables correlacionadas que se obtiene de los datos y se usa para predecir una dada la(s) otra(s).2

y i= f x1i , x2

i , ... , xki ;i (4.2)

Lo que estudiaremos es una técnica que nos permite seleccionar los parámetros que relacionan los condicionantes o “regresores” x con la variable de interés y . Existen otras herramientas para parametrizar la ecuación (4.2), algunas de amplia

utilización en economía, que nosostros no vamos a estudiar en este curso por razones de tiempo. Por ejemplo, los métodos Bayesianos, no paramétricos, o semi no-paramétricos.

Estudiaremos varias dimensiones del modelo de regresión lineal, incluyendo problemas de especificación, problemas de estimación de parámetros, testeo de hipótesis sobre los parámetros, y uso del modelo estimado para hacer predicciones condicionales.

El modelo clásico de regresión lineal se basa en seis supuestos que vamos a revisar a fondo antes de derivar estimadores y distribuciones.

1. Forma funcional lineal2. Rango completo de los regresores3. Media condicional de los residuos cero4. Residuos esféricos5. Regresores no estocásticos6. Residuos normales.

Como veremos a lo largo de este capítulo, los primeros tres supuestos nos permiten obtener los estimadores de los parámetros, en tanto que los segundos tres supuestos nos permiten hacer inferencias, tests y proyecciones.

4.02 Análisis de los supuestos del modelo de regresión lineal

1 El primo de Charles Darwin, Francis Galton fue el primero en desarrollar y utilizar regresiones en el sentido moderno para describir de manera suscinta los resultados de sus estudios sobre herencia, en el que descubrió que las distintas generaciones tienden a parecerse más a sus ancestros lejanos que a sus padres (“Typical Laws of Heredity”, Nature, 15 (1877)). Galton llamó a la regresión reversión, lo que sugiere de mejor forma sus resultados. Su modelo fue extendido y mejorado por Karl Pearson y G. Udny Yule, sobre la base de la distribución normal multivariada. R.A. Fischer reformuló el modelo de regresión sobre la base del trabajo de Gauss que se refiere al método de método de mínimos cuadrados.

2 Websters Ninth New Collegiate Dictionary, Merriam-Webster Publishers, Spriengfield, MA. Pag 922.

Page 81: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.3

Modelo lineal

Un modelo es lineal si podemos escribir la relación entre x e y como:

y i= x ii (4.3)

donde α y β son parámetros constantes. Si el modelo analítico no es lineal, hay que linealizarlo (si es posible). Por ejemplo:

Y i=AK i Li

log Y i=logA log K i log Li(4.4)

Note, sin embargo, que el modelo debe ser lineal en los parámetros, no en las variables. Por ejemplo, los siguientes modelos no lineales en las variables son lineales en los parámetros y pueden ser estimados mediante transformaciones simples de las variables.

y i=1x i

i

y i= log xii

(4.5)

De esta manera, podemos escribir el modelo general como:

y i=x i i (4.6)

donde y es un vector con la variable de interés, x es una matriz con las variables que describen el fenómeno y es un vector de perturbaciones aleatorias que denota la distancia entre MGD y MGE. Escribimos la ecuación (4.6) de manera explícita:

[ y1

y2

⋮yn

]=[ x11 x1

2 ⋯ x1j

x21 x2

2 ⋯ x2j

⋮ ⋮ ⋱ ⋮xn

1 xn2 ⋯ xn

j][1

2

⋮ j

][1

2

⋮n

] (4.7)

Para considerar la posibilidad que las variables aleatorias tengan media distinta de cero, incluimos un vector de 1 en la primera columna.

Page 82: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.4

[ y1

y2

⋮yn

]=[1 x11 x1

2 ⋯ x1j

1 x21 x2

2 ⋯ x2j

⋮ ⋮ ⋮ ⋱ ⋮1 xn

1 xn2 ⋯ xn

j][0

1

⋮ j

][1

2

⋮n

] (4.8)

Regresores de rango completo

El supuesto necesario es que el rango de x sea completo, x =k . Este supuesto es también llamado condición de identificación, ya que:

y i=1 xi12 x i

23 x i3i

x i3= x i

2i

⇒y i=1 xi

12 x i23[ x i

2i]i

y i=3 1 x i1[23] x i

23ii

(4.9)

es decir, aunque es posible obtener un estimador de 23 no es posible identificar por separado los parámetros 2 y 3 . Evidentemente las variables económicas suelen tener bastante correlación entre sí, por lo que este problema se presenta con frecuencia en el trabajo empírico. Más adelante, cuando se discutan problemas de multicolinealidad, se abordará formalmente este tipo de fenómeno, su detección y su eventual corrección.

Resulta evidente que rango completo requiere que xʹ =nx =k . No obstante, puede haber correlación imperfecta entre los regresores, lo que dificulta pero no impide la estimación de un modelo de regresión lineal y su uso para hacer proyecciones (este problema lo volveremos a estudiar en el Capítulo 5).

Media condicional de los errores cero

El supuesto de media cero de los errores es condicional en x . Es decir, E [i | x ]=0 . La intuición se relaciona directamente con la descripción del MGE

discutido más arriba. Del supuesto anterior se derivan varios elementos que son importantes para entender qué hace y no hace el modelo de regresión lineal.

• El supuesto no es E [i | x i]=0 .

Page 83: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.5

• Si E [i | x ]=0 entonces E []=0 . Para probarlo, use la definición de densidad marginal.

• La presencia de la constante entre los regresores asegura que E [ | x ]=0 .

• Si E [ | x ]=0 , entonces el modelo de regresión es una media condicional. Si, por el contrario, E [i | x ]≠ 0 , la regresión no es una media condicional, como se ve en la siguiente derivación.

E [ y | x ]=E [ x | x ] = E [ x | x ]E [ | x ] = x

(4.10)

• Se cumple que cov [ x i ,i]=0 .

Errores esféricos3

Para estudiar este supuesto es conveniente descomponerlo en dos partes.

(a) Var [i | x ]=2 es constante y, en particular, no depende de x . A esto se le llama homocedasticidad.4 La función cedástica es la que describe la incertidumbre asociada a los shocks o perturbaciones, . Homocedasticidad señala que dicha incertidumbre no depende de haber observado una realización particular de x .

(b) Cov i , j | x =0 . A esto se le llama ausencia de correlación entre errores. Señala que observar una determinada perturbación o error no contiene información respecto del posible tamaño de otra perturbación.

La matriz de covarianzas condicional de los errores es:

E [ ' | x ]=[E [11 | x ] E [12 | x ] ⋯ E [1 n | x ]E [21 | x] E [2 2 | x ] ⋯ E [2 n | x ]

⋮ ⋮ ⋱ ⋯E [n1 | x ] E [n 2 | x ] ... E [n n | x ]]=[ 2 0 ⋯ 0

0 2 ⋯ 0⋮ ⋮ ⋱ ⋮0 0 ⋯ 2] (4.11)

3 "Like other occult techniques of divination, the statistical method has a private jargon deliberately contrived to obscure its methods from non-practitioners." - G. O. Ashley

4 Los términos hetero y homocedástico fueron acuñados por Karl Pearson en 1905 ("On the general theory of skew correlation and non-linear regression," Drapers' Company Res. Mem. Biometric Series). El término se deriva del griego skedastos , que significa “capaz de ser repartido de manera irregular”.

Page 84: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.6

De manera sintética podemos escribir E [ ' | x ]= 2 I . Aplicando la descomposición de varianza se puede derivar la siguiente identidad:

V []=E x [V [ | x ] ]V x [E [ | x ]] (4.12)

es decir, la incertidumbre de la predicción hecha sobre la base de un modelo econométrico V x [ E [ | x ]] es menor que la incertidumbre de los datos V [ ] .

Regresores no estocásticos

Este supuesto señala que la única fuente de incertidumbre en el modelo estadístico está en la variable que se modela, y . Más precisamente, en los parámetros que describen la distribución f y , condicional en x .

Otra manera intuitiva de entender este supuesto es observar que no se está haciendo un modelo de los regresores. En ese sentido, los regresores son variables “controlables” por el científico. Por ello, usualmente se dice que “los regresores son fijos en muestras repetidas”, queriendo decir que si el científico quisiera repetir el experimento –sacar otra muestra, en nuestro caso– la única fuente de incertidumbre sería el resultado del experimento, pero no la variación de los condicionantes. Si los regresores son controlables, entonces los supuestos anteriores son incondicionales.

Este supuesto no es demasiado costoso, como se deducirá al estudiar las distribuciones asintóticas de los estimadores más adelante.

Errores “normales”

Esto quiere decir que los errores, condicionales en x, se distribuyen con distribución normal. En particular,

i | x↝ N [0,2 I ] (4.13)

¿Por qué “normales”? La manera de entender esto es que el modelo no pretende ser una descripción 100% fiel del fenómeno, sino sólo una aproximación conveniente. Por ello, hay un “error”. Si las causas de este error no son sistemáticas, una normal es una buena descripción. Si son sistemáticas, el modelo está mal especificado, pues debería incluir dichas sistematicidades.

Page 85: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.7

4.03 Representación gráfica de la regresión lineal

Una manera simple de entender la relación entre la muestra, los supuestos y la regresión lineal se encuentra en las siguientes tres figuras. Para que resulte fácil de entender se ha reducido el problema a un modelo univariado y una muestra de dos observaciones, pero el principio es general y el mismo para cualquier tipo de modelo. En la Figura 4.1 se presenta una muestra de dos observaciones (los pares {y1, x1} y {y2, x2}).

Figura 4.1Las observaciones

Pero recordemos que, respecto de y , el problema de observar determinados valores es esencialmente estocástico y, más específicamente, que hemos supuesto que las perturbaciones aleatorias siguen una distribución normal (supuesto 6). Por otro lado, estamos suponiendo que los condicionantes x son determinísticos (supuesto 5). La Figura 4.2 describe el rol que juegan ambos supuestos.

Figura 4.2La estocasticidad

P(u)

x1 x2

y1

y2

P(u)

x1 x2

y1

y2

Page 86: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.8

Nóte varios elementos importantes. Primero, la “forma” de la distribución en términos de dispersión es idéntica para cualquier observación de la variable aleatoria x (supuesto 4). Segundo, las observaciones de y no tienen por qué coincidir con el valor esperado de y condicional en x, basta con que estén en el rango de la distribución. Tercero, no hay incertidumbre respecto de cada observación de x.

Finalmente, la regresión lineal describe la media condicional de y dado x , lo que gráficamente se ve como una recta (supuesto 1) que pasa por cada E [ y i | x ] , como se ver en la Figura 4.3.

Figura 4.3La regresión

4.04 Derivación del estimador de mínimos cuadrados5

En términos generales la idea subyacente en el método de mínimos cuadrados es extremadamente simple y consiste en tratar de aproximar la curva de regresión E [ y i ∣ x ] usando las observaciones contenidas en la muestra cometiendo el menor error

posible. Es usual referirse a:

• Modelo verdadero (poblacional) y i= x ii

• Modelo muestral y i= x i i

La idea del método de mínimos cuadrados es buscar el que minimiza el error cometido. Si el procedimiento está bien, convergerá a . No tiene sentido minimizar

5 El término Método de Cuadrados Mínimos fue acuñado por Adrien Marie Legendre (1752-1833), presentado en el apéndice de su libro Nouvelles méthods pour la determination des orbite des cométes (1803). Un tratamiento más completo del método apareció posteriormente en el libro de Gauss Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium de 1809. La disputa por la paternidad del método surgió porque Gauss afirmó que venía usándolo desde 1795.

P(u)

X1 X2

y1

y2

yi=xiE y1|x1

E y2|x2

Page 87: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.9

un error particular, por lo que es conveniente usar la suma de errores. Como hay puntos por arriba y abajo de la recta poblacional, entonces es necesario minimizar la suma de errores al cuadrado.

Estimador de mínimos cuadrados

Definimos la suma de residuos al cuadrado de un modelo lineal –para algún 0 – como:

∑i=1

n

i |0

2 =∑i=1

n

y i−0 ' x i2=|0

' |0(4.14)

note que hemos usado el supuesto 1. En adelante omitimos el subíndice i salvo que sea confuso. El objetivo es minimizar la ecuación (4.14) escogiendo adecuadamente , es decir:

min0S 0=0 ' 0= y−0 ' x ' y−0 ' x

= y ' y−0 ' x ' y− y ' x 00 ' x ' x 0(4.15)

Note que se ha usado el supuesto (3). Como sabemos de cálculo, minimizar la ecuación (4.15) requiere hacer que su derivada sea igual a cero:

∂ S 0∂ 0

=−2 x ' y2 x ' x 0=0 (4.16)

La ecuación (4.16) –que en realidad es un sistema de ecuaciones– es llamada ecuación normal. Tomando la segunda derivada:

∂2 S 0∂0 ∂ 0 '

=2 x ' x (4.17)

por lo tanto cualquiera sea el valor de , si x ' x es positiva definida el problema es una minimización.

Si x es de rango completo (supuesto 2), su inversa existe y se puede obtener el estimador de mínimos cuadrados (ordinarios).

=x ' x−1 x ' y (4.18)

Page 88: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.10

Note que sólo hemos usado los primeros tres supuestos, pero no los segundos tres. Es decir, es posible obtener un estimador del parámetro aún si no se cumplen estos últimos, porque ellos se refieren a la distribución del estimador.

Propiedades interesantes de la solución

De la ecuación (4.16) obtenemos 0=x ' x − x ' y=x ' x − y =−x ' . Si la matriz de regresores contiene una columna de unos se deduce

1. cada columna de x es ortogonal a los residuos.

2. la suma de los residuos es cero.

3. la regresión pasa por la media.

4. la predicción de y hecha sobre la base de fijar xP es insesgada, y=x p

Vamos a usar repetidamente la siguiente matriz idempotente y simétrica:

M = I− x x ' x −1 x ' (4.19)

la que aplicada a y produce “los residuos de una regresión de y en x”, es decir:

My= I −x x ' x−1 x ' y= y− x x ' x −1 x ' y= y−x = (4.20)

Regresión particionada

Supongamos que la regresión tiene dos grupos de variables, x1 y x2 . Entonces, las ecuaciones normales son:

[ x1 ' x1 x1 ' x2

x2 ' x1 x2 ' x2] [1

2]=[ x1 ' yx2 ' y] (4.21)

de lo cual obtenemos:

Page 89: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.11

1=x1 ' x1−1 x1 ' y−x1 ' x1

−1 x1 ' x2 2 (4.22)

De la ecuación (4.22) se desprenden varios resultados importantes:

(1) Si x1 ' x2=0 , es decir si x1 y x2 son ortogonales, los estimadores pueden ser obtenidos de regresiones independientes.

(2) Si x1 y x2 no son ortogonales, la omisión de x1 y x2 llevará a obtener estimadores sesgados.

Usando las ecuaciones (4.21) y (4.22) y definiendo M1 como los residuos de la regresión hecha sólo con x1 obtenemos:

x2 ' x1 x1 ' x1−1 x1 ' y− x2 ' x1x1 ' x1

−1 x1 ' x2 2 x2 ' x2 2= x2 ' yx2 ' [ I −x1x1 ' x1

−1 x1 ' ] x2 2=x2 ' [I −x1x1 ' x1−1 x1 ' ] y

x2 ' M 1 x22=x2 ' M 1 y(4.23)

Este es otro resultado importante, llamado el Teorema de Frisch-Waugh6: el estimador 2 describe la contribución marginal de x2 para explicar las variaciones de y , es decir neta de la contribución de x1 .

Bondad de ajuste7

El objetivo del análisis de regresión es dar cuenta (explicar) de las variaciones de

y . Es decir, la variación total de y : ∑i

y i−y 2 .

Sea M 0=[ I− 1n

ii ' ] . Aplicada a y computa desviaciones con respecto a y .

Entonces, la suma de cuadrados totales se puede escribir como y ʹ M 0 y . Así:

y ' M 0 y= ' x ' M 0 x ' M 0 ' M 0 = ' x ' M 0 x ' (4.24)

el lado izquierdo de la ecuación (4.24) corresponde a la suma total de cuadrados (SCT) en tanto que el primer término de lado derecho es la suma de cuadrados “explicados” 6 Frisch, R. and Waugh, F., 1933, “Partial time regressions as compared with individual trends”,

Econometrica, 45, 939-53.7 El término bondad de ajuste proviene de un artículo de Karl Pearson donde ya se expresan dudas respecto

de su utilidad: "The 'percentage error' in ordinate is, of course, only a rough test of the goodness of fit, but I have used it in default of a better." “Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material”, Philosophical Transactions of the Royal Society of London (1895) Series A, 186, 343-414

Page 90: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.12

por la regresión (SCE). El último término corresponde a la suma de residuos al cuadrado (SCR). Por ello, se define la bondad de ajuste como:

R2= SCESCT

=1− SCRSCT

=1− ' y ' M 0 y (4.25)

El problema de R 2 es que si se añaden variables a la regresión, éste no puede reducirse. Por ello, se necesita una medida de ajuste que penalice el exceso de regresores. El R 2 ajustado es dicha medida:

R2=1− ' /n−k

y ' M 0 y/ n−1 (4.26)

4.05 Propiedades del estimador de mínimos cuadrados en muestra finita

Las propiedades del estimador de mínimos cuadrados deben ser estudiadas tanto en muestra pequeña (finita) como grande (infinita) para entender a cabalidad el papel de los supuestos del modelo y su aplicabilidad en circunstancias prácticas. Adicionalmente, estudiaremos tanto el caso en que los regresores son estocásticos como determinísticos. Esto nos da cuatro casos de interés.

En esta parte estudiaremos las propiedades del estimador de mínimos cuadrados en muestra finita, dejando el caso de muestra grande para la sección 4.08. El estimador de mínimos cuadrados de puede ser escrito como:

=x ' x −1 x ' y =x ' x −1 x ' [ x ] = x ' x −1 x ' x x ' x −1 x ' = x ' x −1 x '

(4.27)

Si los regresores son no estocásticos, entonces x ʹ x −1 x ʹ es una constante. Así, E [ ]= . El estimador es insesgado, independientemente de la distribución de los

residuos.

La matriz de varianzas y covarianzas de se puede obtener usando la ecuación (4.27) directamente:

Page 91: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.13

V [ ]=E [ −E [ ] −E [ ] ' ] =E [ x ' x −1 x ' ' x x ' x −1] =x ' x −1 x ' E [ ' ] x x ' x−1

= 2x ' x −1

(4.28)

La ecuación (4.28) señala que la varianza (incertidumbre con respecto) del estimador proviene tanto de la estocasticidad del problema –medido por la varianza de los errores– como de la variabilidad de los regresores. A mayor varianza de los residuos –es decir la parte no explicada— mayor es la imprecisión del estimador. A menor varianza de los regresores, mayor es la imprecisión del estimador.

Una vez obtenida la varianza del estimador resulta directo demostrar que ésta es, además, mínima. La demostración es llamada teorema de Gauss-Markov. El procedimiento consiste en comparar la varianza del estimador de mínimos cuadrados con la de un estimador rival.

Supongamos que existe otro estimador insesgado que es cualquier combinación lineal de las observaciones de la variable de interés: =cy . Como este estimador rival es insesgado, se debe cumplir E [ ]=E [cy ]= . Entonces:

E [cy ]=⇒ E [cx c]=⇒ cx=I (4.29)

es decir, cualquier combinación lineal es válida (lo que le da generalidad al teorema). Obtenemos ahora la varianza del rival:

V [ ]=2 cc ' (4.30)

Definimos la “distancia” entre ambos estimadores como Dy= − . Naturalmente se cumple que D=c− x ʹ x−1 x ʹ . Despejamos c y lo introducimos en la ecuación (4.30) para obtener:

V [ ]=2 cc ' = 2[Dx ' x −1 x ' ][ Dx ' x−1 x ' ] ' = 2x ' x −12 DD'

(4.31)

Page 92: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.14

ya que Dx=0 y cx= I . Entonces, V [ ]=V [ ]DD' . Si D≠ 0 , la varianza del rival es mayor y, por lo tanto, el estimador de mínimos cuadrados es de mínima varianza. Así, cada estimador k es insesgado y de varianza mínima.

Veamos ahora el caso en que los regresores son estocásticos, es decir, x no es fijo entre muestras. El truco para obtener las propiedades del estimador es primero obtener las propiedades condicionales en x y luego las propiedades no condicionales.

Obtengamos el estimador de mínimos cuadrados condicional en x usando la ecuación (4.27):

E [ | x]=x ' x−1 x ' E [ | x ]= (4.32)

esta es la esperanza condicional. Usamos la ley de expectativas iteradas para obtener la esperanza incondicional del estimador:

E [ ]=E x [E [ | x] ]=E x[ x ' x −1 x ' E [ | x ]]= (4.33)

este resultado no depende de supuestos sobre la distribución de x sino sólo del supuesto 3 (no correlación entre regresores y errores).

Computamos, también, la varianza incondicional. Sabemos que la varianza condicional es V [ | x ]= 2x ʹ x −1 . Por lo tanto,

V [ ]=E x [V [ | x ]]V x [E [ | x ]] =E x [V [ | x ]] =E x [

2x ' x−1](4.34)

Como resulta evidente, la varianza del estimador depende de la realización de la muestra. Pero, para una realización particular de la muestra, el estimador de mínimos cuadrados es el mejor estimador lineal insesgado (MELI). Luego la conclusión principal de Gauss-Markov no se altera.

Caractericemos ahora la distribución del estimador de mínimos cuadrados. Debido a que hemos supuesto que los errores se distribuyen normales, entonces:

| x N [ ,2 x ' x−1] (4.35)

esta es una distribución normal multivariada. Es decir, cada k se distribuye normal.

Page 93: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.15

Este resultado proviene del supuesto 6. Sin éste, no podríamos hacer inferencia alguna en este contexto. Cuando los regresores no son estocásticos, ésa es exactamente la distribución del estimador. Cuando los regresores son estocásticos, esa es la distribución condicional del estimador.

Como se ha supuesto que la distribución de los residuos es normal, la densidad conjunta queda descrita por la siguiente función de verosimilitud:

∏i

f x i ;=∏i

[2 2]−1 /2 e− i2/ 22

=2 2 −n2 e [−' / 22]

⇒log L ,2 ; xi=

−n2 log 2 2−

12 2 y i−x i ' y i−x i

(4.36)

Es evidente que maximizar la función de verosimilitud en este caso es equivalente a minimizar el segundo término que, a su vez, es una función de la suma de residuos al cuadrado. Entonces, el estimador de mínimos cuadrados es el de máxima verosimilitud y, por consiguiente, es MELI.

Estimador de la varianza de los errores, 2

Para calcular la varianza del estimador de mínimos cuadrados de los parámetros de la ecuación (4.28) requiere conocer 2 . Ello no es usual. Un estimador natural usaría los residuos muestrales:

2= 1n ∑

i=1

n

i2 (4.37)

Este no es el estimador adecuado, sin embargo. Consideremos:

=My=M x =M (4.38)

Así, la suma de residuos al cuadrado es ' = ' M , cuyo valor esperado es E [ ' | x ]=E [ ' M | x ] . Debido a que ' y ' M son matrices cuadradas, obtener

el valor esperado anterior es equivalente a la esperanza de su traza. Pero,

E [ tr ' | x]=E [ tr ' M | x ]=E [tr M ' | x ] (4.39)

Page 94: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.16

como M es una función de x para un x dado, entonces

E [ tr M ' | x ]= tr ME [ ' | x] =tr M 2 I = 2tr M = 2tr I n− x x ' x −1 x ' = 2[ tr I n−tr x x ' x −1 x ' ] = 2[n−k ]

(4.40)

Por ello, el estimador insesgado de la varianza de los errores es:

2= 1n−k ∑

i=1

n

i2 (4.41)

En el Apéndice B se presenta un procedimiento en Gauss que hace estimaciones por mínimos cuadrados ordinarios, computando los estimadores y los estadígrafos asociados que hemos descrito en estas secciones.

4.06 Tests de hipótesis en el modelo multivariado

Sea y i=x i i el modelo estimado. Buscamos un método de hacer cualquier

tipo de hipótesis e inferencia sobre el conjunto de parámetros estimados. Una manera general de hacer tests para hipótesis lineales es expresar dichas hipótesis de la siguiente manera:

R =q (4.42)

donde R es una matriz de orden jxk y q es un vector de orden jx1 (prejuicios). El truco consiste en escoger de manera inteligente las matrices R y q.

En términos generales, escribiremos:

Page 95: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.17

r 1,11r1,2

2⋯r1,kk=q1

r 2,11r 2,2

2⋯r 2,kk=q2

⋮r j ,1

1r j ,22⋯r j , k

k=q j

(4.43)

donde los r son los elementos de R. Note que hay k parámetros y j ecuaciones (j<k). Usaremos la estructura de la ecuación (4.43) para derivar los distintos tipos de tests y, posteriormente, sus distribuciones.

Test de una hipótesis simple

Supongamos que queremos testear j=2 . Usamos:

R=[0,0,⋯ ,1, 0,⋯ ,0 ]q=2 (4.44)

de esa forma, R escoge el parámetro j-ésimo.

Test de una hipótesis de igualdad de parámetros

Supongamos que queremos testear j= k . Es decir, j− k=0 . Escogemos:

R=[0,0 ,⋯,1 ,−1,⋯,0]q=0 (4.45)

Test de varias hipótesis sobre parámetros

Supongamos que queremos testear si las siguientes hipótesis se cumplen j=1 y k=−4 . Escogemos:

R=[0,0,⋯,1,0,⋯00,0,⋯,0,1,⋯0]

q =[1−4]

(4.46)

Note que ahora hay dos filas en q (j=2).

Test de varias hipótesis sobre varios parámetros

Page 96: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.18

Supongamos que queremos testear si las siguientes hipótesis se cumplen j=1− i y k= . Escogemos:

R=[0,0,⋯,1,1,0,⋯00,0,⋯, 0,0,1,⋯0]

q =[1]

(4.47)

Note que también hay dos filas en q (j=2).

Ya sabemos cómo escribir cualquier grupo de hipótesis lineales en términos de R =q . ¿Cómo hacemos un test estadístico?

● La intuición es que si n→∞ , entonces sería fácil comparar directamente R =q

● Pero, n es finito. Por ello, aún si R ≠q en términos numéricos, estadísticamente podrían ser iguales.

Hagamos el clásico test para la hipótesis nula H 0 : R −q=0 :

R −q

Var R −q (4.48)

La intuición del test es directa. Si la distancia R −q es “grande” entonces R ≠q y se rechaza Ho. En la ecuación (4.48) hay dos cosas que no conocemos: (1) Var R −q y (2) la distribución del test.

Estudiamos primero la varianza. Aplicando las propiedades de este operador al test:

Var R −q=Var R =RVar R ' =R 2 x ' x −1R ' =2 R x ' x −1R '

(4.49)

Page 97: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.19

Estudiemos ahora la distribución del test en la ecuación (4.48). Note que R y q son constantes. Por ello, el numerador es una función de los errores normales ( es una combinación lineal de errores) y por lo tanto es N 0,2 R x ' x −1R ' . Pero, estamos dividiendo por 2 R x ' x −1R ' , es decir, la distribución es N(0,1).

Como usualmente la varianza de los errores es desconocida, usamos el estimador de ésta y, por lo tanto, estamos dividiendo por algo que es estocástico. Pareciera que obtener la distribución es algo directo. El problema es que queremos la distribución de la razón y no la distribución del numerador y del denominador por separado. Excepto que éstos sean “independientes”.

● Note que es una combinación lineal de del tipo L . Ello, porque −

=x ' x −1 x '

.

● Note que 2 es una combinación lineal de del tipo xAx . Ello, porque i ' i=i ' M i .

Para que ambos términos sean independientes, la combinación lineal de ellos debe ser ortogonal. Es decir, LA=0 . Es decir, x ' x −1 x ' M=0 , que obviamente se cumple.

Así, debido a que k se distribuye normal, el test de la hipótesis nula de un único parámetro es directamente:

z k=k−k

2 Skk

↝N 0,1 (4.50)

Cuando la varianza de los residuos es desconocida demostraremos que tenemos una normal estándar dividida por una χ² ajustada por grados de libertad. Usamos el estimador de la varianza de la ecuación (4.41). Entonces, dividimos la ecuación (4.50) por la raíz del estimador para obtener:

t k= k−k/ 2 Skk

n−k 2/ 2 /n−k =

k−k

Skk 2↝ t n−k (4.51)

Así, el reemplazo de la verdadera varianza por su estimador produce una distribución t. La demostración es la siguiente. Conocemos la distribución de

Page 98: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.20

k−k/2 Skk pero queremos k−k/ 2 Skk . Luego tenemos que multiplicar y dividir por 2 . Reacomodando los términos queda:

k−k/ 2S kk

2 / 2(4.52)

De acuerdo a la ecuación (4.50), el numerador es normal estándar. El denominador es “algo”.

2= '

n−k ⇒ n−k 2= ' = ' M (4.53)

Ahora, dividimos por 2 convenientemente

n−k 2

2 = ' M

2 ⇒ [ ]' M [

] (4.54)

Note que se distribuye normal con media cero, por lo que / es N(0,1) y la ecuación (4.54) es el “cuadrado” de una normal estándar, por lo que se distribuye χ². Los grados de libertad son el rango de M que es (n-k). Así es que tenemos una N(0,1) dividido por una χ². Si queremos el test t debemos ajustar el denominador por los grados de libertad.

Cuando se trata de una hipótesis compleja, usamos directamente el test de Wald de la siguiente forma:

[R −q ]' 2R x ' x −1R ' −1[R −q ]↝ J

2 (4.55)

la distribución es más bien obvia. Obtener los grados de libertad del test (J) se deja de ejercicio.

Nuevamente, tenemos el problema que 2 es desconocida. Se usa el estimador de la ecuación (4.41) por lo que se obtiene el siguiente test que tiene la distribución de Fischer.

[R −q ] ' R x ' x −1 R ' −1[R −q ] / J

' /n−k ↝ F J ,n−k (4.56)

Page 99: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.21

La intuición es de nuevo directa. Si R −q es “grande” entonces R ≠q y se rechaza Ho.

4.07 Tests de hipótesis y modelo restringido

Otra manera de pensar un test de hipótesis es en términos de “restricciones impuestas”. Supongamos que en vez de hacer el test, imponemos directamente la hipótesis nula y hacemos la regresión. Habrán dos resultados posibles: (1) la restricción que hemos impuesto si afecta la estimación, cambiando los parámetros estimados y (2) la restricción que hemos impuesto no afecta la estimación.

¿Dónde se reflejaría más fácilmente el efecto? Obviamente en los parámetros que no hemos restringido, pero sería dificil de evaluar. Más fácil de evaluar es el efecto sobre la suma de residuos al cuadrado, ' . Si ponemos una restricción y afectamos la estimación, tendremos que estar cometiendo “más errores” que sin dicha restricción, porque la estimación sin restricción es la óptima min ' . Por otro lado, si ponemos una restricción y no afectamos la estimación, entonces la restricción ya se cumplía y no estaremos cometiendo “más errores” que sin dicha restricción.

Si llamamos * ' * a los errores de la regresión con la restricción impuesta, entonces:

• ' =* ' * señala que la estimación con y sin restricciones son iguales.

• ' * ' * señala que la estimación con y sin restricciones son distintas.

¿Qué son ' y * ' * ?

= y−x *= y−x * (4.57)

Por lo tanto:

*=x −x *=−x *− (4.58)

de lo que se desprende

* ' *= ' − ' x *− − *− ' x ' *− ' x ' x *− = ' *− ' x ' x *−

(4.59)

Page 100: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.22

Si queremos entender la ecuación anterior tenemos que estudiar − * . Para ello, vamos a pensar de nuevo en el problema de optimización. Vamos a buscar * tal que sea óptimo bajo H 0 . Es decir,

min y−x ' y−x sujeto a H 0 :R =q (4.60)

formamos el Lagrangeano,

ℒ = y−x ' y−x −2R −q (4.61)

derivando, obtenemos

∂ℒ∂

=−2x ' y2x ' x −2R ' =0

∂ℒ∂

=−2R −q =0(4.62)

de la primera ecuación normal obtenemos * . Premultiplicamos por R x ' x −1 y obtenemos:

−2R x ' x −1x ' y2Rx ' x −1x ' x *−2R x ' x −1 R ' =0 (4.63)

Note que el primer término es −2R y el segundo es −2R * . Entonces,

=[R x ' x −1 R ' ]−1 R *−q (4.64)

De vuelta en la ecuación (4.62) despejamos:

*= x ' x −1 R ' [R x ' x −1 R ' ]−1R −q (4.65)

pero *=Rβ−q . Usando la ecuación (4.62) en la ecuación (4.58), obtenemos

* ' *= ' *− ' x ' x *− = ' R −q ' x ' x R −q

(4.66)

Page 101: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.23

pero esto ya lo conocemos. Así,

* ' *− ' =R −q ' x ' x R −q (4.67)

Por ello, el test F que usamos para evaluar hipótesis complejas puede ser escrito como:

[ * ' *− ' ] / J ' / n−k

↝ F [ Jn−k] (4.68)

La ecuación (4.68) tiene una interpretación de gran importancia para la manera como entendemos el análisis cuantitativo en economía. Hemos demostrado que hacer un test respecto de uno o más parámetros es exactamente equivalente a hacer una comparación de dos modelos, uno restringido y uno sin restringir. Si las restricciones son válidas, el modelo restringido es una mejor descripción del fenómeno, en el sentido que es más eficiente en la descripción de éste.

Note que dividiendo el denominador y numerador por ∑i=1

n

y i−y 2 obtenemos:

[ R2−R2* ] / J1−R2/ n−k

↝ F [ Jn−k ] (4.69)

lo que no es de extrañar por cuanto existe una relación directa entre estimadores de parámetros y bondad de ajuste. Recuerde que el estimador minimiza la SRC y la bondad

de ajuste se define como R2=1−SRCSCT .

4.08 Propiedades del estimador de mínimos cuadrados en muestra grande

Ahora vamos a obtener las propiedades asintóticas de los estimadores mínimos cuadrados. Hay dos razones para ello: primero, saber cuándo las propiedades de muestra finita no se aplican y, segundo, poder obtener las propiedades de estimadores no convencionales.

Page 102: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.24

Vamos a suponer que limn →∞1n

x ' x=Q pos.def.

● Cuando x es no estocástico el supuesto es obvio.

● Cuando x es estocástico, el supuesto se va a referir al tipo de muestra (volveremos a esto más adelante).

El estimador de mínimos cuadrados puede ser escrito como:

=[ 1n

x ' x]−1

[ 1n

x ' ] (4.70)

Tomando plim y suponiendo que Q−1 existe:

plim = Q−1 plim[ 1n x ' ] (4.71)

Para encontrar plim del segundo término, definimos una variable auxiliar w:

1n x ' =

1n∑

ix i i=

1n ∑

iw i=w (4.72)

Tomemos E[ w ]=1n ∑

iE [w i ]=

1n ∑

ix i E[i ]=0 .

Tomemos V [w ]=E [w w ' ]= 1nx ' E [ ' ] x 1

n= 2

nx ' xn

.

Así, limn→∞ V [ w ]=0⋅Q=0

Por lo tanto, w converge medio cuadráticamente a cero, plim w=0 , plim1/n x ' =0 , y plim = . Es decir, el estimador de mínimos cuadrados es

consistente.

El supuesto plim 1 /n x ʹ x=Q es, en realidad, demasiado restrictivo. Las siguientes condiciones –llamadas condiciones de Grenander– son menos restrictivas pero suficientes.

Page 103: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.25

1. Para cada columna de x , limn→∞ x k ' x k=∞ (no degenera a una secuencia de ceros o cada observación añade información útil para la estimación de los parámetros)

2. limn→∞x ik

2

x k ' x k=0 (ninguna observación domina la varianza promedio y, por lo

tanto, no hay dominancia de un valor extremo).

3. La matriz x es de rango completo.

Distribución del estimador cuando los regresores son no estocásticos

Hemos visto que existe si se cumplen las condiciones de Grenander pero ¿cómo se distribuye el estimador? Tomemos de nuevo la ecuación (4.70), la que podemos re-escribir como:

n − =[ 1n

x ' x ]−1

[ 1 n

x ' ] (4.73)

Recordemos nuestros rudimentos de teoría asintótica de las clases anteriores: el lado izquierdo es conocido (Teorema de Límite Central). Estudiamos el lado derecho.

• Como la inversa es una función continua de Q, limn →∞ [ x ' xn ]

−1

=Q−1 .

• Estudiar la distribución límite de la ecuación (4.73) es equivalente a estudiar la distribución límite de ( 1 / n x ʹ ), es decir:

1n

x ' =n w−E w (4.74)

pero ya sabemos que E [ w ]=0 , sólo interesa la distribución límite de n w .

Pero de la ecuación (4.72) sabemos que w es el promedio de n vectores aleatorios del tipo x i i con media cero y varianza:

V [ x i i]= 2 xi ' x i= 2Qi (4.75)

Page 104: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.26

por lo que

V [n w ]= 2 Q=2 1n [ Q1Qn ]

= 2 1n∑

ix i ' x i=2x ' x

n (4.76)

en el límite de muestra grande se obtiene limn→∞ 2 Qn=2 Q (de nuevo, no hay dominancia).

Finalmente, podemos usar el Teorema de Lindeberg-Feller para obtener:

1n

x ' d

N [0, 2 Q ] (4.77)

naturalmente,

Q−1 1n

x ' dN [0, Q−1 2 Q Q−1] (4.78)

Entonces,

n − dN [0, Q−1 2 Q Q−1 ] (4.79)

Finalmente,

dN [ ,

2

nQ−1] (4.80)

El resultado es más importante de lo que se ve a simple vista. Note que no se ha supuesto ninguna distribución para los residuos y aún así el estimador es asintóticamente normal. Esto es consecuencia del teorema central del límite y del supuesto que se cumplen las condiciones de Grenander.

Page 105: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.27

El estimador de la varianza de los errores

La ecuación (4.79) depende de 2 que es típicamente desconocido. Necesitamos el estimador asintótico de la varianza de los residuos (EVA). La contrapartida asintótica del estimador de 2 se obtiene de:

2=1n−k ' M

=1

n−k [ ' − ' x x ' x −1x ' ]

= nn−k [ '

n − ' xn x ' x −1

n x ' n ]

(4.81)

Obviamente,

• cuando n→∞ el primer término tiende a 1.

• El segundo término del paréntesis converge a cero.

• El primer término es el promedio de 2. Si la varianza de este promedio es finita (es decir, el cuarto momento de es finito), entonces la ecuación (4.81) converge a 2 .

Por ello, plim 2 x ' xn

−1

=2 Q−1 .

Distribución de los tests de hipótesis.

Cuando los errores no se distribuyen normal, los tests t, F y χ² no se pueden aplicar directamente.

Test t. Asintóticamente se tiene que distribuir normal (obvio).

Test F. El test para la hipótesis R −q=0 es

F=* ' *− ' / J

' /n−k=

R −q ' [R 2 x ' x −1R ' ]−1 R −q J

(4.82)

Page 106: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.28

Pero, =x ' x −1 x ' . Por lo tanto,

F= ' x x ' x −1 R ' [R x ' x −1R ' ]−1R x ' x −1 x ' / J

' M /n−k (4.83)

Sea L=x x ' x −1 R ' [R x ' x −1R ' ]−1 R x ' x −1x ' , entonces la ecuación (4.83) es:

F= ' L / J

' M /n−k =

/ ' L / / J[ ' M /n−k ]/2 (4.84)

La ecuación (4.84) no tiene distribución conocida. Pero JF si la tiene:

JF =/ ' L /

[ ' M /n−k ] / 2 d

2 tr L = J (4.85)

La razón es que el denominador converge a 1, en tanto que el numerador es –otra vez– una forma cuadrática. La traza de L –que se obtiene fácilmente– depende de Rx que es de rango J.

Distribución límite del test de Wald

Si n − d

N [0,2 Q−1 ] y H 0 : R −q=0 es cierta, entonces:

W =R −q ' [R 2 x ' x −1R ' ]−1 R −q = JF d

J 2 (4.86)

Distribución del estimador de mínimos cuadrados cuando los regresores son estocásticos

Reemplazamos el supuesto que x es no-estocástico por [x i ,i ] secuencias de variables aleatorias i.i.d., con cov x i ,i =0 y donde x tiene matriz de covarianzas positiva definida y cuartos momentos finitos de . Gráficamente, el modelo de regresión corresponde a la Figura 4.5.

Page 107: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.29

Figura 4.5Regresión con regresores estocásticos

El supuesto clave para obtener la distribución asintótica de los estimadores es

plim 1n x ' x= Q (4.87)

y la no covarianza entre x y . Nuevamente, la distribución asintótica será Normal (ecuación 4.80) y si los cuartos momentos de son finitos, 2 es un estimador consistente de 2 y la varianza asintótica estimada de los parámetros queda dada por la ecuación (4.81).

Cuando hay correlación entre x y los resultados anteriores no son válidos y se debe usar variables instrumentales (lo veremos en la sección 5).

Distribución del test “t” con regresores estocásticos

¿Qué sucede cuando los regresores son estocásticos? Acabamos de obtener la distribución condicional del test t en x t |x . Deberíamos integrar por x para obtener la distribución marginal del test t (es decir, la distribución no condicional en x ).

t k |x= k−k

x ' x kk−1 2 (4.88)

El estimador es normal condicional en x . Su distribución marginal no tiene por qué ser normal porque depende de x . Cuando x es estocástico, el denominador no tiene por qué ser la raíz de una χ² ajustada por (n-k) grados de libertad. No obstante, el test sigue siendo “t” a pesar de que x contenga variables estocásticas y determinísticas. Ello, porque f t | x –la integración para obtener la marginal– no es función de x .

P(u)

X1 X2

y1

y2

yi=xiE y1|x1

E y2|x2

Page 108: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.30

4.09 Transformaciones de estimadores: el método Delta

Frecuentemente, tenemos interés en usar funciones de los estimadores, f . Calcular las distribuciones asintóticas podría ser una pesadilla, excepto que:

C=∂ f

∂ '(4.89)

es decir, C es una matriz de tamaño jxk . Usando el teorema de Slutzky plim f = f obtenemos:

plim C=∂ f

∂= (4.90)

y podemos obtener la transformación del estimador:

f →N [ f , 2

nQ−1 ' ] (4.91)

con EVA f =C 2x ' x −1 C ' .

4.10 Predicción8

Una vez parametrizado un modelo resulta natural preguntarse por las propiedades de las proyecciones hechas con éste. Hay dos alternativas de proyecciones: dentro y fuera de la muestra. A las segundas se les llama usualmente, predicciones. El valor efectivo para la observación “o” del modelo es y 0=x 00 , en tanto que el valor proyectado es y= x p . Note que la proyección es lineal, insesgada, y de mínima varianza. Por ello el error de predicción es simplemente:

e f = y 0− y=x 0 − 0 (4.92)

lo que pone de manifiesto las tres fuentes de error de una proyección.

8 "Those who have knowledge, don't predict. Those who predict, don't have knowledge." Lao Tzu.

Page 109: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.31

● La estocasticidad de los regresores.● La distancia que hay entre el parámetro y su estimador, aún si E[ ]= .● La presencia del error aleatorio.

Resulta conveniente computar la varianza del error de pronóstico y deducir la expresión:

Var [ f ]=Var [x 0 −0 ] =

2Var [ x0 −]

=2 [1

1n

∑j=2

k

∑b=2

k

x j0−x j xb

0−x bx ' M 0 x jb ](4.93)

de donde se desprende que la incertidumbre de la proyección depende de (1) la presencia de shocks aleatorios, 2 , (2) el tamaño muestral, n, y (3) la distancia entre la proyección de los regresores y su media, x −x .

Medidas de calidad de la predicción

La principal medida de calidad de una regresión debiese ser con respecto del experimento que se está haciendo. No obstante, se usan frecuentemente medidas resumidas basadas en los errores de predicción dentro de la muestra. El más popular es el error cuadrático medio (ECM) que se define como:

ECM= 1n0

∑ y i− y i 2 (4.94)

el que es una variación es el error absoluto medio (EAM)

EAM=1n0

∑∣ y i− y i∣ (4.95)

El problema del ECM y EAM es que dependen de la unidad de medida de las variables. Por ello, Theil propone el siguiente estadístico normalizado:

U= 1n0

∑ y i− y i 2 /

1n0

∑ y i2 (4.96)

Page 110: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.32

El error cuadrático medio puede ser descompuesto en tres componentes que resultan interesantes:

1n0

∑ y i− y i 2=∑

y i

n0− y

2

s y−s y 221−r s y s y (4.97)

donde s y , s y y r son las desviaciones estándares de cada variable aleatoria y la correlación entre predicción y valor verdadero. De esta descomposición se pueden obtener tres proporciones:

∑ y in0

− y2

1n0

∑ y i− y i 2

Esta es una medida de sesgo, porque nos dice que tan lejos está la media de la predicción de la verdadera media de la variable

s y−s y2

1n0

∑ y i− y i 2

Esta es una medida de variación, porque indica qué tan lejos está la variación de la predicción respecto de la verdadera variabilidad de la variable.

2 1−r s y s y

1n0

∑ y i− y i 2

Esta es una medida de covariación residual que refleja los componentes no sistemáticos que separan la predicción del verdadero valor de la variable.

Una mejor predicción es aquella donde el sesgo sistemático y la impresición de las predicciónes son menores.9

4.11 Método generalizado de momentos

La estimación por mínimos cuadrados no es la única forma de parametrizar un modelo. Una alternativa interesante es el llamado método general de momentos (MGM), el que explota dos elementos: las propiedades de convergencia de los estadígrafos que se pueden construir a partir de una muestra y el hecho que los valores límites de dichos

9 “Prediction is very difficult, especially about the future”. Mark Twain.

Page 111: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.33

estadígrafos dependen de los parámetros que caracterizan la distribución de probabilidades del fenómeno. Por ejemplo, si tenemos una muestra de una distribución , sabemos que la esperanza y varianza están relacionadas a los parámetros de la

distribución p ,q de la siguiente manera:

E [x t ]=pq E [x t−E [x t ]

2 ]= pq2 (4.98)

entonces las condiciones sobre los momentos serían una función de tipo E [ f x ,]=0 , es decir,

E [x t ]−pq=0

E [x t−E[ x t ]2 ]− p

q2 =0(4.99)

así, buscaríamos p* y q* tal que se cumplan las condiciones de la ecuación (4.99) usando la información de la muestra.

Para el modelo clásico de regresión lineal podemos derivar condiciones similares. Dado el modelo básico (ecuación 4.6) e imponiendo la condición de ortogonalidad entre regresor y residuo E[ x ,]=0 tenemos:

E[ y i |x ]=E [x i i |x ]=x i E [i |x ]=x i (4.100)

Usando la ley de expectativas iteradas10 tenemos:

E [x i i ]=Ex [E [x i i |x i ]]=Ex [x i E [i |x i ]]=0 (4.101)

entonces, las condiciones son:

E[x i y i−x i * ]=0 (4.102)

Naturalmente, cuando el modelo es multivariado, habrá l ecuaciones en la ecuación (4.102) que deben ser optimizadas para recuperar los parámetros. Si el número de ecuaciones linealmente independientes en la ecuación (4.102) es igual o mayor a los

10 Esta ley no parece ser de fácil comprensión para algunos políticos. Dan Quayle, vicepresidente de Estados Unidos, señaló: The future will be better tomorrow.

Page 112: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.34

parámetros que se quiere estimar el problema tiene solución (el último caso se llama sobreidentificado).

Una manera alternativa de entender este tema de la sobreidentificación es considerar el modelo de regresión:

y i=x i11x i

2 2i

E[ x i , i ]=0(4.103)

donde x 1=k , x 2=r y l =kr . Suponga ahora que se le informa que 2=0 . ¿Cómo estimaría 1 ? Una alternativa es usar el estimador mínimos cuadrados en el modelo restringido y i=x i

11i . Pero ello sería ineficiente, pues no hace uso de toda la información. Note que hay l restricciones en la ecuación (4.103) y solo habría k restricciones en el modelo restringido. Si se usa toda la información habría l −k=r restricciones sobre los momentos adicionales que son de utilidad; estas se llaman restricciones de sobreidentificación (overidentifying restrictions).

Generalicemos la estructura y notación del ejemplo anterior. Sea g y ,z ,x , una función de dimensión l ×1 de un vector de parámetros de dimensión k×1 con l ≥k tal que:

E [ g y ,z , x ,0]=0 (4.104)

La restricción l ≥k señala que z corresponde a un conjunto de variables más amplio que el conjunto x , pudiendo incluir componentes o funciones de este último. En econometría a la ecuación (4.104) se le llama modelo de condiciones de momentos, en tanto que en estadística se le llama ecuación de estimación.

Note que se ha impuesto muy poca estructura sobre las innovaciones i , al menos en comparación con el método de mínimos cuadrados o el de máxima verosimilitud. No obstante, no hemos discutido dos elementos: (1) cómo se obtienen los parámetros y (2) cuáles son las propiedades asintóticas de este estimador.

Estimación de parámetros por método de momentos

Suponga que el modelo está exactamente identificado, es decir hay tantos parámetros desconocidos (l) en la ecuación (4.104) como ecuaciones disponibles, k. El problema radica en que desconocemos E[.]. Pero contamos con una muestra de la cual podemos derivar el estimador muestral de la condición de ortogonalidad, E [ f x ,]=0 :

Page 113: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.35

f n =1n∑

i=1

n

f x i , (4.105)

En el caso de la regresión lineal obtenemos:

1N ∑

i =1

N

[x i y i−x i * ]=0 (4.106)

de donde se desprende:

*=∑i =1

N

x i ' x i−1

∑i=1

N

x i ' y i (4.107)

es decir, el estimador de mínimos cuadrados es un estimador de momentos.

El estimador del método de momentos se aplica cuando hay más condiciones para los momentos que parámetros por estimar, es decir, cuando el sistema está sobreidentificado. En tal caso, en general no habrá un * que haga f n =0 , pero se puede buscar aquel que haga que f n esté arbitrariamente cerca de 0, es decir aquel que minimiza la ecuación (4.104). Consideremos la contraparte muestral de la ecuación (4.107):

g n =1n∑

i=1

n

z i y i−x i =1n ∑

i =1

n

z ' y−z ' x (4.108)

Para una matriz arbitraria W n0 definimos:

J n =n g n 'W n gn (4.109)

esta es una medida de “distancia” del vector g n . Lo que hace el estimador MGM es minimizar la ecuación (4.109). Definimos:

GMM=argmin J n (4.110)

Considere la derivada de la ecuación (4.110) tal que:

Page 114: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.36

0=∂ J n ∂

=2∂ g n 'W n g n ∂

=2 1n z ' xW n

1n x ' y−z

(4.111)

de donde se desprende:

2z ' x W n x ' y=2 z ' xW n x ' z (4.112)

y por lo tanto:

GMM=z ' xW n x ' z −1z ' x W nx ' y (4.113)

Note que el estimador MGM depende de W n pero sólo como factor de escala, es decir, si usamos cW n para c0 , el estimador no cambia.

Teoría asintótica para el estimador de método de momentos11

Para desarrollar la teoría asintótica aplicable en este contexto, tenemos que hacer los siguientes supuestos:

1. Los momentos poblacionales g n =E[ f x i ,] existen12 y son finitos para todo y para todo i. Además, existe un único * que hace g n

*=0 .

2. f x i , obedece la ley débil de los grandes números. Es decir, f n x i ,− g n

p0 ∀ ∈

3. Existe una secuencia de matrices no-estocásticas W n tales que W n− W np

0.

Estos supuestos permiten demostrar que el estimador MGM es (débilmente) consistente. En términos esquemáticos, la prueba de consistencia del estimador consiste en usar los supuestos 2 y 3 para deducir que existe una secuencia no aleatoria Qn = g n ' W n g n tal que

11 Una demostración formal de estos supuestos está desarrollada en L. Mátyás, Generalized Methods of Moments, Cambridge University Press, 1999.

12 La existencia de los momentos poblacionales requiere de supuestos más primitivos sobre la naturaleza del proceso estocástico de x . Este tema se discute in extenso en el curso de Teoría Econométrica III.

Page 115: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.37

Qn − Qn p

0 (4.114)

converge uniformemente para todo ∈ . Además, se usa el supuesto 1 para demostrar que Qn=0 si y sólo si =* . Entonces, se deduce que si =argminQn , si *=argmin Qn , y Qn − Qn

p0 entonces necesariamente

p .

La derivación de la normalidad asintótica del estimador MGM requiere algunos supuestos adicionales:

1. f x i , debe ser continuamente diferenciable con respecto a ∈ .

2. Para toda secuencia donde se cumple que p

, se cumple que F n − F np

0

3. f x i , satisface el teorema del límite central, es decir, V n

−½ n f n 0dN 0, I donde V n=n Var f n 0 .

Con estos seis supuestos es posible demostrar que el estimador MGM tiene distribución asintótica normal:

[F n n' W n V nW n F n n ]−½ [F n n ' W n F n n] n n−* d N 0, I (4.115)

La matriz de ponderación W n óptima es aquella que minimiza la varianza del estimador MGM. Lamentablemente, ésta no es usualmente conocida. Por ello, dada cualquier matriz de ponderación, el estimador MGM es consistente, pero no necesariamente eficiente. Una alternativa en el modelo lineal sería fijar W n=I . Una alternativa mejor –recuerde MCG– es usar W n=x ’ x −1 . Dada dicha matriz como estimador de primer paso es posible computar los residuos del modelo como: i= y i−z i

y las ecuaciones de momentos: g i=x i i= g w i , z i . Computemos

g n= g n =1n∑

i=1

n

g i y g n*= g i− g n (4.116)

Entonces se define:

W n=1n ∑

i =1

n

g i* g i

*−1

= 1n∑

i=1

n

g i g i '− gn g n ' −1

(4.117)

Page 116: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.38

en probabilidad esta matriz W n converge a W n=E [ g i g i ʹ ]−1 que es la matriz

eficiente. Por ello, el estimador MGM será asintóticamente eficiente.13

Hay una alternativa al estimador MGM de dos etapas que hemos desarrollado que posiblemente tiene mejores propiedades estadísticas. Considere que la matriz de ponderadores sea una función de tal que el estimador MGM sea aquel que minimiza el criterio:

J n =n g n ' 1n ∑

i =1

n

g i* g i

* 'W n g n (4.118)

donde g i*= g i − g n . El que minimiza la ecuación (4.118) es llamado

estimador MGM de actualización contínua14.

Test de restricciones de sobreidentificación

Los modelos que están sobreidentificados tiene la facilidad de proveer espacio para testear las restricciones impuestas sobre la estructura del modelo. Note que

g npE[ g i ] y que, por lo tanto, g n puede ser usado para hacer un test sobre si

E[ g i ]=0 .

Note que J n =n g n 'W n gn es una forma cuadrática en g n por lo que es un test natural de H 0 : E [ g i ]=0 . Si el modelo está correctamente especificado y si la matriz W n es asintóticamente eficiente:

J d→

l −k2

(4.119)

este es llamado el test de Sargan-Hansen. Los grados de libertad del test corresponden al número de restricciones impuestas en la sobreidentificación.

Tests de hipótesis

13 En ocasiones se usa el estimador alternativo W n= 1n ∑

i=1

n

g i g i ' −1

. El problema es que este estimador de

momentos no centrados no garantiza que E [x ’ ε ]=0 , lo que produce un estimador sesgado y reduce el poder de los tests. Verifique que tipo de estimador usa su programa econométrico.

14 Ver Hansen, L.P., Heaton, J. and Yaron, A. (1996), “Finite Sample Properties of Some Alternative GMM Estimators,” Journal of Business and Economic Statistics, 14:262-280.

Page 117: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.39

Como se puede ver el test anterior testea la estructura completa del modelo. Para hacer tests de hipótesis ocupamos directamente la lógica de testear un modelo restringido versus uno que no lo está. El procedimiento es directo:

● Supongamos que hay un conjunto de hipótesis sobre los parámetros H 0 : h =0

● Supongamos que W n está dada, el criterio del estimador MGM no restringido es es J n =n g n ʹ W n g n . Por otro lado, el criterio del estimador MGM restringido es es J n | h=0=n g n ʹ W n g n .

● Entonces el test de distancia es D= J − J . Si se usa la misma matriz W n para ambos J entonces el test se distribuye asintóticamente χ² r .

Un punto importante de hacer notar que h no tiene por qué ser lineal, lo que es una ventaja desde el punto de vista de la flexibilidad del análisis. Por otro lado, si las hipótesis fuesen lineales, el test de restricciones de identificación corresponde al test de Wald.

Page 118: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.40

Apéndice A: Ejercicios

1. En una regresión lineal las variables del lado derecho son independientes, las columnas de la matriz x son independientes y los errores se distribuyen independientementes." En la frase anterior se usó la palabra "independiente" en tres distintos sentidos. Explique cada uno de los usos de ella y discuta que papel juegan dichos conceptos en la teoria clásica de estimación de modelos lineales.

2. En el modelo lineal y=x , un elemento central del análisis econométrico clásico es que el estimador de es independiente de los residuos, . Demuestre.

3. ¿Cómo se entiende el supuesto de rango completo si x contiene sólo una variable?

4. ¿Qué restricción debe cumplir la matriz de momentos de los regresores para que sea posible obtener estimadores mínimos cuadrados con propiedades estándares si x es determinístico? ¿Qué pasa cuando se levanta el supuesto que los regresores son no-estocásticos?

5. Suponga que tiene una muestra de n datos de { y n , xn }. Derive el estimador de mínimos cuadrados de la regresión de y n en x n. Suponga ahora que a la muestra se le añade un dato. Demuestre que el nuevo estimador del parámetro es:

n1= n1

1x s ' x n ' x n−1 x s

xn ' x n−1x s ' [ y s−x n ' s ]

Note que el último término es es , es decir el residuo de la predicción de ys usando los coeficientes obtenidos con la muestra x n .

6. Si nos fijamos en la fórmula de la varianza estimada del estimador de mínimos cuadrados, resulta obvio que mientras más observaciones tengamos ésta se reduce y más preciso es el estimador (demuestre). Por ello, es conveniente tener más datos. Si eso es así, ¿para qué buscar más datos? ¿No bastaría con poner los mismos datos dos veces? Con ello tendríamos 2n datos, en vez de n. (considere x no estocástico).

7. Considere el caso de la regresión y=x y el de la regresión “inversa”, x = y* ¿bajo qué condiciones es posible recuperar el estimador de a

partir del estimador de γ? No olvide referirse a la desviación estándar del estimador.

8. Demuestre que el estimador de mínimos cuadrados ordinarios es de varianza mínima.

Page 119: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.41

9. ¿En qué caso los coeficientes de una regresión de Y en x 1 y x 2 son idénticos a los de dos regresiones independientes, una de Y en x 1 y otra de Y en x 2 ? ¿Por qué? ¿es necesario poner una constante en cada una de estas últimas dos regresiones o basta ponerla en una sola?

10. Su jefe juntó datos de precios y ventas de vino de los últimos 25 años en Chile y concluyó: “cada vez que subo el precio 10% las ventas caen 5%, por lo que la elasticidad es -0.5". Explíquele –con delicadeza pero con absoluto detalle– por qué su estimación es inconsistente.

11. Considere la función de producción con elasticidad de sustitucion constante (CES):

Y i , t= [ K i , t−1−L i , t

−]− e i , t

Donde los subindices i y t, son firmas y tiempo respectivamente, Y es el producto, K es el capital, y L es el trabajo, y donde los parámetros γ, δ, ν, y se denominan parámetros de eficiencia, distribución, rendimientos de escala, y sustitución, respectivamente. Como la función CES no es lineal en los parámetros no pueden estimarse por mínimos cuadrados ordinarios. Demuestre que la función puede linealizarse utilizando la técnica de Taylor de la siguiente manera:

LnY i , t=i1 LnK i , t2 LnL i , t3[ lnK i , t

L i , t ]2

i , t

y encuentre las expresiones de equivalencia entre los estimadores y los parámetros de la ecuación.

12. Demuestre que en una muestra finita, el estimador de la varianza de los residuos 2=n−k −1∑ i

2 se distribuye χ².

13. Demuestre que en una muestra infinita se requiere que los cuartos momentos de la distribución de los residuos sean finitos para que el estimador asintótico exista.

14. Demuestre que testear un conjunto de restricciones lineales es equivalente a hacer un test tipo F entre una ecuación restringida y una que no lo está.

15. Suponga que el verdadero modelo es y=xu (no tiene constante) pero que Ud. usó uno de esos softwares de econometría de segunda clase y tuvo que estimar su modelo con la constante. ¿La omisión de esta variable causa sesgo? Compare la varianza del estimador de del modelo verdadero con la del estimado.

16. Considere el siguiente modelo y i=x ii f i =1/e−i / i0 . Note que los errores tienen la característica que siempre son positivos.

Page 120: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.42

(a) calcule la E[] .

(b) demuestre que el estimador de mínimos cuadrados de la pendiente es consistente pero el del intercepto es inconsistente.

17. Demuestre que R 2 puede ser negativo.

18. Demuestre que el R 2 ajustado ( R 2 ) se puede escribir en función de R 2 como:

R 2=1−n−1n−k 1−R 2

19. Pruebe que R 2 no puede reducirse si se añade una variable en la regresión. Dé la intuición.

20. Suponga que una regresión lineal es adecuada y el modelo está bien especificado. ¿Tiene el R 2 computado alguna distribución?

21. Considere la regresión de y en K variables (incluida la constante) representadas por X . Considere un conjunto de regresores alternativos Z=XP , donde P es una matriz no singular. Así, cada columna es una mezcla de algunas columnas de X . Pruebe que los vectores de residuos de la regresión de y en X y de y en Z son idénticos. ¿Qué importancia tiene esto respecto de la posibilidad de cambiar el ajuste de una regresión mediante la transformación de los datos?

22. El problema de un productor es cómo predecir la demanda de su producto de exportación (yuca). Ud hace un modelo econométrico tipo x t=α 0α 1Y t

*−α 2 Px t (log demanda yuca, log ingreso externo y log precio yuca, respectivamente). Ud estima los parámetros por mínimos cuadrados. Su jefe no cree en la econometría y tiene sus propias elasticidades, , calculadas al ojo. Pruebe que la diferencia entre su R 2 y el R 2 de su jefe, es proporcional a: − ́ZZ − donde Z = {Y,Px} y { , } los vectores de parámetros.

23. Considere el siguiente modelo y t= ' x tt , con x =[ c ,z ] y donde c es una constante y z un conjunto de variables. Suponga que la varianza de es constante, 2 . Encuentre la varianza de la predicción fuera de muestra de y. Demuestre que ésta se reduce cuando aumenta el tamaño de muestra y mientras más cerca estamos de E[ x ] .

24. ¿Cuáles son las fuentes de incertidumbre en una predicción ( y ) hecha con un modelo lineal del tipo y=x u ? Calcule analíticamente la V y .

25. Demuestre que testear un conjunto de restricciones lineales del tipo R =q es equivalente a hacer un test tipo F entre una ecuación restringida y una que no lo está.

Page 121: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.43

26. Suponga que Ud es un monopolista con costo marginal = 10. Encuentre un intervalo de confianza al 95% para el producto que hace que su beneficio esperado máximo. Ud tiene la siguiente información. (use una demanda lineal).

Q 3 3 7 6 10 15 16 13 9 15 9 15 12 18 21

P 18 16 17 12 15 15 4 13 11 6 8 10 7 7 7

27. Suponga que tiene una muestra de n datos de { y n , x n }. Suponga ahora que a la muestra se le añade un dato. Demuestre que el estimador de mínimos cuadrados de la regresión usando n+1 datos es proporcional al residuo de la predicción de y basada en los coeficientes obtenidos con la muestra de n datos.

28. Para una muestra de datos del periodo [1, t ] , considere el siguiente modelo y t= x tt donde t=t−1t y t es ruido blanco Gaussiano.

1. Compute el error de predicción de y tn y su intervalo de confianza del 90%.2. Demuestre que el intervalo de confianza converge en distribución.

29. Demuestre que si es el estimador MICO, E[ ' ]= ' 2∑k=1

K 1k

, donde λ

es uno de los valores propios de x ' x .

30. Considere el modelo y i=1x ii , que no incluye la constante, y donde el error cumple las condiciones Gauss-Markov.

I. Derive el estimador de mínimos cuadrados ordinarios de 1 y llámelo 1 . ¿Es este estimador insesgado? Demuestre que es de varianza mínima.

II. Considere el modelo y i=01 x ii , donde el error cumple las condiciones Gauss-Markov. Demuestre que, para este modelo, el estimador 1 es sesgado. ¿es posible determinar la dirección del sesgo?. Naturalmente,

si β0=0 no hay sesgo, pero ¿es la varianza del estimador 1 mayor o menor que la varianza del estimador mínimos cuadrados de 1 ? Demuestre que si E[ x i ]=0 , el estimador 1 es insesgado.

Page 122: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.44

Apéndice A: Algebra de Matrices y Gauss

Operaciones elementales (ver programa de Gauss asociado)

1. Suma de matrices. Sean A=[aij] y B=[bij] dos matrices de orden m×n. La suma de matrices corresponde a la matriz C=[cij] cuyos elementos genericos son cij=aij +bij. Ejemplo:

A=[1 2 34 5 67 8 9] y B=[0 1 1

1 0 10 1 0] entonces AB=C=[1 3 4

5 5 77 9 9] .

Note que A y B son conformables para la suma.

Note que la suma es conmutativa (A+B=B+A) y asociativa (A+(B+C)=(A+B)+C).

2. Multiplicación por escalar. Sea λ un escalar, entonces λA =[λaij]. Ejemplo, si λ es 2.

A=[ 2 4 68 10 1214 16 18]

3. Multiplicación de matrices. El producto de las matrices A y B debe ser conformable respecto de la multiplicación, es decir, el numero de filas de B debe ser igual al número de columnas de A. Los elementos de C=A*B corresponden a:

c ij=∑j

a ij∗b jk

C=[102130 11203 1 112 13 04 05160 41506 1 4 15 16 0708 19 0 71809 1 7 18190 ]=[2 4 3

5 10 98 16 15]

La multiplicación de matrices en general no es conmutativa.

Page 123: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.45

B∗A=[ 9 9 123 0 3

−4 −11 −9]4. Transposición. La transpuesta de la matriz A=[aij] de orden m×n es una matriz

A'=[aji] que tiene por filas las columnas de A y por columnas las filas de A.

A '=[1 4 72 5 83 6 9]

Las reglas básicas de la transposición son:

1. La transpuesta de A' es A.

2. Si C=A+B entonces C' = A' + B'

3. Si C = AB then C'=B'A'.

5. Inversión. Si A=[aij] de orden n×n, entonces su inversa, si existe, es una matriz definida de manera única A-1 de orden n×n que satisface la condicion AA-1=I, donde I es la matriz identidad (tiene 1 en la diagonal y 0 fuera de la diagional).

B−1=[−1 1 10 0 11 0 −1]

La inversa existe sólo si el determinante de la matrix no es cero.

Las reglas básicas de la inversion son:

1. La inversa de A-1 es A.

2. La inversa de la transpuesta es la transpuesta de la inversa, (A')-1=(A-1)'.

3. If C=AB, then C-1=B-1A-1.

6. Operaciones elementales. Las siguientes operaciones elementales se usan para, entre otros fines, para obtener inversas:

Page 124: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

4.46

1. Multiplicación de una fila por un escalar, λ.

[ 0 00 1 00 0 1][1 2 3

4 5 67 8 9]=[1 2 3

4 5 67 8 9 ]

2. Resta de una fila por otra.

[ 1 0 0−1 1 00 0 1 ][1 2 3

4 5 67 8 9]=[1 2 3

3 3 37 8 9]

3. Intercambio de filas

[0 1 01 0 00 0 1][1 2 3

4 5 67 8 9]=[4 5 6

1 2 37 8 9]

Para obtener una inversa se usa una secuencia de estas operaciones elementales. Consideremos el caso de una matriz de 2x2:

U =[2 54 3]

computamos [1/2 00 1][2 5

4 3]=[1 2.54 3 ]

computamos [ 1 0−4 1][1 2.5

4 3 ]=[1 2.50 3 ]

computamos [1 00 1/3][1 2.5

0 3 ]=[1 2.50 1 ]

computamos [1 −2.50 1 ][1 2.5

0 1 ]=[1 00 1 ]

Page 125: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

Capítulo 5Violación de los Supuestos del Modelo de Regresión Lineal

En esta sección estudiamos problemas derivados de la violación de los seis supuestos sobre los cuales se desarrolló el modelo de regresión lineal en el capítulo anterior. La lógica1 de operar es la siguiente: en primer lugar estudiamos el efecto de la violación sobre los estimadores mínimos cuadrados y los diferentes tipos de tests. En segundo lugar, propondremos, si es posible, alguna una solución, examinando el contexto en el que dicha solución es válida.

La pregunta más natural que aparece es ¿cómo sabemos que se ha violado un supuesto? La respuesta no es simple porque hay muchas consecuencias de violar un supuesto y, además, porque muchas veces se pueden violar varios supuestos simultáneamente. Aunque no hay reglas al respecto, algunos fenómenos que delatan la violación de algún supuesto son:

• Los errores que no tienen la característica de ser ruido blanco que se les exige para representar la parte asistemática del fenómeno en cuestión. Este es el indicador más importante de la violación de algún supuesto aunque, debe reconocerse, es difícil de evaluar aún con los mejores tests estadísticos.2

• Los parámetros estimados tienen características que no son congruentes con los pre/juicios que se tenían antes de hacer el experimento, en términos que presentan signos opuestos a los esperados, baja significancia estadística, o son poco robustos ante pequeños cambios en las condiciones de estimación.

• Existen problemas con los estadísticos asociados a la regresión, como son R², tests de correlación residual, o la comparación entre el error estándar de la variable de interés – y – el de la regresión, y .

• Baja capacidad predictiva del modelo estimado o sesgo sistemático en la predicción.

1 “Lógica es el arte de pensar y razonar en estricta concordancia con las limitaciones e incapacidades de la incomprensión humana” Ambrose Bierce, Diccionario del Diablo.

2 Usualmente en estadística es más fácil demostrar que algo no es lo que se suponía que afirmar que sí lo es.

Page 126: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.2

5.01 Problemas de Especificación I: Regresores Inadecuados

Es frecuente que al modelar el econometrista tenga varias alternativas de variables que puede incluir o excluir del modelo. En principio, la teoría debiera sugerir una especificación completa y las hipótesis que se va a estudiar. Pero a veces las teorías no son muy “finas” y hay espacio para probar distintas especificaciones.

En ese contexto, hay dos tipos de variables (pertinentes e irrelevantes) y dos situaciones (incluidas y excluidas). Dos combinaciones son obvias;3 pertinente incluida e irrelevante excluida. Las otras dos son más interesantes de estudiar.

Omisión de variable pertinente

Un problema econométrico común en los modelos económicos es la omisión de variables que pueden ser potencialmente importantes (típicamente por mala especificación analítica o por limitaciones de los datos). Supongamos que el modelo y=x es particionado en dos grupos de variables:

y=x 11x 22 (5.1)

Supongamos ahora que la estimación excluye x 2 . Entonces:

1=x 1 ' x 1−1x 1 ' y

=x1 ' x1 −1 x 1 ' [x 11x 22]

=1x1 ' x1 −1 x 1 ' x 22x 1 ' x 1

−1x 1 ' (5.2)

esta expresión ya la hemos visto con anterioridad, de donde derivamos este importante resultado:

E[ 1 ]=E [1x 1 ' x 1−1 x 1 ' x 22x 1 ' x 1

−1x 1 ' ]=1E[ x 1 ' x 1

−1 x1 ' x22 ](5.3)

Entonces,

3 "Obvious" is the most dangerous word in mathematics (Eric Temple Bell, Mathematical Circles Squared, Boston, 1972).

Page 127: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.3

E[ 1 ]=1 si x 1 ' x 2=0≠1 si x 1 ' x 2≠ 0

(5.4)

Por lo tanto, la omisión de variables pertinentes no correlacionadas con aquellas que quedan en el modelo no sesga el estimador de los coeficientes. Pero la omisión de variables pertinentes correlacionadas con aquellas que quedan en el modelo sesga los estimadores. El sesgo es de dirección y tamaño desconocidos, porque no conocemos 2 .

Pero hay un segundo efecto. Estudiemos la varianza del estimador usando la inversa de matrices particionadas. La varianza del verdadero estimador, es decir incluyendo x 2 , es

V [ 1 ]=2 [x 1 ' x1 −x 1 ' x 2 x 2 ' x 2

−1 x 2 ' x 1]−1 (5.5)

en tanto que la varianza del estimador en el modelo que excluye x 2 es

V [ 1 ]=2 x 1 ' x 1

−1 (5.6)

Por lo tanto, en el segundo caso el estimador de 1 es sesgado pero de menor varianza. Sin embargo, consideremos el caso más común en el que resulta necesario usar el estimador de 2 , 2= ' /n−k1 , donde son los residuos del modelo estimado excluyendo x 2 (no los del modelo completo, ). Pero podemos expresar en función de usando la matriz M 1 :

=M 1 y=M 1 x 11x 22=M 1 x 22M1

(5.7)

donde nuevamente M 1=I−x 1 ʹ x1 −1 x 1 ʹ , es decir, produce “los residuos de una

regresión de lo-que-haya-a-la derecha de x 1 ”. Por lo tanto, en los residuos muestrales están los verdaderos residuos más el efecto de la correlación de x 1 y x 2 ponderado por 2 .

¿Cómo afecta esto al estimador de la varianza de los residuos? Tomando la ecuación (5.7), multiplicando por su traspuesta y tomando el valor esperado se obtiene la siguiente expresión:

E[ ' ]=2 ' x 2 ' M 1 x 22E [ ' M1] (5.8)

Page 128: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.4

Entonces,

E[ ' ]=2 ' x 2 ' M 1 x 222 tr M 1

=2 ' x 2 ' M 1x 222 n−k1

(5.9)

El primer término del lado derecho de (5.9) es no-negativo, ya que es una forma cuadrática. El segundo es el estimador de la varianza de los residuos para el modelo que excluye x 2 . Por ello, la varianza estimada de los residuos –obtenida como la suma de los residuos al cuadrado ajustada por grados de libertad– estará sesgada. Es interesante notar que aún si x 1 ʹ x 2=0 y los estimadores de los parámetros no están sesgados, el estimador de la varianza de los residuos –y por consiguiente los tests t– si lo está.

Adición de variable irrelevante

Nuevamente, debemos contestar las clásicas preguntas: ¿Es el estimador de insesgado? ¿Se ha afectado la varianza del estimador de ? ¿Se ha afectado 2 ? ¿Cuál es el impacto sobre los tests? Se deja de tarea encontrar las respuestas, que son bastante obvias.

Una conclusión errónea, popular y peligrosa

Como hemos visto, en términos de la calidad de los estimadores resulta preferible incluir variables irrelevantes a excluir variables pertinentes. Ello sugeriría que la mejor estrategia de modelación econométrica es poner “de todo” al lado derecho de la regresión, mientras alcancen los grados de libertad. Así, si bien los estimadores tendrían problemas de eficiencia, no habría problemas de sesgo. Estos últimos son, naturalmente, más graves.

Existen problemas graves con esta estrategia. El modelo de regresión ha sido derivado bajo la premisa que éste describe un experimento aleatorio en un espacio de probabilidad asociado a un conjunto de posibles eventos de interés. En tal caso, el diseño del experimento debe ser hecho ex-ante y debe producir tanto el conjunto de hipótesis que se desea estudiar como la especificación funcional particular que se debe usar.

Cuando se incluyen variables aleatorias con el fin de maximizar algún criterio (usualmente bondad de ajuste) el primer problema que se presenta es que, en rigor, no puede compararse el parámetro de interés entre modelos. Considere los dos modelos planteados en la ecuación (5.10):

Page 129: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.5

a y i=01 x ib y i=01 x i2w i

(5.10)

evidentemente, el parámetro 1 de la ecuación (a) se refiere a un experimento cuyo espacio de eventos es distinto del que se considera implícitamente en la ecuación (b), lo que impide la comparación entre modelos. Otra manera de ver este mismo problema es considerar que la modelación econométrica equivale a estudiar la distribución condicional F y |x , la que puede ser muy distinta de F y |x ,w .

En segundo lugar, cuando se usa la muestra de variables aleatorias para sugerir una especificación no puede usarse esa misma muestra para (in)validar dicha especificación.4 En el primer caso, se está usando la información para descubrir regularidades de interés (usualmente mal llamadas, hechos estilizados) y motivar la modelación y el análisis económico de algún fenómeno. En el segundo caso, se está usando un conjunto de variables aleatorias para discutir la validez de una proposición económica hecha con independencia de la realización (muestra) de dichas variables aleatorias. Si bien ambos casos son válidos por separado, en conjunto ellos no constituyen una base adecuada de modelación econométrica.

Frecuentemente los investigadores olvidan este hecho elemental y se engarzan en una verdadera carrera de caballos con distintos modelos econométricos, ponderando sus virtudes y defectos por medio de una batería de tests.

¿Cómo sabemos, entonces, si un modelo está bien especificado? Sólo la teoría económica nos puede sugerir una especificación. Una vez obtenida una muestra acorde al testeo que se desea hacer, hay dos alternativas: si la teoría es congruente con los datos, nos quedamos con ésta como una representación adecuada de datos caracterizados por algunas regularidades empíricas. Si la teoría no es congruente con los datos, cambie de teoría.

Existe la tentación a poner cosas del lado derecho, sólo para encontrarse después que no hay como justificar en serio la inclusión de dichas variables. Hay, sin embargo, dos objeciones comunes a la idea que un investigador debe limitarse a la disciplina que le impone su teoría económica:

1. Si el test t de estas variables adicionales es mayor que 2 ¿por qué no incluirlas?

El resultado es el peor. La (o las) variable(s) parece(n) ser importante(s) desde un punto de vista estadístico para describir la media condicional de y, pero no tenemos idea por qué o qué papel desempeñan desde el punto de vista analítico. Lo mismo se aplica a justificar por bondad de ajuste: no olvide que el R² es una función del test t. Si se añade una variable cuyo test t es mayor que 2, el R² de la regresión sube.

4 Esta es una discusión bastante profunda e, inevitablemente, impopular. Ver D.G. Mayo, Error and the Growth of Experimental Knowledge, The University of Chicago Press, Chicago, Il. 1996.

Page 130: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.6

2. ¿Por qué no usar las k variables disponibles y hacemos una competencia “todos-contra-todos” seleccionando aquellas que maximizan R² con tests t significativos al, digamos, 95%?

Esta técnica, llamada stepwise regression, busca aquella combinación lineal de los componentes de x que maximiza la bondad de ajuste, R². Esto tiene bastantes problemas. En primer lugar, la selección es mecánica con independencia de las restricciones que impone la teoría. En segundo lugar, es difícil comparar entre modelos (¿cómo se distribuye el test de distancia entre dos o más R²?). En tercer lugar, esto es data mining.

El problema de data mining5, en realidad, excede el de la búsqueda interesada de las variables que se debe incluir en el modelo. También debe incluirse la reespecificación de los modelos (porque también equivale a cambiar los supuestos sobre los cuales se derivó el modelo originalmente), la búsqueda de muestras convenientes (por ejemplo, el periodo de tiempo “preciso”) e, incluso, el uso de tests estadísticos favorables (que usualmente son aquellos que no tienen poder para probar la hipótesis nula de interés).6

Recientemente el tema de data mining ha recibido un soporte analítico más sólido y su uso se ha popularizado en áreas distintas a la economía donde el interés por relacionar evidencia empírica con modelos de comportamiento no es importante. Por ejemplo, en el uso de datos gráficos para el reconocimiento de patrones sistemáticos (caras a partir de fotos). Hirsh (2008) hace un recuento de los avances y desafíos en este tipo de modelación.7

5.02 Problemas de Especificación II: Cambio de Régimen

Una forma interesante de violar el supuesto que el modelo sea lineal es el caso en el que hay cambio de régimen (un caso frecuente en series de tiempo).8 Cambio de régimen es una expresión un tanto vaga que se utiliza para denotar que el fenómeno de interés tiene un comportamiento característicamente diferente en diversos periodos de tiempo. En dichos segmentos, la media condicional y sus determinantes pueden diferir de manera apreciable.

5 “The art of fishing over alternative models has been partially automated with stepwise regression programs. While such advances have made it easier to find high R²s and “significant” t coefficients, it is by no means obvious that reductions in the costs of data mining have been matched by a proportional increase in our knowledge of how the economy actually works.” Lovell, M. C. (1983), “Data Mining,” The Review of Economics and Statistics, 65, 1-12.

6 Ver A. Spanos (1999) “Revisiting data mining: ‘hunting’ with or without a license”, mimeo, Department of Economics, Virginia Polytechnic Institute and State University.

7 H. Hirsh “Data mining research: current status and future opportunities”, Statistical Analysis and Data Mining, 1:104-108.

8 A este tipo de modelo se le denomina incorrectamente “cambio estructural”. El nombre más adecuado es cambio de régimen, por cuanto nada garantiza que sea produzca un cambio en el mecanismo generador de los datos, sino que el modelo debe ser estimado reconociendo su naturaleza dual.

Page 131: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.7

Un ejemplo común queda descrito en la siguiente figura. En una serie que crece con tendencia positiva de 2.5% se han incorporado distintos tipos de quiebres para ver el efecto. En el panel A se presenta una muestra de 75 datos de la serie original. En el panel B se muestra la misma serie pero con un quiebre en la constante ubicado en el segundo y cuarto cuartos de los datos. El quiebre es de tamaño 40% del nivel. En el panel C se presenta la serie con un quiebre que lleva la tendencia a -2.5% en los mismos intervalos. En tanto que en el panel D se presenta la serie sujeta a ambos quiebres.

Figura 5.1Cambio de régimen

Método de Chow

En el caso de cambio de régimen, un modelo del tipo y=x es inadecuado. Supongamos que el cambio de régimen sólo afecta el intercepto de la regresión, Chow9 sugiere usar es una especificación del tipo:

y i=x i i ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]y i=x i i ∀ i ∈[¼N ,½N ]∪ [¾N ,N ]

(5.11)

9 G. C. Chow (1960) "Tests of Equality Between Sets of Coefficients in Two Linear Regressions". Econometrica 28(3):591–605.

Page 132: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.8

Sin embargo, es preferible anidar ambos modelos en una sola especificación usando variables ficticias (mudas o dummies10), que toman valores 0 y 1 dependiendo del régimen. El modelo anidado es:

y i=x i D ii (5.12)

donde D i=1 ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]D i=0 en el resto .

Así, cuando la variable muda D es 1, el intercepto es = , en tanto que si es 0 éste es .11 Es decir, interpretamos como la diferencia de interceptos.

Supongamos ahora que el cambio de régimen es tanto en el intercepto como en los otros coeficientes de la regresión. Se debería usar es una especificación del tipo:

y i=x i i ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]y i=x i i ∀ i ∈[¼N ,½N ]∪ [¾N ,N ]

(5.13)

Conviene, nuevamente, anidar ambos modelos en una sola especificación usando variables ficticias. El modelo anidado es:

y i=x i [D i ]D ii (5.14)

Así, cuando D toma valor 1, el intercepto es = y la pendiente es = . Cuando D=0, obtenemos los parámetros y .

¿Cómo descubrimos si hay cambio de régimen?

Existen dos técnicas de amplia difusión para descubrir la existencia de regímenes distintos en una muestra: las técnicas recursivas y el test RESET. Como vamos a descubrir, estas técnicas no señalan sólo la presencia de cambio de régimen sino además de otros problemas de especificación.

10 El término variable muda (del inglés dummy) fue introducido aparentemente en 1952 por H. S. Houthakker en "The Econometrics of Family Budgets" Journal of the Royal Statistical Society A, 115:1-28.

11 Otro uso frecuente de variables mudas es para controlar problemas de estacionalidad, es decir, la tendencia a observar cambios en la variable de interés debido a fenómenos que no interesa modelar (clima, efemérides, etc.). En tal caso, el modelo es del tipo y i=x i 1∗D 12∗D23∗D 3i , donde las variables D1 , D2 y D3 toman valor 1 para

primer, segundo y tercer trimestre, respectivamente, y 0 en cualquier otro caso.

Page 133: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.9

El test RESET (Regression specification error test) fue propuesto por Ramsey (1969)12 y consiste en realizar una regresión auxiliar al modelo de interés. Sea el modelo y t=x tt , supongamos que se distribuye N 0, I , y consideremos la siguiente

regresión auxiliar:

y t=01x t2 z tt (5.15)

donde z t={ y t2 , y t

3 ,} y y t son los valores predichos del modelo original.13 Si el modelo original estaba bien especificado, entonces los coeficientes de las variables auxiliares no debiesen ser estadísticamente significativos. En caso contrario, el estimador de es inconsistente. Por ello la hipótesis nula del test es H 0 :2=0 y H 1 :2≠0 .

Para hacer el test en la práctica, se puede hacer un test F o de razones de verosimilitud. Note que se puede extender el test de Ramsey en dos direcciones. Primero, para incluir otras variables en la matriz de variables auxiliares. En este caso, el test no sólo señalaría la presencia de error de especificación sino, además, de variables omitidas. Segundo, en modelos de series de tiempo es posible incluir rezagos de la variable del lado izquierdo, y t−k , de modo que el test ahora señalaría la presencia de error de especificación sino, además, de correlación residual.

La técnicas recursivas se aplican de modo natural a problemas de series de tiempo y consisten en estimar el modelo incrementando de modo paulatino (recursivo) el tamaño de muestra. Consideremos el modelo y t=x tt y la siguiente regresión auxiliar:

y t=t−1 x tt (5.16)

donde t es el estimador del parámetro obtenido mediante una regresión hecha con una muestra de datos { y i , x i}i=k1

i=t−1 . La técnica consiste en hacer un conjunto de regresiones auxiliares incrementando el tamaño de muestra desde i=k1 hasta T , donde k es el rango de x. Note que k1 es la primera regresión que es posible hacer.

12 J. Ramsey, J. B. (1969). "Tests for Specification Errors in Classical Linear Least Squares Regression Analysis," Journal of the Royal Statistical Society, Series B, 31:350-371. Un trabajo posterior demuestra que el test RESET es lo suficientemente poderoso para descubrir problemas de especificación aún cuando los criterios tradicionales (R², correlación residual, y tests de significancia) sean cumplidos satisfactoriamente (Ramsey, J. B. and A. Alexander (1984). "The Econometric Approach to Business-Cycle Analysis Reconsidered," Journal of Macroeconomics, 6:347-356.)

13 La lógica de incluir potencias es directa. Suponga que el modelo es logarítmico (p.e., y=x z

). Una expansión de Taylor para linealizarlo exigiría términos de segundo orden al menos. Su omisión –como sucede en el modelo original– implica que el residuo tiene precisamente esa estructura.

Page 134: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.10

Existen dos posibles variables aleatorias de interés que se obtienen del conjunto de regresiones auxiliares: los estimadores recursivos y los residuos recursivos. Para ambos hay distintos tests.

Tests de residuos recursivos. Hay dos tests clásicos de residuos recursivos: CUSUM y CUSUM-Q. Consideremos primero la varianza predicha del error de predicción de (5.16):

t2= 2 1x t ' x t−1 ' x t−1

−1 x t (5.17)

y ahora computamos recursivamente la variable aleatoria wt tal que

w r=r

1x r ' x r−1 ' x r−1−1 x r

(5.18)

El test CUSUM computa W r=1 ∑r=k1

r=t

w r donde es la varianza estimada de

w r . Bajo la hipótesis nula W r tiene media cero y su varianza es aproximadamente igual

a la suma de los residuos normalizados (es decir, una variable aleatoria i.i.d. estandarizada). Por ello el intervalo de confianza se obtiene de las rectas [k ,a ±T−k ½ ] y [k ,3 a±T−k ½ ] y se fija a para niveles de significancia de 95% o

99%. Un ejemplo se ve en la Figura 5.2.

Figura 5.2Test CUSUM

El test CUSUM-Q, por otro lado, utiliza una variación del test anterior pues estudia el estadígrafo:

-30

-20

-10

0

10

20

30

80 82 84 86 88 90 92 94 96 98

CUSUM 5% Signif icance

Page 135: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.11

S r=∑r=k1

r=t

w r2

∑r=k1

r=T

w r2

(5.19)

donde la diferencia entre el numerador y denominador está en la extensión de las sumas (t vs.T). Bajo la hipótesis nula, la esperanza del estimador es (aproximadamente) E[S r ]=t−k/ T−k y su varianza es una función compleja de (t-k) para la cual

existen tablas (ver Figura 5.3).

Un problema de los tests CUSUM es que su poder –es decir, la habilidad para rechazar la alternativa cuando ésta es falsa— no es monótono. En particular, éste puede depender del tamaño del quiebre, haciendo que su poder se vaya a cero si el quiebre es suficientemente grande. La razón es que la varianza de los errores se computa sin considerar que hay un quiebre. Además, es posible que el poder tampoco sea monótono cuando hay más de un quiebre en los datos.14

Figura 5.3Test CUSUM-Q

Finalmente, la estimación recursiva del modelo produce para cada iteración un valor del estimador de los parámetros –con su respectiva desviación estándar– que se puede utilizar como medida visual de la inestabilidad de una regresión y de la presencia de cambios de régimen. Como se ve en la Figura 5.4.

14 Ver P. Perron (2007) “Dealing with Structural Breaks”, Palgrave Handbook of Econometrics, Vol. 1: Econometric Theory, T.C. Mills and K. Patterson (eds)

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

80 82 84 86 88 90 92 94 96 98

CUSUM of Squares 5% Significance

Page 136: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.12

Figura 5.4Estimación recursiva de los estimadores de los parámetros

Test de Predicción (One Step Ahead Forecast Error Test)

Si uno considera la ecuación (5.16) notará que los residuos recursivos corresponden al error de predicción un periodo fuera de muestra. Es posible, entonces, testear si la distancia entre la predicción y el valor verdadero está dentro de un intervalo de confianza definido (p.e., 95%). Una descripción gráfica de este test es presentada en la siguiente figura. Se observan en azul los residuos recursivos, con su desviación estándar (escala derecha). En la escala izquierda se identifican aquellos errores que están entre 5%, 10% y 15% fuera de rango

Figura 5.5Predicción un paso adelante

.00

.05

.10

.15

-.4

-.2

.0

.2

.4

80 82 84 86 88 90 92 94 96 98

Probabilidad Un-Paso Adelante Residuos Recursivos

Page 137: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.13

Tests para quiebres múltiple

Hemos visto qué hacer cuando se desconoce la ubicación del quiebre y cómo puede ayudarnos los tests recursivos. Otra preocupación legítima es determinar si existe uno o más quiebres y su ubicación. La literatura sobre quiebres sucesivos es relativamente reciente y tiene relación con modelos de parámetros cambiantes (en el sentido que los parámetros van cambiando en el tiempo y t=t x tt ) y/o con problemas de no estacionariedad (es decir, cuando la media u otros momentos de la distribución conjunta de los datos cambian con cada nueva observación).

Recientemente, Andrews, Lee and Ploberger (1996) estudian una clase de test óptimos para el caso en que haya un quiebre pero que en el caso de múltiples quiebres son poco prácticos pues exigen computar todas las posibles particiones de una muestra de tamaño T en l segmentos o quiebres.15 Bai Perron (2003)16 sugieren usar un proceso secuencial. En primer lugar, se computa el valor del máximo test de Wald para un cambio estructural, suponiendo que sólo existe un quiebre. Luego se toma la sub-partición más grande de los datos y se vuelve a realizar el test de Wald para un único cambio estructural. El procedimiento se repite mientras sea necesario, sujeto al tamaño mínimo que puede tener un segmento (usualmente k+1). Naturalmente, la distribución de este test secuencial no es estándar pues las hipótesis está anidadas (es decir, el segundo test de Wald depende de haber hecho bien la inferencia del primer test de cambio estructural, el tercero de los dos primeros, etc.), por lo que Bai y Perron proveen tablas de valores críticos ad-hoc.

5.03 Problemas de Especificación III: Datos erróneos

El análisis empírico frecuentemente se enfrenta a problemas con los datos en dos dimensiones: datos perdidos y variables cercanas. Naturalmente, es posible que estos problemas sucedan simultáneamente, pero para efectos pedagógicos los vamos a estudiar por separado.

Datos Perdidos

Supongamos que el modelo es del tipo y i=x ii . Obviamente, pueden haber datos perdidos en la variable de interés, y, o en los regresores, x. Ello puede suceder por varias razones. En primer lugar, porque no existen los datos para algún determinado período de tiempo o segmento de la muestra. Lo más común es que esto suceda porque los encargados de estadísticas no levantan los datos de base o porque las muestras se han perdido. Segundo, porque los datos existen pero están en distinta

15 Ver Andrews, D.W.K., Lee, I., Ploberger, W. “Optimal change point tests for normal linear regression”. Journal of Econometrics 70: 9-38, 1996.

16 Bai, J. and P. Perron “Critical values for multiple structural change tests”. Econometrics Journal, 6:72-78, 2003.

Page 138: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.14

frecuencia a la necesaria para hacer el análisis empírico (p.e., datos mensuales versus trimestrales).

La literatura sobre datos perdidos es extensa pero puede sintetizarse en las siguientes conclusiones. Primero, si los datos se han perdido de manera aleatoria, los estimadores de mínimos cuadrados serán consistentes pero más ineficientes que en el caso que la muestra estuviese completa. La razón es, obviamente, que la muestra con datos perdidos contiene menos información. Segundo, si los datos no se han perdido de forma aleatoria pero sólo afectan a las variables de lado izquierdo, entonces no hay sesgo y sólo hay problemas de eficiencia. Este caso es llamado sesgo de selección exógeno. Tercero, si los datos no se han perdido de forma aleatoria pero sólo afectan a las variables de lado derecho, entonces hay sesgo de selección endógeno. En este caso, hay correlación entre regresor y residuo –por cuanto las observaciones disponibles están limitadas de forma no aleatoria— e, inevitablemente, hay sesgo en el estimador de mínimos cuadrados.17

La existencia de datos perdidos suele llevar a los econometristas despistados a intentar “soluciones” que, como se discute a continuación, no son efectivas. Para discutir estos métodos podemos particionar la matriz de datos de acuerdo al Cuadro 5.1:

Cuadro 5.1Problemas de disponibilidad de datos

Datos existen yA xA

Datos perdidos

- xB

Datos perdidos

yC -

Note que siempre podemos estimar el estimador en el subconjunto A. El punto es ver cómo usar los datos restantes. Estudiaremos primero el caso A+B, es decir cuando faltan algunas observaciones de la variable condicionada (o de lado izquierdo). Posteriormente, veremos el caso A+C, es decir cuando faltan algunas observaciones de los regresores.

17 La solución a este tipo de sesgo de selección más popular es el estimador en dos etapas de Heckman. Éste consiste en hacer una regresión inicial tipo probit para dar cuenta de los determinantes de la selección de la muestra y, en una segunda etapa, se estima el modelo original tomando en cuenta los resultados del modelo probit. Ver J. Heckman, "Sample Selection Bias as a Specification Error," Econometrica, 47(1): 153-6, 1979.

Page 139: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.15

Datos perdidos en la variable condicionada. Una sugerencia frecuente es utilizar algún método para hacer una predicción de y B y usar posteriormente el modelo econométrico completo para estimar , es decir usando [ yA yB , x Ax B ] . El quid del asunto radica en cómo predecir y B . Hay dos alternativas populares:

• Alternativa popular 1. Rellene los datos faltantes con la media de y A . Es fácil demostrar que como resultado se produce sesgo en los parámetros.

• Alternativa popular 2. Estime en el subgrupo A, prediga y B usando dicho estimador, y luego estime el modelo completo. Es directo demostrar que el procedimiento es inútil.

Datos perdidos entre los condicionantes. Nuevamente la sugerencia popular es hacer una predicción de yC y usar el modelo completo para estimar , es decir usando [ yA yC ,x AxC ] . ¿Cómo predecir x C ?

• Alternativa popular 1. Rellene los datos faltantes con la media de x A . Demuestre que este procedimiento es equivalente a eliminar los datos del segmento C.

• Alternativa popular 2. Haga una regresión de x en y en el subgrupo A, estime un parámetro γ y prediga x C usando dicho estimador. Luego estime el modelo completo. Demuestre que este procedimiento viola el espíritu del análisis econométrico.18

Medina y Galván (2007)19 revisan nuevos procedimientos –desarrollados durante las últimas décadas— que tienen mejores propiedades estadísticas que las opciones tradicionales, tales como la eliminación de datos, el pareo de observaciones, el método de medias y el hot-deck. Ellos concluyen que los algoritmos de imputación de datos se pueden aplicar, pero que imputar información no debe entenderse como un fin en sí mismo. Sus implicaciones en el análisis secundario de datos deben evaluarse con cautela, y este trabajo concluye que no existe el método de imputación ideal.

18 Si usted encuentra deprimente las conclusiones de esta sección considere la célebre opinión de Charles Babbage (1869) Errors using inadequate data are much less than those using no data at all.

19 Fernando Medina y Marco Galván, “Imputación de datos: teoría y práctica”, Serie Estudios Estadísticos y Prospectivos No 54, CEPAL.

Page 140: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.16

Variables cercanas (proxies)

Una variable proxy es un sustituto cercano (es decir, imperfecto) de la verdadera variable que no es observable o no está disponible. Usualmente el uso de variables cercanas puede ser entendido como la presencia de “variables medidas con error”. Puede haber proxies de la variable de interés o de los regresores, pero el efecto sobre el estimador de mínimos cuadrados ordinarios de los parámetros no es igual. Recordemos que el estimador mínimos cuadrados se derivan de:

=x ' x −1 x ' (5.20)

y del supuesto cov [x ,]=0 . Podemos reescribir la ecuación anterior como:

−=[ x ' xn ]−1

[ x ' n ] (5.21)

Hasta el momento se ha cumplido que plim [ − ]=Q xx x , pero la matriz de covarianzas se desvanece cuando n→∞. Veamos ahora qué sucede cuando se usan variables cercanas.

Proxy para la variable de interés: Sea el modelo que nos gustaría estimar y *=x . Pero sólo disponemos de y *= y , donde es un shock aleatorio, con media cero y varianza

2 . Entonces el modelo estimable es y=x ε−μ=x ν , donde =− .

Nóte que ν es una variable aleatoria con media cero y cuya covarianza con x también es cero. Luego se satisfacen todos los supuestos del modelo clásico y no hay problemas de sesgo en los estimadores de mínimos cuadrados. Obviamente, la varianza del estimador de los residuos está sesgada --siendo más grande— porque incluye tanto la varianza de como la de . Sin embargo, ese sesgo no es posible corregirlo sin conocer

2 .

Proxy de los regresores: Sea el modelo que nos gustaría estimar y=x∗ . Pero sólo disponemos de x=x∗ , donde es un shock aleatorio con media cero y varianza

2 . Ahora el modelo es y=x −=x donde =− . El problema radica en que hay correlación entre regresor y residuo porque cov [x ,]=cov [x∗ ,−]=−

2 . El estimador de mínimos cuadrados es:

Page 141: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.17

=1 /n∑

i=1

n

x i yi

1 /n∑i=1

n

x i2

(5.22)

veamos el plim:

plim =plim 1 /n∑

i=1

n

x i*x i

*

plim 1/n∑i=1

n

x i*2

(5.23)

y como x*, , y son independientes entre sí, se obtiene:

plim =Q*

Q*2 (5.24)

con Q *= plim 1/n x * ' x * .

Podemos reescribir (5.24) como:

plim =

1

2

Q*

(5.25)

por lo tanto, si hay incertidumbre ( 2≠0 ), el estimador de mínimos cuadrados

ordinarios del parámetro es inconsistente y sesgado hacia cero. A mayor error de medida, más fuerte este efecto de atenuación.

Page 142: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.18

Datos influyentes y extremos (outliers)

En el análisis empírico es usual encontrar valores tanto para la variable de interés como sus determinantes que “no parecen formar parte del experimento en cuestión” (también llamados outliers).20

Se entiende por “datos influyentes” aquellos que de ser incluidos o excluidos de la muestra producen grandes variaciones en la estimación, sea en los estimadores de los parámetros o en los estadísticos asociados (p.e., bondad de ajuste). La influencia de estas observaciones se debe tanto a la naturaleza del estimador de mínimos cuadrados como al tamaño de la muestra usada para obtener el estimador. En primer lugar, el estimador de mínimos cuadrados se obtiene al minimizar la suma de residuos al cuadrado, por lo que las observaciones más alejadas del promedio de los datos reciben más valoración. Eso puede hacer que el estimador sea sensible a valores extremos. En segundo lugar, el tamaño de muestra determina el impacto de valores extremos, pues este problema será más agudo mientras más pequeña sea la muestra. Obviamente, en una muestra grande el efecto de un valor extremo es contrapesado por más observaciones y, por lo tanto, tiene menos efectos sobre el estimador.

En la literatura se distingue entre valores extremos (outliers) y valores influyentes. Valores extremos se refieren usualmente a valores de y que se desvían mucho de la media condicional en x. Valores influyentes se refieren a valores de x que se desvían de la media muestral y que, por lo tanto influyen mucho en la estimación. En la figura 5.6 se presentan ambos tipos de valores para el caso del modelo más simple, y i=x ii .

Figura 5.6Valores influyentes y extremos

20 Esta es la definición clásica de outlier de Hawkins, D. (1980). Identification of Outliers. Chapman and Hall, London.

y

x

Page 143: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.19

Frecuentemente los valores extremos e influyentes se producen por errores al ingresar los datos de la muestra: por ejemplo, es común que sucedan porque se invirtieron dígitos (601 en vez de 106) o porque una coma está mal puesta (12,5 en vez de 1,25). Es por ello que lo primero que se debe hacer es revisar los datos cuidadosamente.

Existe un centenar de algoritmos de detección de valores influyentes que se basan en seleccionar distribuciones conocidas para los datos (normal, exponencial, etc.) y en definir un intervalo de confianza para determinar si un dato es un valor extremo o no lo es (p.e., 90% o 95%).21

Una manera de detectar valores extremos es estudiar los residuos: si el valor predicho se desvía del efectivo de manera notoria se puede tratar de un valor extremo. No obstante, esta no es una manera que garantice la detección. La razón es que el residuo se mide con respecto a la recta de regresión la que podría variar si se incluye o excluye el valor extremo. Usualmente se estudian los residuos estandarizados –es decir, los residuos divididos por su desviación estándar— de modo de normalizar su tamaño.

Otra forma es estudiar la “incidencia” de cada dato en el estimador. Recordemos que en el estimador de mínimos cuadrados cada observación de y es ponderada por H=x x ' x −1x ' . Si se estudia la diagonal de H, es decir los valores de hii, es

relativamente directo ver la influencia de cada observación en la estimación. Valores con mucha incidencia suelen señalar la presencia de valores influyentes o extremos. Además esto pone de manifiesto el hecho que valores más alejados de la media de los regresores tiende a darles más influencia.

Cuando la muestra es pequeña, tanto la media como la desviación estándar muestrales pueden ser distorsionadas por la misma presencia de valores influyentes. Es por ello que en ese caso se usan tests de detección de datos influyentes basados en la mediana y su desviación estadística, porque éstas no son sensibles a los valores extremos. El más conocido de estos tests para muestra pequeña es el de Dixon (1950) 22 que se basa en suponer que los datos se distribuyen normales. El test consiste en ordenar los datos de menor a mayor y computar el siguiente estadígrafo para cada observación x n :

TN7=xn−xn−1

x n− x1(5.26)

El valor de TN7 computado se compara con los valores críticos particulares para tamaños de muestras que van desde 3 observaciones en adelante.23 Si el valor obtenido

21 Un tratamiento comprensivo del tema se encuentra en Outliers in Statistical Data, V. Barnett and T. Lewis, 1994, 3rd edition, John Wiley & Sons, Chichester.

22 Dixon, W.J. (1950): “Analysis of extreme values”, Annals of Mathematical Statistics, 21(4):488–506.

23 S. Verma y A. Quiroz-Ruiz, “Critical values for six Dixon tests for outliers in normal samples

Page 144: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.20

es mayor que el valor de tablas se rechaza la hipótesis nula que la observación n-ésima no es un valor extremo. El estadígrafo TN7 reconoce que en una muestra pequeña resulta mucho más difícil determinar si una observación es un valor extremo porque no hay suficiente información.

5.04 Problemas de Especificación IV: Colinealidad

El problema de colinealidad (también llamado multicolinealidad) consiste en que los regresores no son independientes entre sí. Cuando se impuso el supuesto de identificación, es decir que x ’ x −1 fuese positiva definida, no se eliminó el problema que los regresores estén correlacionados imperfectamente.24 Consideremos el siguiente modelo:

y i=1 x i12 x i

23 x i3i (5.27)

pero supongamos que los regresores están correlacionados de acuerdo a la siguiente relación:

x i3=1 x i

12 x i2i (5.28)

Introduciendo (5.28) en (5.27) resulta obvio que:

y i=113 x i1223x i

2t3 i (5.29)

Hay dos interpretaciones interesantes de la ecuación anterior. Primero, se puede estimar j j pero no podemos “identificar” j . Segundo, el efecto “marginal” de xk sobre y tiene dos componentes: uno directo ( j ) y otro que se filtra indirectamente a través de xj ( k j ). Note, además, que la varianza del error ( 3 ) tiene una estructura particular.

El efecto que tiene la colinealidad sobre el estimador mínimos cuadrados es algo sorprendente. Tomando el estimador

up to sizes 100, and applications in science and engineering” Revista Mexicana de Ciencias Geológicas, 23(2):133-161, 2006.

24 Otra razón para que x ’ x −1 no exista es que el rango de x sea mayor que el rango de x’.

Page 145: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.21

E [ ]=E [x ' x −1 x ' y ]=E[x ' x −1 x i ' x ]

=E [x ' x −1 x ' ](5.30)

Por lo tanto, en tanto la matriz de momentos de los regresores exista, el estimador sigue siendo insesgado. Ello porque independientemente de si los regresores son estocásticos o no, la correlación entre regresor y error en valor esperado es cero lo que implica que E[ ]= .

Si los parámetros no son sesgados, ¿dónde está el efecto de la colinealidad? Debido a que el problema es que cov x1, x 2 ≠ 0 , entonces tiene que afectar la matriz de momentos de los regresores, x ' x . Veamos cómo la afecta con algunos ejemplos prácticos. Recordemos que la inversa de x ' x es su adjunta dividida por el determinante, es decir:

=[a 11 a 12

a 21 a 22] entonces −1=1

a11 a 22−a 12a 21 [ a 22 −a 12

−a 21 a11 ] (5.31)

Supongamos

=[1 00 1]⇒−1=

11 [1 0

0 1] (5.32)

y ahora consideremos casos donde la covarianza entre las variables no es cero:

=[ 1 0.60.6 1 ]⇒−1=

10.64 [ 1 −0.6

−0.6 1 ] (5.33)

=[ 1 0.90.9 1 ]⇒−1=

10.19 [ 1 −0.9

−0.9 1 ] (5.34)

Resulta evidente cómo se va reduciendo el determinante de la inversa. Entonces, dado que V =2 x i ' x i

−1 , la presencia de colinealidad se traduce en varianzas de los estimadores de los parámetros cada vez más grandes. En el límite la varianza tiende a infinito.

Page 146: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.22

Esto es congruente con lo que obtuvimos en (5.29). Cuando la colinealidad es perfecta no es posible distinguir entre el efecto directo e indirecto. Es decir, no podemos precisar el valor de los parámetros (varianza infinita).

En la realidad, la colinealidad perfecta no existe (salvo por error). Pero tampoco existe, usualmente, la ausencia de colinealidad (piense en el papel de las expectativas y cómo éstas correlacionan muchas variables económicas). Por ello, siempre habrá algún grado de colinealidad.

Otro síntoma de la colinealidad es que los estimadores de los parámetros se vuelven inestables (poco robustos). La inestabilidad se produce porque la estimación punto de los parámetros bajo alta colinealidad depende de la conformación de la muestra. Si sacamos un(os) dato(s) de la muestra, la estimación de los parámetros suele cambiar fuertemente.

¿Como detectamos la presencia de colinealidad?

Podríamos estudiar la correlación de los regresores antes de estimar el modelo. Esta práctica es esencial en cualquier modelación econométrica, pues aparte de detectar posibles problemas de colinealidad nos ayuda a descubrir errores en los datos. Un problema práctico, no obstante, es que no es muy claro cuándo hay alta colinealidad entre dos o más variables. Naturalmente una correlación de 99% es alta y una de 5% es baja, pero para una correlación de 57% no es clara la conclusión.

Otra alternativa es investigar si los estimadores de los parámetros son inestables. Si bien esto es correcto, existen otros problemas –que veremos más adelante– que también producen inestabilidad. Por ello, este test no es conclusivo.

Una tercera alternativa frecuente es que, si bien los parámetros no son significativos por la alta varianza, como un todo la regresión es satisfactoria. Ello se traduciría en el caso “ R 2 alto pero no significativos”. Hay que reconocer, sin embargo, que no es una regla muy firme, porque una variable irrelevante en un modelo satisfactorio tendría el mismo síntoma.

¿Qué solución tiene la colinealidad?

En estricto rigor, no existe ninguna solución. La colinealidad no es un problema. Es una característica de las variables aleatorias utilizadas en el modelo. Es decir, una característica del problema económico.

Page 147: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.23

En ocasiones, la teoría económica permite imponer restricciones que evitan el problema de colinealidad. Por ejemplo, considere el siguiente modelo translog para el PIB, que denominamos Y:

logY=1 logKF 2 log KH 3log KF 1/ 2

24

logKH 1/2

25 log KF logKH

donde KF es el capital físico y KH es el capital humano. Usted sospecha que hay colinealidad entre ambos tipos de capital. Si es válido imponer la restricción de retornos constantes de escala ( 1=1−2 y 3=4=5=−1 ) entonces es posible reducir el problema de colinealidad. Esto, sin embargo, no es lo usual.

No obstante, algunos textos tradicionales suelen presentar pseudo soluciones empíricas al problema de colinealidad que vale la pena estudiar para (a) descubrir su inaplicabilidad y (b) porque existen otros usos para estas técnicas que se utilizan a menudo.

1. Elimine alguna variable para la que haya evidencia de colinealidad con otras. En el modelo y i=1 x i

12 x i23 x i

3i entonces se podría eliminar, digamos, x 3 . El resultado es:

y i=1 x i12 x i

23 x i3i

=1x i12 x i

2i(5.35)

Obviamente, el problema de colinealidad se reduce.25 Sin embargo, tenemos un problema grave. Ahora cov x1 , y cov x 2 , no son cero. Por ello, los estimadores están sesgados, no se conoce el tamaño o la dirección del sesgo, y las varianzas de los estimadores pueden estar sobre-estimadas.

2. El método de “ridge”. Esta técnica se basa en la observación que los parámetros son difíciles de identificar porque las varianzas de los parámetros son relativamente pequeñas en comparación con las covarianzas. Las varianzas están en la diagonal de 2 x ’ x −1 . Por ello, este estimador sugiere sumarle “algo” a dicha diagonal, de modo que los parámetros sean identificables. El estimador de “ridge” es:

RD=[x i ' x irD ]−1x i ' y i (5.36)

donde r es un escalar pequeño (p.e., 0.01) y D una matriz diagonal.

Obviamente, ahora las varianzas de los parámetros estimados van a ser menores.

25 ¿por qué sólo se reduce y no se elimina?

Page 148: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.24

Var RD=2 [x i ' x irD ]

−1 (5.37)

Pero este “beneficio” se obtiene a costa de:

E[ RD ]=E [x i ' x irD ]−1x i ' y i =E [ x i ' x irD ]−1 x i ' x i ≠

(5.38)

Hemos vuelto a obtener dos resultados importantes: (a) modelos con variables pertinentes omitidas producen parámetros sesgados, y (b) es posible tener estimadores sesgados más eficientes que un estimador insesgado.

3. Método de componentes principales. Otra propuesta de solución de colinealidad consiste en extraer de la matriz x ' x los componentes principales de ésta. Si el problema de las x es que no hay independencia lineal, ¿por qué no seleccionamos aquellos x que son “más independientes”? Así, mejoraría la estimación del modelo, pues el subconjunto de x seleccionado representaría bien a todas las variables del modelo. La pregunta es equivalente a ¿cuál combinación lineal de las x es la que tiene el mejor ajuste a todas las x? Esa será la mejor “representante”.

Sea la combinación lineal z 1=x a 1 . Entonces, z 1 ' z 1=a1 ' x ' x a1 . Buscamos a 1 tal que maximicemos z 1 ' z 1 (piénselo como matriz de información). Obviamente, si no restringimos a 1 es posible que [z 1 ʹ z 1 ]→∞ . Por ello, optimizamos restringiendo a que a 1 ʹ a 1=1 (a esto se le llama normalizar). Usando la técnica de Lagrange:

max a1=a1 ' x ' x a1−1 a 1 ' a1−1 (5.39)

derivando obtenemos la siguiente condición de primer orden:

∂∂a 1=2x ' xa 1−21a 1=0 (5.40)

es decir:

x ' x a1−1a 1=0 (5.41)

Page 149: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.25

por lo tanto, a 1 es un vector característico. Recuerde, a 1 es el vector característico asociado a λ1 la raíz característica. ¿Cuál vector característico? Aquel asociado a la raíz característica más grande de x ' x .

Así, hemos escogido el primer componente principal. Ahora, escogemos el segundo, a 2 . Para ello optimizamos sujeto a a 1 ya encontrado y a que a 1 sea ortogonal a a 2 ( a 1 ' a 2=0 )

max a2=a 2 ' x ' x a 2−2 a 2 ' a 2−1−a 1 ' a 2 (5.42)

Así, obtenemos la siguiente condición de primer orden del problema restringido

∂∂a 2=2x ' xa 2−22 a 2−a 1=0 (5.43)

entonces, premultiplicamos por a 1 '

2 a 1 ' x ' x a 2−22 a1 ' a 2− a1 ' a 1=0 (5.44)

pero a 1 ' a 2=0 y a 1 ' a1=1 . Por ello, =0 . Se deduce entonces que x ' x a2=2a 2 , es decir a 2 es el segundo vector característico (correspondiente a la segunda raíz característica, 2 ).

Podemos hacer esto k veces, obteniendo a k soluciones. Si lo hiciéramos k veces, obtendríamos una representación exactamente equivalente a la matriz original x ' x . Juntamos los resultados en la matriz A=[a 1 ,a 2 , ... , a k] que describe los ponderadores de los “componentes principales” de x ' x , tal que Z=xA son los Z componentes principales. Note que:

Z ' Z=A ' x ' xA==[1 0 ⋯ 00 2 ⋯ 0⋮ ⋮ ⋱ ⋮⋯ 0 ⋯ k

] (5.45)

Además, si el rango de x es rk habrá k−r valores propios iguales a cero.26

26 Se puede usar los valores propios como test del grado de colinealidad. Si el estadígrafo toma un valor grande, ello indica la presencia de un nivel grave de colinealidad. (D.A. Belsley, “Demeaning conditioning diagnostics through centering (with discussion)”, The American Statistician, 38:73-93.

Page 150: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.26

Finalmente, el estimador de componentes principales será:

cp=[Z ' Z ]−1Z ' y (5.46)

pero Z ' y=A' x ' y=A' x ' [x]=A ' x ' x=A' x ' x . Entonces, se desprende que cp=A

−1 de donde se deduce que:

• el estimador de componentes principales es una combinación lineal de los verdaderos parámetros.

• que el estimador de componentes principales es sesgado.

• la varianza del estimador cp es menor que la de mco .

Habitualmente, se calculan los componentes sobre variables originales estandarizadas, es decir, variables con media 0 y varianza 1. Esto equivale a tomar los componentes principales, no de la matriz de covarianzas sino de la matriz de correlaciones (en las variables estandarizadas coinciden las covarianzas y las correlaciones). Así, los componentes son autovectores de la matriz de correlaciones y son distintos de los de la matriz de covarianzas. Si se actúa así, se da igual importancia a todas las variables originales. En la matriz de correlaciones todos los elementos de la diagonal son iguales a 1. Si las variables originales están tipificadas, esto implica que su matriz de covarianzas es igual a la de correlaciones, con lo que la variabilidad total (la traza) es igual al número total de variables que hay en la muestra. La suma total de todos los autovalores es p y la proporción de varianza recogida por el autovector j -ésimo (componente) es λj/p.

El uso del estimador tiene serios problemas. Primero, los estimadores son sensibles a la escala de los datos. Por ello se recomienda estandarizar las variables (1/σ²), pero esto afecta los resultados (cambia A). En realidad, todos los tests para detectar la colinealidad sufren la debilidad de ser sensibles a transformaciones lineales de los datos (origen y escala).27 Segundo, la selección de los componentes principales se hace en función de x y no de y, lo que sería preferible. Tercero, la interpretación de los parámetros es muy difícil, pues no serán los coeficientes asociados a las variables sino aquéllos asociados a una combinación lineal de las variables.

Note que nuevamente encontramos que (1) modelos con variables pertinentes omitidas producen parámetros sesgados, y (2) es posible tener estimadores sesgados más eficientes que un estimador insesgado.

27 Maddala (1977) propone otras “soluciones” para colinealidad. Entre ellas (a) usar información a-priori, (b) transformar las variables (logs o razones) y (c) usar más datos. Estudiar y evaluar si éstas son útiles o no. G.S. Maddala (1977) Econometrics McGraw-Hill editors.

Page 151: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.27

5.05 Modelos de Varianza No Constante

Esta es una familia con dos ramas principales de modelos: heterocedasticidad y correlación de residuos. Estudiaremos en primer lugar el tema de heterocedasticidad y luego el de correlación de residuos (el contexto más usual es series de tiempo, pero existe una incipiente literatura en correlación espacial).

Es común, sobre todo en muestras de corte transversal, que los datos tengan heterocedasticidad, es decir, que los residuos (innovaciones) provengan de distribuciones con distintas varianzas. Por otro lado, en modelos de series de tiempo es común observar correlación residual, es decir que la observación de un residuo en un determinado instante de tiempo contenga información útil para predecir el error en otro instante de tiempo. Naturalmente, en algún caso particular se puede enfrentar simultáneamente la presencia de heterocedasticidad y correlación residual. Desde un punto de vista pedagógico conviene tratar ambos problemas por separado.

En el caso en que la varianza de los errores no sea residual, el modelo general se escribe de la siguiente manera:

y i=x i iE[i ]=0E[i i ' ]=

2(5.47)

donde Ω es una matriz definida positiva.

Obviamente, cuando Ω=I, volvemos al caso de mínimos cuadrados ordinarios. Por ello, el modelo descrito en (5.47) es llamado modelo de regresión generalizado. Gráficamente, el problema de heterocedasticidad se ve de la siguiente manera:

Figura 5.7

Cuando estudiamos heterocedasticidad suponemos que la matriz de covarianzas de los errores es del tipo:

Page 152: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.28

2=[ 12 0 0 ⋯ 0

0 22 0 ⋯ 0

⋮ ⋮ ⋱ ⋮ ⋮0 0 ⋯ 0 n

2] (5.48)

en cambio cuando hablamos sólo de correlación residual nos referimos a:

2=[ 1 1 2 ⋯ n−1

1 1 1 ⋯ n−2

⋮ ⋮ ⋱ ⋮ ⋮n−1 n−2 ⋯ 1 1 ] (5.49)

donde los i son correlaciones (es decir, covarianzas divididas por varianzas). Note que en (5.48) las covarianzas son cero, en tanto que en (5.49) las varianzas son constantes. Nuevamente, estas separación es sólo para efectos pedagógicos, pues en la práctica no es infrecuente encontrar ambos problemas.

5.06 Heterocedasticidad

¿Cual es el efecto de la heterocedasticidad sobre un estimador mínimos cuadrados? Recordemos que el estimador mínimos cuadrados se puede escribir como

=x ' x −1 x ' y=x ' x −1 x ' (5.50)

y es el mejor estimador lineal insesgado, distribuyéndose asintóticamente normal. Más aún, si el residuo es normal, el estimador es eficiente.

Propiedades de muestra pequeña

Tomando esperanza en (5.50) obtenemos E[ ]=Ex [E [ | x ]]= , es decir el estimador sigue siendo insesgado. Esto es razonable porque el problema de

Page 153: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.29

heterocedasticidad se refiere al segundo momento (varianzas) y no a la media de los errores.

Tomemos la varianza del estimador para el caso que x es no estocástico:

Var [ |x ]=E [ − −' |x ] =E [x ' x −1 x ' ' x x ' x −1 |x ] =x ' x −1 x ' E [ ' ] x x ' x −1

=x ' x −1 x ' [2] x x ' x −1

(5.51)

lo que podemos escribir como:

Var [ |x ]= 2

n 1n x ' x −1

1n x 'x1n x ' x

−1

(5.52)

• Si x es estocástico, la varianza no condicional es Ex [Var |x ] .

• Si se distribuye Normal, entonces ↝N [ ,2 x ' x −1 x 'x x ' x −1] .

Entonces, lo único que cambia es la varianza del estimador que ahora no es 2 x ' x −1 , por lo que las inferencias basadas en esta última están sesgadas. Por otro

lado, el estimador de σ² no tiene por qué haber retenido sus propiedades. Usualmente, no podemos saber si 2 x ' x −1 es mayor o menor que (5.52), por lo que los test t o F resultan inadecuados.

Propiedades de muestra grande

Retomemos la ecuación (5.52). Resulta evidente que:

• si los regresores se comportan bien, los términos 1 /n x ' x convergerán a Q.

• el término σ²/n converge a 0.

• el término 1 /n x 'x no tiene por qué converger.

Se puede demostrar que si los regresores cumplen las condiciones de Grenander, 1 /n x 'x converge. Ello sucede en casos de heterocedasticidad pero no

necesariamente cuando hay correlación de residuos. En este último caso, el estimador es inconsistente.

Page 154: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.30

Finalmente, el estimador es asintóticamente normal porque las mismas condiciones de Grenander que impusimos para que

n − =[ 1n x ' x]−1

[ 1nx ' ] (5.53)

se distribuya asintóticamente normal, se cumplen aún si hay heterocedasticidad. También, se aplica el teorema de límite central.

La varianza asintótica del estimador será:

V.A. = 2

n Q−1 plim 1

n x 'x Q−1 (5.54)

En resumen, la heterocedasticidad no afecta la estimación punto de los parámetros porque éstos no dependen de la varianza de la distribución. Pero, obviamente afecta la varianza del estimador.

Recordemos que:

Var [ |x ]=x ' x −1 x ' [ 2]x x ' x −1 (5.55)

Cuando hay homocedasticidad, E[i i ' ]=2 I , por lo que el problema se

reduce a tener un estimador de 2 . Por el contrario, el problema que presenta la existencia de heterocedasticidad en un experimento es exactamente nuestra ignorancia respecto de la estructura de ésta, es decir, respecto de E[i i ' ] . Vamos a realizar un truco que es estándar en la literatura econométrica: derivamos el estimador óptimo y sus propiedades bajo el supuesto que conocemos E[i i ' ] y luego estudiamos qué sucede si esta última suposición no es correcta. El primer estimador es llamado el estimador eficiente, en tanto que el segundo es llamado estimador posible.

Estimación eficiente

Si tuviésemos E[i i ' ] podríamos resolver el problema. Pensemos que, en ese caso, podríamos usar directamente el estimador de la varianza:

Var OLS =x ' x −1 x ' E [ ' ]x x ' x −1 (5.56)

Page 155: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.31

Basados en la idea que una matriz positiva y definida puede ser factorizada, vamos a hacer una factorización conveniente. Tomemos una matriz T(n×n) y premultipliquemos el modelo, tal que

Ty i=Tx i T i (5.57)

Se sigue cumpliendo que E[T ]=0 , por lo que podemos obtener:

E[T ' T ' ]= 2T 'T (5.58)

Ahora, si T 'T=I habríamos solucionado el problema de heterocedasticidad, pues podemos estimar el modelo (5.57) por mínimos cuadrados ordinarios ya que los errores serían homocedásticos y recuperar los estimadores de los parámetros del modelo original. Queremos, entonces, encontrar T tal que −1=T ' T para ponderar el modelo. El estimador de mínimos cuadrados ponderados –también llamado estimador de Aitken28– sería:

GLS=x i ' T ' T x i −1x i ' T ' T y i pero T ' T=

−1

=x i '−1 x i

−1x i '−1 y i

(5.59)

Nóte que este estimador es más general de lo que parece. Ciertamente, cualquier forma de heterocedasticidad puede ser acomodada en el estimador, provisto que la matriz de covarianza de los errores sea diagonal del tipo 2 . Nuevamente, note que el estimador de mínimos cuadrados ordinarios es un caso particular de mínimos cuadrados generalizados, aquel donde T=I.

Estimación Posible

¿Qué sucede cuando es desconocida? En algunas ocasiones, un reducido número de parámetros, θ, es capaz de describir el patrón de heterocedasticidad. Por ejemplo, i

2= 2 f z i ; entonces, podríamos usar = , es decir, el estimador de basado en el estimador de θ.

Esto parece lógico: si plim = entonces → . En realidad, no es siempre así. Sea FGLS=x i '

−1 x i −1 x i '

−1 y i el estimador de mínimos cuadrados

28 A. Aitken (1935), “On least squares and linear combinations of observations”, Proceedings of the Royal Statistical Society, 55:42-48.

Page 156: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.32

generalizados posible. ¿Cuándo son asintóticamente equivalentes FGLS y GLS ? Las condiciones son:

plim[1n x ' −1x−1n x '

−1 x ]=0

plim[ 1 nx ' −1−

1nx '−1]=0

(5.60)

La primera condición dice que si la matriz de momentos ponderados converge a una matriz positiva definida, la matriz de momentos ponderados posibles debe converger a la misma matriz. Esto, en realidad, es un supuesto.

La segunda condición dice que si los regresores transformados están bien comportados, la suma (y por consiguiente el estimador) se distribuirá asintóticamente igual a la verdadera suma y estimador (no necesariamente, pero típicamente, normal).

Lo interesante es que no se necesita que el estimador de θ sea eficiente, basta con que sea consistente para que el estimador de mínimos cuadrados generalizados posible sea eficiente. Para demostrar esto basta con plantear el estimador máximo-verosímil de los parámetros del modelo generalizado y demostrar que es equivalente al de mínimos cuadrados generalizados posible, por lo que no hay ganancia de eficiencia al usar o .

Tests de Heterocedasticidad

Una buena razón para estudiar tests de heterocedasticidad es, naturalmente, la detección del problema y su eventual corrección. Una razón más sutil, sin embargo, es que cada tipo de test nos enseña de manera simple y valiosa una forma particular que puede tomar la heterocedasticidad y, por lo tanto, nos prepara para anticipar en cuáles contextos una u otra forma de heterocedasticidad puede estar presente.

1. Tests en muestras repetidas

Este es el test más simple de heterocedasticidad y se aplica cuando se tienen varias muestras repetidas de un mismo experimento. Un ejemplo en el cual este test es aplicable es cuando se tienen datos agrupados (p.e., ciudades): en cada cada ubicación habrá ni observaciones de distribuciones con varianzas potencialmente diferentes.

La lógica de operación es la siguiente:

• Estime el modelo y i=x i i y compute i2 para cada muestra i=1, ..., m.

• Estime el modelo y i=x i i y compute *2 con todos los datos.

Page 157: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.33

El test es directo sobre la hipótesis nula que la varianza de los grupos no difiere de aquella de la muestra completa, ajustando por tamaños relativos

Homocedasticidad ≡H 0 :n−m ln *2−∑

j=1

m

n j−1 ln i2=0

Heterocedasticidad ≡H 1 : n−m ln *2−∑

j=1

m

n j−1 ln i2≠ 0

(5.61)

El test es, directamente, un test de razones de verosimilitud

−2[n−m ln *2−∑

j=1

m

n j−1 ln i2]↝ 2 m−1 (5.62)

Debido a que los estimadores de las varianzas por muestra y totales son formas cuadráticas de errores normalizados, el test se distribuye χ²(m-1). Los grados de libertad se derivan del número de varianzas libres (m) menos la restricción de una única varianza común.

2. Test de Breusch y Pagan29

Este test se aplica cuando no hay muestras repetidas y, por lo tanto, no es posible disponer de varias realizaciones de la variable aleatoria 2 . Una vez estimado el modelo y i=x i i , lo que se hace es:

• Computar g i=i2 / 2

• Hacer una regresión entre gi y las variables que quiera, incluyendo x, y computar la suma de cuadrados explicados, SCE.

El test consiste en estudiar la suma de cuadrados explicados, SCE. Si una regresión puede “explicar” la proxy de heterocedasticidad, entonces hay heterocedasticidad. Alternativamente, si hay homocedasticidad, solo la constante debiese ser estadísticamente significativa. Por ello,

H 0 : Homocedasticidad ≡SCE=0H 1 : Heterocedasticidad ≡SCE≠ 0 (5.64)

29 Breusch, T and A. Pagan (1979), “A simple test of heteroskedasticity and random coefficient variation”, Econometrica 47:1287–1294.

Page 158: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.34

Debido a que los estimadores de las varianzas por muestra y totales son formas cuadráticas de errores normalizados, ½SCE se distribuye χ²(p-1) bajo la hipótesis nula. Los grados de libertad se derivan del rango de regresores, p, en la segunda regresión.

3. Test de Goldfeld y Quandt30

Este test aprovecha información extra-muestral para estudiar problemas de heterocedasticidad. Si creemos que la variable xk es la causante de heterocedasticidad, el procedimiento es:

• Ordene la muestra de mayor a menor segun xk.

• Remueva c datos del centro de la muestra.

• Haga la regresión del modelo y i=x i i en cada grupo y compute la suma de cuadrados residuales, SRC.

El test consiste en estudiar la diferencia entre las SRC. Si éstas son iguales, significa que no hay heterocedasticidad. Por ello,

H 0 : Homocedasticidad ≡SRC 1=SRC 2

H 1 : Heterocedasticidad ≡SRC 1≠SRC 2(5.65)

Como estamos comparando dos sumas de residuos normales al cuadrado y hay el mismo número de regresores y datos en cada sub-grupo, entonces el test es SCR 1

SCR 2↝ F [n−c /2−kn−c /2−k] .

4. Test de White31

El test de White utiliza una lógica similar a la del test de Breusch y Pagan en el sentido de hacer una regresión entre la proxy de la varianza de los errores y el grupo de regresores de la regresión original, x, pero lo extiende para incluir sus cuadrados y productos cruzados. Es decir,

• Computar i= y i−− x i• Hacer una regresión entre i

2 y las variables x i , x i2 y los productos cruzados

x i x j .

Es decir,

30 S. M. Goldfeld and R. E. Quandt (1965), “Some tests for homoskedasticity”, Journal of the American Statistical Association, 60:539–547.

31 White, H. (1980), “A Heteroscedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroscedasticity”. Econometrica, 48:817-838.

Page 159: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.35

i2=x i x i

2x i x j 'i (5.66)

La hipótesis nula es que en un caso de homocedasticidad ninguno de los coeficientes, mas allá de la constante, debe ser significativo. El test preferido de White es un multiplicador de Lagrange hecho sobre la hipótesis nula que ninguna variable debiese ser significativa si el modelo es homocedástico. Aunque la distribución de muestra finita es desconocida, es posible demostrar que nR2 se distribuye asintóticamente χ2(p), donde p es el número de estimadores excepto la constante. Otra alternativa es hacer un test F estándar de variables omitidas.

Note que este test es bastante general pues no se necesita hacer supuesto alguno sobre la forma de la heterocedasticidad que afecta potencialmente a los datos. Sin embargo, el test es potente solo asintóticamente lo que significa que tiene poca potencia en muestras pequeñas. Adicionalmente, el uso de muchos términos cruzados hace difícil el rechazo de la hipótesis nula y exacerba el problema de pocos grados de libertad.

Matrices de Covarianzas Robustas

Hay muchísimos tests de heterocedasticidad. Pero ¿realmente necesitamos estos tests? ¿necesitamos entender qué es lo que causa la heterocedasticidad?

• Verdaderamente, no. Lo que queremos es 2 para poder hacer mínimos cuadrados generalizados.

• En realidad, no. Lo que queremos es 2 , un estimador de 2 .

• Tampoco, lo que queremos es un estimador de = 2 x 'xn

• En realidad, lo que queremos no es todo sino sólo su diagonal.

White (1980) demuestra que un buen estimador de = 2 x 'xn

es

S0=1n∑ i

2x i ' x i . Por ello, la “matriz de corrección de la varianza de los parámetros

para el caso de heterocedasticidad” –también llamada “matriz de errores robustos”– es:

Var =n x i ' x i −1 S0 x i ' x i

−1 (5.67)

Note que no es necesario conocer la forma de la heterocedasticidad, pues el estimador es general.

Page 160: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.36

Extensión de Newey y West

Newey y West (1987) han extendido el estimador de White para el caso en que la matriz Ω no es diagonal. El estimador es:

Q=S01n∑j=1

J

∑i= j1

n jJ1

t t− j x t ' x t− jx t− j ' x t (5.68)

donde j/(J+1) es una corrección no paramétrica por tamaño de muestra.

Modelos de heterocedasticidad condicional

Generalmente estamos interesados en modelar la media condicional de una variable serie. No obstante, recientemente se ha hecho común modelar la varianza de la serie, pues ella puede reflejar comportamientos que son característicos de algunos problemas económicos tales como los precios de activos, variables financieras, riesgo, etc.

Los modelos de heterocedasticidad condicional son modelos donde la varianza de la serie no es constante, aunque sigue un proceso estacionario. Un modelo típico de esta familia es el modelo ARCH32:

y t=x ttt=t 01 t−1

2 1/2(5.69)

con normal estándar. Como resulta obvio, E[t |t−1 ]=0 y E[t ]=0 . Así es que el modelo sigue describiendo la media condicional de y t .

Ahora, la varianza condicional, V [t |t−1 ] , es

V [t |t−1 ]=E [t2 |t−1]

=E [t2 ][01t−1

2 ] =[01t−1

2 ](5.70)

Pero la varianza no condicional, V [t ] , es

32 Engle, R. F. (1982). "Autoregressive Conditional Heteroskedasticity with Estimates of the Variance of U.K. Inflation," Econometrica, 50:987-1008.

Page 161: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.37

V [t ]=E [V t |t−1]=01E [t−1

2 ]=01V [t−1

2 ](5.71)

Pero si la varianza es estacionaria, en el sentido que no cambia en el tiempo, entonces V [t ]=V [t−1 ] , por lo que la ecuación (5.71) implica

V [t ]=0

1−1(5.72)

¿Cómo se ve un proceso de este tipo? Gráficamente:

Figura 5.8Proceso ARCH y su varianza

Es decir, la serie presenta segmentos de comportamiento disímil. El proceso alterna entre periodos de gran inestabilidad, donde shocks grandes son seguidos de shocks grandes, y otros de relativa estabilidad, donde shocks pequeños siguen a shocks pequeños.

Resulta natural preguntarse qué modelo económico puede producir este tipo de comportamiento. Un ejemplo típico son las guerras de precios en mercados donde hay colusión. Mientras la disciplina del cartel se mantiene hay sólo pequeñas desviaciones

Page 162: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.38

del precio, en cambio cuando se rompe el cartel hay grandes fluctuaciones de precios en la medida que todos los productores compiten por una mayor participación del mercado.

El modelo ARCH puede ser extendido para incorporar términos tipo media móvil en la varianza predicha. En ese caso se llama GARCH (por generalizado)33 y se modela:

y t=x ttt

2=01t−12 2t−1

2 (5.73)

También se puede extender para incluir regresores, z t en la varianza, de modo que el modelo queda:

y t=x ttt

2=01t−12 2t−1

2 3z t(5.74)

Finalmente, algunos modelos incluyen la varianza condicional en el modelo de la media condicional. Esto da origen a un modelo ARCH-M que es ampliamente usado en finanzas.34

y t=x tt2t

t2=01t−1

2 2t−12 (5.75)

¿Cómo sabemos que el modelo es del tipo GARCH? Una manera simple es estimar el modelo de la media condicional, luego obtener los residuos, computar los residuos al cuadrado (estimador de la varianza) y computar la función de autocorrelación. Si ésta no muere súbito en t=1, hay heterocedasticidad condicional.

Es posible, además, hacer tests de especificación para saber si el modelo correcto es GARCH(p,q) o GARCH(0,q). El problema está en que ese tipo de test no permite discernir entre esa hipótesis y esta hipótesis: GARCH(0,q) vs GARCH (0,p+q).

¿Cómo estimamos un modelo GARCH? El proceso de estimación es bastante no lineal. Lo que se hace es iterar en la función de verosimilitud hasta que ésta alcance un máximo. Ello supone que los errores son normales.

33 Bollerslev, Tim (1986). "Generalized Autoregressive Conditional Heteroskedasticity," Journal of Econometrics, 31:307-327.

34 Engle, Robert F., David M. Lilien, and Russell P. Robins (1987). "Estimating Time Varying Risk Premia in the Term Structure: The ARCH-M Model," Econometrica, 55:391-407.

Page 163: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.39

log L=−12 log 2−1

2 log t2 −

12 y t−x t

2

t2 (5.76)

Donde

t2=c y t−1−x t−1

2t−12 (5.77)

5.07 Correlación de residuos

Supongamos ahora que que E[i , j ]≠ 0 . En tal caso, la matriz de covarianza de residuos es:

[11 12 ⋯ 1n

21 22 ⋯ 2n

⋮ ⋮ ⋱ ⋮n1 n2 ⋯ nn

] (5.78)

Aún si consideramos el problema de residuos son homocedásticos

[ 2 12 ... 1n

21 2 ⋯ 2n

⋮ ⋮ ⋱ ⋮n1 n2 ⋯ 2 ] (5.79)

y simétrica, es decir, ij= ji resulta imposible de estimar (5.79) con una muestra finita. Hay más incógnitas que grados de libertad. Usualmente:

• Si la forma de ij no es parametrizable, es decir no tiene una estructura, no es estimable.

• Si la forma de ij es parametrizable, es decir tiene una estructura (simple), es estimable.

• Si es estimable, los parámetros estimados por mínimos cuadrados del modelo y t=x tt siguen siendo insesgados, excepto si las variables de lado derecho

Page 164: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.40

contienen un rezago de la variable endógena. La demostración del primer caso es:

=x t ' x t −1x t ' y t pero yt=x tt

=x t ' x t −1x t ' [x tt ]=x t ' x t

−1 x t ' t(5.80)

y por lo tanto, E[ ]= .

Supongamos que y t=x tt y t=t−1t donde t es ruido blanco. Entonces,

V [ ]= 2

∑ x t2

22

∑ x t2 [∑ x t x t−1

∑ x t22∑ x t x t−2

∑ x t2...N−1∑ x1 xN

∑ x t2 ] (5.81)

por lo tanto, V [ ]=V [ OLS ] sólo si ρ=0 , es decir cuando no hay correlación.

La varianza del estimador bajo autocorrelación podrá ser mayor o menor que la de mínimos cuadrados dependiendo del valor de . Si es positivo, se sobreestima la varianza. Si es negativo, no es claro el sesgo.

La solución al problema es, naturalmente, usar mínimos cuadrados generalizados, pero esto sólo es posible si conocemos Ω. Lo que se hace, usualmente, es hacer tests estadísticos para determinar el tipo de correlación de los residuos, dentro de modelos relativamente simples en términos del número de parámetros.

¿Cómo sabemos si hay correlación residual?

Un test bastante común es el de Durbin y Watson35, para el caso de errores con correlación de orden 1. Es decir, t= t−1t (correlación de orden 2 es t=1t−12t−2t ). El test es:

d=∑i=2

T

t−t−1 2

∑i=1

T

t2

(5.82)

35 Durbin, J. and Watson, G.S., "Testing for Serial Correlation in Least Squares Regression I", Biometrika, Vol. 37, 1950, pp. 409-428.

Page 165: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.41

La lógica es que:

• si hay correlación positiva, t será “cercano” a t−1 y, por lo tanto, d será cercano a cero.

• si hay correlación negativa t será “lejano” a t−1 y, por lo tanto, d será distinto de cero.

Desarrollemos el cuadrado del numerador de la ecuación (5.82).

∑i=2

T

t−t−12=∑

i=2

T

[t2t−1

2 −2t t−1] (5.83)

Sumando y restando convenientemente:

∑i=2

T

t−t−12=∑

i=1

T

t2−1

2∑i=1

T

t−12 −T

2−∑i=2

T

2t t−1 (5.84)

de vuelta en (5.82)

d=∑i=1

T

t2−1

2∑i=1

T

t−12 −T

2−∑i=2

T

2t t−1

∑i=1

T

t2

(5.85)

es decir,

d=1−1

2

∑i=1

T

t2

∑i=1

T

t−12

∑i=1

T

t2

−T

2

∑i=1

T

t2

−∑i=2

T

2 t t−1

∑i=1

T

t2

(5.86)

Notemos que:

• Si T es razonablemente grande, el segundo y cuarto términos serán cercanos a cero.

• Igualmente, el tercer término será cercano a 1.• El último término es interesante, porque es

Page 166: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.42

cov t ,t−1var t−1

(5.87)

es decir, es el estimador natural de mínimos cuadrados de . En resumen, podemos escribir d ≈ 2 1− .

Volvamos al test de Durbin y Watson. Si d ≈ 2 1− , entonces tenemos los siguientes casos:

• Si no hay correlación d = 2.• Si hay correlación positiva, 0 , d es menor que 2. En el límite, d es 0 cuando

es 1.• Si hay correlación negativa, 0 , d es mayor que 2. En el límite, d es 4 cuando

es -1.

por lo tanto, d estará entre 0 y 4.

La aplicación del test no es tan simple, porque hay tres casos que estudiar. En este caso habrá dos “tests” son:

H 0 :No hay autocorrelaciónH 1 :Hay autocorrelación positiva

H 0 :No hay autocorrelaciónH 1 :Hay autocorrelación negativa

Como se ve, la hipótesis nula es siempre la misma pero la hipótesis alternativa es compleja. Otro problema es que usamos los residuos del mínimos cuadrados como estimadores de los residuos verdaderos, es decir, éstos dependen de x. Por ello, la distribución del test no es estándar y tiene distintos límites superiores e inferiores.

Si hacemos un test de correlación positiva al 95%, entonces (1) si d está por encima del limite superior no puedo rechazar la H 0 que no hay autocorrelación y (2) si d está por debajo del límite inferior tengo correlación positiva.

Page 167: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.43

Figura 5.9

Si hacemos un test de correlación negativa al 95%, entonces (1) si d está por debajo de 4-limite superior no puedo rechazar la H 0 que no hay autocorrelación y (2) si d está por debajo del límite inferior tengo correlación positiva.

Figura 5.10

El test completo de Durbin y Watson para autocorrelación es:

Figura 5.11

2LI LS

Inconcluso

PositivaNo hay o negativa

2 4-LI4-LS

InconclusoPositiva o no hay

Negativa

2 4-LI4-LS

Inconcluso

Negativa

LSLI

Positiva

No hay correlación

Inconcluso

Page 168: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.44

El test de Durbin y Watson no se puede aplicar cuando hay variables del lado izquierdo rezagada al lado derecho. En ese caso se usa el test h de Durbin (1970).36 Este estimador consiste en computar

h=r n1−n

2 (5.88)

donde r es el coeficiente de correlación del primer rezago, n es el tamaño de muestra y

2 es la varianza del estimador del rezago de la variable endógena. El estadígrafo h se distribuye normal estándar.

Soluciones al problema de correlación de primer orden.

Volvamos al modelo original.

y t=x ttt=t−1t

(5.89)

Podemos multiplicar el modelo original por , rezagarlo un periodo y restarlo del original para obtener:

y t− yt−1=x t−x t−1t−t−1 (5.90)

es decir:

y t= yt−1[x t− x t−1 ]t (5.91)

• Note que ahora no hay problema con los errores.

• Si conociéramos , podríamos transformar los datos y estimar con mínimos cuadrados. En realidad esto equivale a hacer mínimos cuadrados generalizados.

¿Lo conocemos? No. Pero tenemos una aproximación, d. Obtenemos d haciendo una regresión en los residuos originales de mínimos cuadrados y luego usamos =1−d /2 .

36 Durbin, J. “Testing for serial correlation in least squares when some of the regressors are lagged dependent variables” Econometrica, 38: 410-421.

Page 169: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.45

Hay una estrategia estadísticamente mejor (Cochrane-Orcutt).37

1. Estimar el modelo original por mínimos cuadrados y obtener los residuos.

2. Hacer una regresión entre residuos y su rezago, obteniendo 1

3. Transformar el modelo usando 1 (es decir, y t− 1 y t−1 , etc).

4. Ir a 1 y volver a hacer el ejercicio hasta que el converja.

Un problema del método de Cochrane-Orcutt es que nada garantiza que la distribución del estimador converja a un óptimo global y, de hecho, podría ser el caso en que haya más de una moda en dicha distribución. Es por ello que se sugiere usar una estrategia de búsqueda sobre la base de una “grilla” que verifique todos los valores de y satisfaga algún criterio de óptimo (p.e., mejor ajuste). En tal caso, un método

sencillo es el de Hildreth y Lu38 que consiste en estimar el modelo transformado con =1, 0.99, 0.98, ... 0 ,... -0.99, -1 y se escoge el estimador minimizando la suma de residuos al cuadrado.

5.08 Variables instrumentales

El último supuesto que no hemos levantado es la ausencia de correlación entre los regresores y el error, es decir, E[ x ,]=0 . En numerosas ocasiones no es posible estar seguros que ello se cumple, en particular cuando se usan datos macroeconómicos.

El problema ocurre, en primer lugar, cuando hay variables omitidas que están correlacionadas con aquellas que se usan para modelar. Por ejemplo, cuando se estudia el rendimiento escolar y se omite la educación de los padres como determinante, entonces la estimación entrega resultados sesgados porque algunas variables independientes (p.e., ingresos familiares) están típicamente relacionadas con la variable omitida. Un segundo caso se produce cuando hay problemas de endogeneidad en alguna variable del lado derecho: este “sesgo de simultaneidad” lo estudiaremos más adelante. Una tercera causa de violación de este supuesto es cuando las variables independientes están medidas con error. En tal caso, como vimos en la sección 2, cada vez que se observa x no se observa la verdadera variable sino una medición con ruido el cual estando correlacionado con x queda incluido en el error. Una cuarta causa de correlación entre regresor y residuo se da cuando hay sesgo de selección, es decir cuando la conformación de la muestra no es independiente del diseño del experimento. Es decir, cuando aquellos que más se benefician del tratamiento son aquellos que más participan del mismo.

37 Cochrane, D. and G.H. Orcutt, 1949, Application of least squares regression to relationships containing autocorrelated error terms, Journal of the American Statistical Association, 44: 32-61.

38 Hildreth, C. and J.Y. Lu, 1960, Demand relations with autocorrelated disturbances, Technical bulletin 276, Dept. of agricultural economics (Michigan State University, East Lansing, MI).

Page 170: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.46

¿Qué sucede con el estimador de mínimos cuadrados si E[ x ,]≠0 ? Ninguno de los resultados que obtuvimos sobre las propiedades del estimador de mínimos cuadrados se mantienen. En particular, sabemos que va a haber sesgo, usualmente de tamaño y dirección desconocidas. Además, las varianzas de los estimadores están distorsionadas (típicamente, subestimadas).

Una solución sería usar una o más variables que, estando correlacionadas con los regresores, no esté relacionadas con el error. En ese caso, vamos a usar dicho conjunto de variables auxiliares como un instrumento de x. En términos sencillos, buscamos un conjunto z tal que la correlación entre z y x sea alta pero que la correlación entre z y sea baja. Usualmente esto resulta más fácil de decir que de hacer.39

En primer lugar vamos a demostrar que el estimador mínimos cuadrados bajo la hipótesis que los residuos están correlacionados con x en el modelo de interés es inconsistente. Como existe correlación entre regresor y residuo:

E[| x ]=i (5.92)

Supongamos que E[]=0 . Este supuesto es irrelevante si la ecuación incluye una constante. La correlación entre regresor y residuo puede ser escrita como:

Cov [x i ,i ]=Cov [ x i , i | x ]=Cov [x i ,i ]= (5.93)

Aplicamos el Teorema de Kinchine y obtenemos plim 1n x ' = . Si esto es cierto,

entonces

E[ ]= x ' x −1 x '≠ (5.94)

y por ello el Teorema de Gauss-Markov no se sostiene. De hecho, el estimador es, además, inconsistente porque

plim = plim x ' x −1 plim x '=Q−1≠ (5.94)

39 Aunque la mayor parte de los textos señalan que el estimador de variables instrumentales fue desarrollado en el contexto de modelos de ecuaciones simultáneas, el primer trabajo que desarrolla este método es el de Sewall Wright (1928) en un apéndice del libro de su padre P.G. Wright The Tariff on Animal and Vegetable Oil. El término “variable instrumental” fue acuñado por Olav Reiersol (1941, “Confidence Analysis by Means of Lag Moments and Other Methods of Confluence Analysis”, Econometrica, 9:1-24). Reiersol colaboró también con el desarrollo del esperanto (O. Reiersol and R. C. Marble: A comparison between word formation in Esperanto and English, Esperantologio, Volumo I, Numero 1, pp. 1-80, Aûgusto 1949)

Page 171: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.47

Derivemos ahora el estimador de variables instrumentales, IV . En particular notemos que la varianza no condicional de es

Var [i ]=Var [|x iE[i |x i ]]= 2∞ (5.95)

Los supuestos necesarios para derivar el estimador IV son:

• [x i ,z i ,i ] son secuencias i.i.d. de variables aleatorias

• E[x ij2 ]=Q xx∞ y constante

• E [ z ij2 ]= Qzz∞ y constante

• E [x ij ,z ij ]=Qxz∞ y constante

• E [ij | z ij ]=0

Así lo que se obtiene es:

plim 1n Z ' Z=Qzz plim 1

n Z ' X=Qzx plim 1n Z ' =0 (5.96)

Las condiciones (5.96) definen el conjunto de instrumentos admisibles. Sea entonces el modelo y i=x i i y supongamos que tenemos un conjunto de variables z. Entonces pre-multipliquemos el modelo por zʹ :

z i ' y i=z i ' x i z i ' i (5.97)

Aplicando el plim tenemos

plim 1n z i ' y i= plim 1

n z i ' x i plim 1n z i ' i (5.98)

pero el último término es cero. Entonces

Page 172: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.48

plim 1n z i ' x i

−1

plim 1n z i ' y i= (5.99)

Note que para que (5.99) tenga sentido, z ’ x tiene que ser una matriz conformable. Por ello, debe haber k variables en la matriz z. En este caso, estimador de variables instrumentales es

IV=z i ' x i −1z i ' y i (5.100)

Note que este estimador es consistente. Es decir, sus propiedades son asintóticas. Por ello, el tamaño de muestra es una consideración importante al momento de usar variables instrumentales. Note que en el caso especial que i=0 , entonces γ=0 y obtenemos el estimador de cuadrados mínimos. Es decir, el estimador de variables instrumentales es más general que el de cuadrados mínimos. Otra manera de pensarlo es que en el caso que no haya correlación entre regresor y residuo, el mejor instrumento de x será el mismo x y el estimador de variables instrumentales es el estimador clásico mínimos cuadrados.

La distribución del estimador de variables instrumentales se obtiene de manera análoga al caso de mínimos cuadrados ordinarios. Es decir,

n IV−=[ 1n z ' x ]−1

[ 1 nz ' ] (5.101)

Basado en el análisis que hicimos para el caso de ausencia de correlación entre regresores y residuos, el último término cumple

1nz ' d→N [0,2 Qzz ] (5.102)

por lo que:

1n z ' x 1

nx ' d→N [0, Qxz

−1 2 Qzz Qzx−1] (5.103)

El estimador de la varianza de los residuos es, naturalmente,

Page 173: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.49

2=1n∑i=1

n

y i−x i ' iv 2

(5.104)

¿Qué sucede si la matriz tiene un rango mayor a k? Naturalmente, z ' x no es cuadrada y no tiene inversa. Sin embargo, consideremos el siguiente algoritmo:

a) Hacer una regresión de x en z (para todo x).

b) Hacer una predicción de x basada en z llamada x .

c) Hacer una regresión de y en x .

Note que el estimador derivado en la etapa a) no tiene problemas de consistencia y que la proyección derivada en b) es una representación óptima de x y que, además, por el hecho de ser una predicción es ortogonal a .

Entonces, el estimador del modelo estimado usando la predicción sería:

IV= x ' x −1 x ' y (5.105)

Este es un procedimiento de mínimos cuadrados en dos etapas (2SLS).40 Es muy común en la literatura empírica. Pero es posible estimar todo el modelo en un sólo paso. Debido a que x=z z ' z −1z ' x , entonces

IV=x ' z z ' z −1z ' x −1 x ' z z ' z −1z ' y (5.106)

Quedan los detalles –que se los dejo a ustedes– de obtener la varianza del estimador de variables instrumentales y, lo que es más difícil, el estimador de la varianza de los residuos. Un punto que no es menor es el de la dimensionalidad de las matrices en (5.106). Para que la estimación sea posible es necesario que el número de instrumentos sea al menos igual al número de variables que se está instrumentando.

Hay algunos econometristas que señalan que el estimador natural de la econometría clásica es el de variables instrumentales. Mínimos cuadrados sería una caso particular en el que el mejor instrumento de x es la misma variable. Como mínimos cuadrados es también un caso particular de mínimos cuadrados generalizados, entonces el estimador mínimos cuadrados generalizados con variables instrumentales (GLS-IV) debiera ser el más general de todos los estimadores lineales.41

40 El método de mínimos cuadrados en dos etapas fue desarrollado en 1957 por R.L. Basmann (“A generalized classical method of linear estimation of coefficients in a structural system of stochastic equations”. Annals of Mathematical Statistics 20:46-63) y popularizado por H. Theil en su clásico libro Economic Forecasts and Policy, North Holland, Amsterdam, 1958.

41 Un tratamiento completo de este estimador se encuentra en el libro de R. Bowden y D. Turkington, Instrumental Variables, Cambridge University Press, 1984.

Page 174: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.50

Condiciones de validez de los instrumentos

Una pregunta muy importante en la aplicación de métodos de variables instrumentales es ¿cómo saber si los instrumentos son adecuados? En principio, le hemos exigido dos características a las variables para que sean instrumentos adecuados: (1) que estén correlacionados con la(s) variable(s) que tiene el problema de correlación con el error, y (2) que no estén correlacionados con el residuo. La primera condición es que el instrumento sea pertinente, en tanto que la segunda exige que sea exógeno.

Cuando el número de instrumentos es igual al número de variables que se quiere instrumentar, las condiciones antes expuestas son directas y el estimador de variables instrumentales está exento de complicaciones. Cuando hay un mayor número de instrumentos, la primera condición se vuelve menos clara. Si uno considera el estimador de variables instrumentales como un estimador de dos etapas, entonces contar con un número muy grande de posibles instrumentos en una muestra finita puede ser costoso en términos de grados de libertad. Si el modelo es, además, multivariado el problema del número y tipo de instrumentos es parte fundamental del análisis de modelos de ecuaciones simultáneas.

¿Qué sucede si algunos de los instrumentos, en realidad, están correlacionados con el error? Entonces, el estimador es inconsistente. Pero si hay al menos tantos instrumentos válidos como variables que necesitan ser instrumentadas, el estimador sigue siendo consistente. Entonces ¿cómo podemos hacer un test de validez del supuesto que hay suficientes instrumentos válidos? En principio, se podrían obtener los residuos de la estimación de variables instrumentales y luego hacer una regresión de éstos en los instrumentos. Si el R² de esta segunda regresión es cero, entonces los instrumentos no están correlacionados con el residuo. El problema es que si el R² es significativo, entonces algunos o todos los instrumentos son inválidos, pero no sabemos cuáles.

El siguiente procedimiento, llamado test de Wu-Hausman42, es frecuentemente usado para estudiar la ortogonalidad entre instrumento y residuo. El modelo es de la forma y=x z 2 , donde z 2 es una matriz de regresores fijos entre muestras (por esta razón z 2 es ortogonal al residuo ). Suponga que existe un conjunto de variables z 1 y que podemos definir z=z 1∪z 2 como la matriz de instrumentos de x. Entonces el

estimador de variables instrumentales en dos etapas se puede escribir como:

2SLS=Y ' P zY −1Y ' P z y donde P z=z z ' z

−1z ' (5.107)

42 Este test fue propuesto por M. D. Wu (“Alternative Tests of Independence Between Stochastic Regressors and Disturbances”, Econometrica, 40:733-750, 1973) y corresponde al caso particular del test de J. Hausman (“Specification Tests in Econometrics”, Econometrica, 46:1251-1271, 1978). A. Nakamura y M. Nakamura prueban la equivalencia de ambos tests (“On the relationships among several specification tests presented by Durbin, Wu and Hausman”, Econometrica, 49:1583-1588, 1981).

Page 175: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.51

De esta manera, los estimadores de mínimos cuadrados y variables instrumentales son:

OLS=[x ' I−P z 2x ]−1 [x ' I−P z 2

y ] IV=[ x ' P z−P z 2

x ]−1 [ x ' P z−P z 2 y ]

(5.108)

donde P z=z z ' z −1z ' y P z 2

=z 2z2 ' z 2−1z 2 ' .

Wu (1973) demuestra que la diferencia de los dos estimadores se distribuye:

OLS−IV↝ N 0,2D (5.109)

donde D=[ x ' P z−P z 2]−1−[ x ' I−P z 2

]−1 pos.def. , por lo que el siguiente test

adecuado es:

T 3= OLS−IV ' D

−1 OLS− IV 2 ↝G 2 (5.110)

donde 2= y−x IV ' I−P z y−x IV

n−G−K 2, G=rango(x) y K2=rango de z 2 .

Si no se rechaza la hipótesis nula significa que ambos estimadores son iguales: sabiendo que el estimador de mínimos cuadrados ordinarios es sesgado, se concluye que los instrumentos no pueden ser ortogonales al error.

¿Qué sucede si los instrumentos no están fuertemente relacionados con las variables que se quiere instrumentar? Este problema es llamado instrumentos débiles. Existe una creciente literatura al respecto con diferentes enfoques. Hall, Rudebusch y Wilcox (1996)43 estudian la mínima correlación canónica entre instrumentos y regresores. Shea (1997) desarrolla un test de R² basado en el uso de regresores adicionales. 44 El trabajo de Stock y Yogo (2002)45 es superior a éstos en el sentido que proponen una definición formal y un test de la debilidad de los instrumentos que , además, nos ayuda a entender el problema. Si el modelo es de la forma y=Y y su forma reducida es

43 Hall, A., G.D. Rudebusch and D. Wilcox (1996): “Judging Instrument Relevance in Instrumental Variables Estimation,” International Economic Review 37:283-298.

44 Shea, J. (1997): “Instrument Relevance in Multivariate Linear Models: A Simple Measure,” Review of Economics and Statistics 79:348–352.

45 J. Stock y M. Yogo “Testing for weak instruments in linear IV regressions”, NBER Technical Papers 284, 2002.

Page 176: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.52

del tipo Y=z , donde z es la matriz de instrumentos, entonces el estimador de variables instrumentales en dos etapas se puede escribir como:

2SLS=Y ' P zY −1Y ' P z (5.111)

Rothenberg (1984)46 demuestra que este estimador puede ser escrito como:

2SLS−=½

uS /12 /S /

2(5.112)

donde u= ' z / ' z ' z½ , = ' z / ' z ' z

½ , S= ' P z / , y S=V ' P z /

½ .

El parámetro 2= ' z ' z / es el “coeficiente de atenuación” y es otra versión del que estudiamos en la ecuación (5.25). Note que si los instrumentos son fijos y los residuos normales, entonces y se distribuyen como normales estándares y S y S son elementos de una matriz con distribución de Wishart. Así, las

distribuciones de estos cuatro elementos no dependen del tamaño de muestra. De hecho, en la ecuación (5.112) el tamaño de muestra solo entra a través de μ. Más aún, μ cumple exactamente el rol que T cumple en la derivación del estimador de mínimos cuadrados.

La importancia de esta descomposición radica en que si los instrumentos son débiles, 2 será muy pequeño y la inferencia basada en (5.112) estará sesgada (el estimador puede estar sesgado y los errores estándares estarán potencialmente mal computados). Habrá, entonces, dos preguntas prácticas que se derivan de esta observación: ¿cuán pequeño tiene que ser 2 para que los instrumentos sean débiles? y, si (y por tanto ) son desconocidos, ¿como se hace en la práctica para saber si 2 es suficientemente pequeño como para señalar que los instrumentos son débiles?

Respecto de la definición de instrumento débil, Stock y Yogo presentan dos alternativas: (1) un grupo de instrumentos es débil si el sesgo del estimador de variables instrumentales, relativo a aquel del estimador de mínimos cuadrados, es mayor que un cierto punto de referencia, b (b=10%, 15%, etc.) y (2) un grupo de instrumentos es débil si el test de Wald convencional tiene un tamaño que excede algún punto de referencia r (r =10%, 15%, etc.)

46 T.J. Rothemberg (1984): “Approximating the Distributions of Econometric Estimators and Test Statistics” Ch. 15 in Handbook of Econometrics, Vol. II, ed. by Z. Griliches and M.D. Intriligator. Amsterdam: North Holland, 881–935.

Page 177: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.53

Dada estas definiciones de debilidad, el test propuesto es una variación del test de Cragg y Donald (1993).47 Retomemos la matriz MX=I−X X ' X

−1X ' para escribir el estimador de mínimos cuadrados como OLS=M 0Y ' M 0Y

−1 M 0Y ' M 0 y , en tanto que el estimador de clase k es:

k =[M XY ' I−kMZ ' M XY ]−1[ MXY ' I−kMZ ' MX y ]

−1 (5.113)

El test de Wald asociado a la hipótesis nula H 0 : =0 es:

W k =[ k −0 ] ' [M XY ' I−kMZ ' MXY ] [ k −0 ]

n k(5.114)

donde uu=MX u k ' MX u k

T−K 1−ny u k = y−Y k .

El test de Stock y Yogo se hace sobre el mínimo valor propio de la matriz GT (g min=mineval GT ), que es una matriz análoga al test F de la primera etapa de 2SLS: GT= VV

½ ' MXY ' PZ ' MXY VV½ /K 2 donde VV=MXY ' M ZY / T−K 1−K 2 .

La distribución del test no es estándar, pero los autores proveen las tablas con los valores críticos.

47 Cragg, J.G. and S.G. Donald (1993): “Testing Identifiability and Specification in Instrumental Variable Models,” Econometric Theory, 9: 222–240.

Page 178: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.54

Apéndice A: Ejercicios

1. Considere la función de producción con elasticidad de sustitución constante (CES):

Y i , t= [1−K i , t−H i , t−]− e i , t

Donde los subíndices i y t, son firmas y tiempo respectivamente, Y es el producto, K es el capital, y H es el empleo calificado y donde los parámetros , , y se denominan parámetros de eficiencia, distribución, rendimientos de

escala, y sustitución, respectivamente. Como la función CES no es lineal en los parámetros no pueden estimarse por MCO. Demuestre que la función puede linealizarse utilizando la técnica de Taylor de la siguiente manera:

lnY i , t=i1LnK i , t2LnH i , t3[ LnK i , tH i , t ]2

i , t

y encuentre las expresiones de equivalencia entre los estimadores y los parámetros de la segunda ecuación.

2. Usted trabaja en la Viña Don Timoteo. Su jefe (el conocido don Timoteo) le pidió computar la elasticidad acidez-temperatura del vino syrah. Usted tomó datos por hora de ambas variables durante varias semanas y estimó usando un modelo de mínimos cuadrados ordinarios que ésta era -0.82 y el R² era 0.84. Al presentar los resultados, don Timoteo notó que la medición de temperatura estaba en escala Farenheit y la acidez en la escala de Gousset, pero el quería la temperatura en grados celsius y la acidez en la escala PH. ¿Cuál es la nueva elasticidad? ¿Cuál es el nuevo ajuste de la regresión? La regla de conversión de Farenheit a Celsius es ̊C=5 /9 F−32 y la regla de conversión de Gousset a PH es ̊G=−1.8 PH .

3. Después de crecer sostenidamente entre 1985 y 1999, la economía entró en un ciclo recesivo entre 2000 y 2003. El ministro de Hacienda desea saber si ha habido un quiebre estructural en la siguiente ecuación que describe el crecimiento de la economía:

PIB t=01Inv t−1

PIBt−12PCu t−13CH t−1t

donde Δ es la primera diferencia, Inv es la formación bruta de capital fijo, PC es el precio del principal bien de exportación, y CH es el stock de capital humano. ¿Cómo hace usted un test de Chow de cambio de régimen?

Page 179: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.55

4. Suponga que Ud. sospecha que hay cambio estructural en su muestra de n observaciones a partir del instante T. ¿Qué haría Ud. si desea testear esta hipótesis usando un test de Chow y su modelo tiene kn−T variables?

5. Suponga que Ud. cree que hay cambio estructural en su modelo, pero no sabe dónde se produce. Describa con precisión el test de CUSUM. Plantee el modelo como si el quiebre fuese en la tendencia y capturable con una dummy. Obtenga el estimador de los parámetros del modelo con quiebre y compárelo con el del modelo que excluye un quiebre.

6. En un trabajo reciente se analizan los determinantes de la migración en función de costos de transporte y atractivo relativo entre las regiones de origen y destino. El trabajo postula que en el periodo 1987-92, la fuerza con que migraron las personas no habría decrecido de manera significativa con respecto al periodo 1977-82. Para ello, se comparan los resultados de dos regresiones de mínimos cuadrados del siguiente tipo usando tests de Chow. Haga dos críticas fundamentales al procedimiento.

lnM ij

M i=01P i2P j3D4D

25W i−W j 6 W i−W j 6U i7U j

Donde M es migración, P es población, D es distancia, W son los salarios, Δ es la primera diferencia y U desempleo. Los subíndices i y j se refieren a cada región y si estan juntos se refiere “de i a j”.

7. Suponga que el parámetro arbitrario en el estimador tipo “ridge” es r. Demuestre que el sesgo del estimador bajo colinealidad crece mientras menor es r.

8. Demuestre que el R² de una estimación usando el estimador de ridge podría ser mayor a 1.

9. La presencia de multicolinealidad hace que el estimador de mínimos cuadrados no sea MELI (BLUE).

10. Suponga que dos variables, y , x , son observadas con error de medición, es decir, para t=1,T

y t= ytty

x t= x ttx

donde las innovaciones se distribuyen i.i.d. Suponga que el modelo de regresión lineal es el adecuado para las variables no observables:

y t=01 x tt

Page 180: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.56

¿Bajo qué condiciones el estimador de de la regresión basada en {x,y} es inconsistente?

11. Al revisar los datos de un estudio de demanda q id= f p i , y i ; Ud.

descubre el siguiente fraude: el autor rellenó las observaciones faltantes. Pruebe que el estimador de la elasticidad precio está sesgado. Pruebe que el estimador de la elasticidad ingreso (donde no faltan datos) también lo está.

12. Demuestre que el estimador de mínimos cuadrados generalizados es consistente.

13. Comente: Resulta innecesario preocuparse por los problemas de heterocedasticidad si existe la matriz de White (1990). Describa en líneas generales la extensión de Newey y West (1987).

14. Aún si se violan los supuestos de homocedasticidad en el modelo clásico de regresión lineal, los estimadores convergen en probabilidad a normal estándares porque los residuos se distribuyen asintóticamente normal debido a la ley de los grandes números no-estocásticos de Markov-Rao.

15. Al estimar los determinantes de la distribución del ingreso en Guyana (Si) se encontró que ésta depende de la educación de los padres (Ei), el stock de riqueza de la familia (Wi), el consumo de drogas de los padres(Xi), el tamaño de la familia (Li) y una dummy para los padres o madres solteras. Pero además se descubrió que los errores estaban “ordenados”, de modo tal que para las familias más numerosas los residuos parecían ser más grandes ( σ i

2=σ 2 h [L i2 ,Z i ] ), donde Z es una variable desconocida

ortogonal a L. Plantee formalmente una estrategia de estimación del modelo usando el estimador de mínimos cuadrados generalizados (ojo, Z no es observable así es que plantee primero el estimador GLS suponiendo que Z es conocido y luego intente resolver el problema de que no conoce Z. No use la matriz de White.

16. Suponga que en un modelo tipo y=x se sabe que hay heterocedasticidad provocada por el uso de variables nominales. Demuestre que en el modelo de mínimos cuadrados ponderados que utiliza datos reales, el R² está mal definido y la “constante” es variable ¿Cómo se recuperan los parámetros de interés ( ) del modelo estimado?

17. Es preferible, en ocasiones, usar mínimos cuadrados en vez de variables instrumentales aunque el estimador de mínimos cuadrados no sea consistente y el de variables instrumentales sí lo sea.

18. Considere el siguiente modelo y t= ' x tt , donde algún componente de x es no observable. Plantee un estimador de variables instrumentales válido. ¿Bajo qué condiciones este estimador es asintóticamente consistente? Pruebe las condiciones.

19. El siguiente problema demuestra la necesidad de usar variables instrumentales. Considere el siguiente modelo:

Page 181: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.57

c t= yttt→N 0,2 y t=c ti t

donde i es exógena, es ruido blanco (con media cero y varianza σ²) y

limt →∞1T ∑t i t−

i=i2 . Pruebe que el estimador de mínimos cuadrados de es

= 2 1 /

2 i2 / 1−2

y que, por lo tanto, hay que usar un instrumento para yt.

20. El test de Durbin-Watson de autocorrelación no se puede aplicar si los errores son heterocedásticos.

21. Suponga que su modelo es el siguiente, donde los residuos están correlacionados:

Y t=Y t−1u tu t=tt−1

→N 0,2 I

Demuestre que el estimador mínimos cuadrados de δ, es inconsistente.

22. Demuestre que el siguiente estadígrafo es aproximadamente equivalente a la correlación de primer orden de los residuos del siguiente modelo: y t=x tt

=1−12

∑i=2

T

yt−1−x t−1− yt− x t 2

∑i=1

T

yt−1−x t−1 2

23. Suponga que su modelo es:

Y t=Y t−1t ||0u t=tt−1

→N 0,2 I

Demuestre que si se estima =∑Y t Y t−1 /∑ Y t−12 , entonces

plim =1−12

con =

12

Page 182: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.58

24. En un trabajo reciente (Spatial Inequality, Growth, and Migration in Chile, R. Soto y A. Torche, 2004) se analizan los determinantes de la migración de población entre regiones en función de costos de transporte y atractivo relativo entre el origen y el destino. Los datos de migración provienen de los censos de 1982 y 1992 donde se pregunta ¿dónde vivía usted hace 5 años? El modelo planteado es:

lnM ij

M i=01P i2P j3D4D

25W i−W j 6U i7U j

donde M es migración, P es población, D es distancia, W son los salarios reales, y U el desempleo. Los subíndices i y j se refieren a cada región y si están juntos se refiere “de i a j”. Este modelo no es panel.

Compute el sesgo de los estimadores de α1 y α2 si las poblaciones están medidas con un error que se distribuye con media cero y varianza μ².

¿Son inconsistentes los coeficientes α3 a α7? Pruébelo usando matrices particionadas.

25. Cuando Alvaro estudió el consumo de marihuana en una población de Concepción, obtuvo el siguiente modelo estimado usando mínimos cuadrados:

C t=0.92C t−1u t0.19

donde C es el consumo y el valor entre paréntesis es la desviación estándar del estimador. Karol observó, sin embargo, que los residuos seguían el siguiente modelo:

u t=t0.16t−1

0.02

Compute el sesgo del estimador.

26. Demuestre que cuando se computa el estimador de mínimos cuadrados generalizados posibles de los parámetros del siguiente modelo, no se necesita que el estimador de θ sea eficiente y basta con que sea consistente.

(a)c i=10.580.88∗ y ii

3.48 0.27 i

2=z i

27. Suponga que su modelo es y=x , donde y es el salario por hora y x son características del individuo. Suponga ahora que por ley no se puede pagar menos que el salario mínimo, y . ¿Cómo afecta esta restricción al estimador de β? Analice consistencia y eficiencia.

Page 183: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

5.59

28. Suponga un modelo econométrico lineal dado por y=x para el cual la estructura del error tiene las siguientes propiedades: t=ht t donde ht es una variable no correlacionada e independiente de xt. Considere además que t=t−1t , con ∣∣1 y μ ruido blanco.

(a) Calcule la varianza y función de autocovarianza de t .(b) Suponga que usted dispone de datos sobre ht. ¿Cuál es el estimador más eficiente

de β? Describa detalladamente los pasos necesarios para calcularlo.(c) Suponga ahora que no dispone de datos sobre ht. ¿Cómo podría estimar

eficientemente el parámetro? Explique detalladamente los pasos necesarios para calcularlo.

29. Considere el siguiente modelo lineal y=x . Sea el estimador de mínimos cuadrados ordinarios y sea = y− x el residuo del modelo. Sea el estimador de variables instrumentales para algún instrumento Z y sea el residuo de variables instrumentales = y−z . Si el instrumento es verdaderamente exógeno, ¿tendrá el modelo estimado con variables instrumentales un mejor ajuste que el de mínimos cuadrados ordinarios (menor SRC), al menos en muestra grande?

30. Considere el modelo y=x . Suponga que hay heterocedasticidad derivada del uso de variables nominales (tanto x como y). Suponga que el modelo estimado usando datos reales o deflactados no tiene heterocedasticidad. Demuestre que el valor esperado del estimador de mínimos cuadrados de β es el mismo en ambos modelos. Demuestre que, a pesar de lo anterior, el R2 no es el mismo en ambas ecuaciones.

31. Sea el modelo lineal de la forma y i= zii con E [ | z ]=0 . Suponga que 2=E [2 | z ] es conocido. Demuestre que el estimador de mínimos cuadrados

generalizados de β es un estimador de variables instrumentales para algún x i (es decir, encuentre la expresión para que dicho x i cumpla lo deseado).

Page 184: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

Capítulo 6Modelos no lineales

El área de los modelos no lineales es muy extensa y, posiblemente, es aquella que se ha desarrollado con mayor interés en los últimos años, como resultado del veloz desarrollo de la computación. La gran mayoría de los modelos no lineales se resuelven por medio de métodos de cálculo numérico –es decir, usando algoritmos de aproximación a la solución— debido a que no existen formas cerradas que permitan derivar expresiones matriciales simples para obtener los estimadores. En la primera parte de este capítulo desarrollamos el instrumental necesario para entender los métodos de optimización no lineal que se usan para la estimación de modelos no lineales. En la segunda parte se discute los métodos y estimadores no lineales.

6.01 Elementos de cálculo numérico

Existe un gran número de técnicas de optimización no lineal que resultan de gran utilidad para solucionar modelos no lineales, agrupadas bajo el nombre de cálculo numérico. Naturalmente, las técnicas no lineales no son de interés per-se en este curso1, sino en la medida que nos sirven para entender cómo operan y cómo se hace la estimación no lineal.

Generación de números aleatorios

Una parte importante de los métodos de optimización se basan en el uso de números aleatorios. Naturalmente, es imposible generar números verdaderamente aleatorios; cualquier algoritmo que se use para producir numeros puramente aleatorios es replicable y, por tanto, sus resultados no son estrictamente aleatorios.2

No obstante, hay algoritmos útiles para nuestros propósitos. En general éstos son del tipo:

1. Dé un número de partida (del reloj), llamado semilla, S .

2. Actualize la semilla: S j=S j−1∗A , A = cte.

3. Transforme semilla: x j=S j∗B , B = cte.

4. Guarde xj y vaya a (2)

1 Un tratamiento exhaustivo se encuentra en Numerical Methods in Economics, K. Judd (2000) MIT Press.2 Anyone who considers arithmetic methods of producing random digits is, of course, in a state of sin . John von

Neuman

Page 185: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.2

El típico algoritmo de los programas de computación se basa en:

• Dados P, Q, R y la semilla S j .

• Compute S j1=Mod R∗S j , Px j1=S j1/Q

donde la función Mod produce el entero de R*S/P.

La rutina anterior produce valores entre 0 y 1 para números R,Q,P relativamente grandes (ej, 2,147,483,647). Obviamente, esta no es exactamente una muestra aleatoria. Dada las constantes y la semilla inicial, es replicable. Pero el algoritmo puede ser suficientemente complejo como para que el problema de replicabilidad sea mínimo y, por lo tanto, que se justifique su uso. Sin embargo, es inevitable que el generador en algún punto producirá un ciclo y comenzará a repetir los “números aleatorios”.3

Muestreo estadístico

A pesar de que la rutina anterior produce numeros no exactamente aleatorios, es una alternativa útil para hacer muestras de variables aleatorias derivadas de una distribución uniforme [0,1]. Pero se expande para cualquier uniforme, multiplicando los límites de manera adecuada.

La ventaja de tener una secuencia {Z } de números de una uniforme [0,1] es que ésta se puede reinterpretar como una secuencia de valores de la acumulada de otra distribución. Conociendo la función de la acumulada F . , tenemos una secuencia de valores aleatorios derivados de la distribución:

x=F−1 Z (6.1)

Por ejemplo, hay aproximaciones conocidas para el caso de la normal estándar (Abramovitz y Stegun, 1971):

F−1 ≈c 0 c 1 T c 2 T 2

1 d 1 T d 2 T 2 d 3 T 3 (6.2)

Una vez que se tiene una normal estándar, es trivial construir una χ², una F u otras distribuciones de uso común.

3 John von Neumann sugirió el siguiente algoritmo. Suponga que desea una secuencia de números aleatorios de 4 dígitos. (1) Elija cualquier número de 4 dígitos –por ejemplo, 6235. (2) Tome su cuadrado (38,875,225). (3) Extraiga los cuatro dígitos interiores de ese cuadrado (i.e., 8752). (4) Use ahora este segundo número para iterar (ir a 1).

Page 186: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.3

Muestreo de Gibbs

Supongamos que existe una densidad conjunta que queremos modelar f x , y1 , y2 , ... , y k . Si estamos interesados por algún momento del problema,

debiesemos calcular expresiones como:

f x =∫y 1

∫y 2

...∫yk

f x , y 1 , y 2 , ... , yk dy1 dy2 ...dyk (6.3)

El problema puede ser demasiado complejo de resolver directamente. La alternativa es construir una aproximación indirecta de la densidad marginal f x .

La idea es aprovechar las densidades condicionales para construir la marginal. Supongamos que la densidad es bivariada, f x , y y que se conoce f x | y y

f y | x (a partir de la muestra). El algoritmo de Gibbs consiste en:

• Dado un y 0 , genere un x 1 a partir de f x | y .

• Dado x 1 , genere y 1 a partir de f y | x .

• Dado un y 1 , genere un x 2 a partir de f x | y , etc.

Estudios de Montecarlo4

Una técnica frecuentemente usada en econometría para obtener la distribución empírica de los parámetros o de un test es la simulación de Montecarlo. Usualmente lo que se hace es estudiar cómo cambia un resultado si se alteran las condiciones del problema, típicamente cuando se puede controlar bien dichas condiciones. Por ejemplo, si tenemos dudas de la calidad de un estimador debido a que la muestra no es muy grande y conocemos cómo se genera éste, podemos hacer el experimento artificial de ver cómo cambian los resultados al variar el tamaño de muestra.

Bootstrapping5

Frecuentemente no es posible tener una buena idea de las propiedades de un estimador y, en particular, sobre su comportamiento en la muestra. Una solución es

4 Este método fue sugerido por John von Neuman y Stanislaw M. Ulam en un trabajo no publicado (“The Origin of the Montecarlo Method”). Ulam señaló que el método se le ocurrió jugando solitario mientras estaba enfermo en 1946. El nombre Monte Carlo se le puso porque éste era el método usado para hacer simulaciones de fisión nuclear en el proyecto de la bomba atómica cuyo nombre clave era Proyecto Montecarlo.

5 El término bootstrap fue acuñado por Bradley Efron (“Bootstrap methods: another look at the jackknife”, Annals of Statistics, 7:1-26, 1979). El término se deriva de una historia del libro del siglo 18 “Las Aventuras del Baron Munchausen”, de Rudolph Erich Raspe, en las que el protagonista había caído al fondo de un profundo pozo, del cual no había escapatoria, de no ser por la proverbial idea del Barón de salir “tirando fuertemente de los cordones de sus botas (bootstraps)”.

Page 187: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.4

hacer bootstrapping. Supongamos que de un experimiento (modelo) obtuvimos el estimador n con una muestra de tamaño n.

Es posible hacer una muestra con m observaciones y luego estimar de nuevo 1m . De hecho, es posible generar una secuencia de largo T de estos estimadores {Bm }T

1 sobre la cual obtener la media, varianza, etc.

La media de n sería 1T ∑B=1

T

B m .

Cálculo de derivadas

En muchos casos es necesario calcular derivadas de alguna función. Típicamente, como ya hemos visto, cuando se computan estimadores utulizando la función de verosimilitud. En pocos casos se conoce la derivada analítica de la función de verosimilitud (ej, Poisson) y se puede computar directamente. Cuando no se conoce analíticamente, hay que buscar una aproximación. La más natural es:

∂F x ∂ x

≈ F x−F x−2

(6.4)

o, más generalmente,

∂F x ∂ x i

≈F x1, x 2 , ... ,x i , ...−F x 1, x 2 , ... , x i− , ...

2(6.5)

Obviamente, el cálculo de las derivadas (por ejemplo, para obtener x tal que la derivada sea cero) puede ser tedioso y largo. Además, la elección de ε no es trivial. Si se escoge un valor muy grande, el algoritmo puede hacer muchas iteraciones antes de converger al resultado. Si, por el contrario, el valor elegido es muy chico, la estimación estará sujeta a mayor imprecisión. Finalmente, si se usa esta aproximación, habrá error por definición. Si se hacen muchos cálculos sobre ella, el error acumulado puede ser sustancial.

Page 188: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.5

6.02 Optimización no lineal

Cuando la función es lineal o las derivadas tienen forma cerrada, la optimización se hace analíticamente (Lagrange). Si la función no es lineal y sus derivadas no tienen solución analítica, tendremos que aproximar la condición de óptimo (es decir, que las primeras derivadas sean iguales a cero) con algún método numérico.

Grid search (búsqueda tipo cuadrícula)

La alternativa más simple es hacer un barrido por los posibles valores de los parámetros de modo de obtener el óptimo. Esto se puede hacer cuando el número de parámetros es pequeño (1 o 2), pues de otro modo es demasiado costoso. Además, se necesita saber el rango de valores que puede tomar el parámetro y qué tan fina es la estimación (¿cuánto hay que incrementar el parámetro?).

Algoritmos iterativos

Los algoritmos iterativos se basan en la siguiente lógica:

• Dar un parámetro inicial arbitrario, 0 .

• Si 0 no es el óptimo, actualizar el parámetro según:

j= j−1 j−1 j−1 (6.6)

donde λ es un “paso” (¿cuánto?) y Δ un vector de dirección (¿para dónde?).

El problema es que λ y Δ cambian en cada iteración, por lo que se necesita una manera de determinarlos. Determinar la dirección es fácil. La matriz de derivadas parciales (g) de la función (F) que se quiere optimizar da una respuesta inmediata. Determinar el paso es más complejo. En principio se debiera buscar λ tal que:

∂F j j j ∂ j

= g j j j ' j=0 (6.7)

pero esto raramente se hace porque es ineficiente y costoso en tiempo. Optimizar el paso implica que en cada iteración hay que hacer dos movimientos. Por lo general se usa λ fijo en los métodos que estudiamos a continuación.

Page 189: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.6

Figura 6.1

Métodos de gradiente

Los métodos de gradiente descomponen el vector de dirección en dos componentes:

j=W j g j (6.8)

donde W es una matriz definida positiva, g es el gradiente (matriz de primeras derivadas) de la función que se optimiza, y j se refiere a la iteración j-ésima. Naturalmente, W opera como una matriz de ponderadores de las gradientes.

¿De dónde viene la descomposición de la ecuación (6.8)? Considere la expansión de Taylor de la función F:

F j j j =F j j g j j (6.9)

es decir:

F j j j −F j = jg j j (6.10)

por lo tanto

F j j j −F j ≃ j g j ' W j g j (6.11)

el lado derecho es positivo si λ es pequeño y g no es cero. Entonces, una iteración adicional siempre aumenta la función F.

1

2

j

j+1

F1F2

Page 190: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.7

Método Steepest Ascent

Este método es poco sutil pero efectivo. Básicamente consiste en escoger W=I y =g . Es decir, pondere por 1 la información de las gradientes y ajuste los coeficientes

equivalentemente.

Es un método muy rápido y tiene vector de dirección óptimo conocido:

j=−g ' gg ' Hg donde H=

∂2 F ∂ ∂ '

(6.12)

El método no está exento de problemas. Primero, hay que computar segundas derivadas, lo que sabemos puede ser complejo y tedioso. Segundo, si H no es negativa definida, el método diverge. Tercero, el método converge muy lento, pues tiende a “pasarse de largo”, como en la Figura 6.1.

Método de Newton

Como todo óptimo de Newton, éste se basa en la idea es que en dicho óptimo, las derivadas de F son cero. Se puede hacer una expansión de Taylor alrededor de cero:

∂F ∂

= g 0H 0 −0=0 (6.13)

resolviendo para θ y generalizando:

j1= jH j−1 g j (6.14)

entonces la recomendación es

W=−H−1

=−H−1 g=1

(6.15)

El método converge rápido cerca del óptimo. Si la función es cuadrática converge en 1 paso, porque la derivada es lineal. Es probablemente el mejor algoritmo si el problema es cóncavo. Pero tiene dos problemas: (1) lejos del máximo con funciones no muy “bien comportadas” puede diverger, y (2) también puede diverger si la matriz H no es negativa definida.

Page 191: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.8

Quadratic Hill Climbing6

Este método enfrenta el segundo problema del método de Newton. Si H no es negativa definida, entonces se recomienda usar H ’=H− I , con grande e I la matriz identidad. Esta transformación asegura que H sea negativa en la siguiente iteración.

Metodos tipo Cuasi Newton

La idea de este tipo de métodos es evitar el cálculo de la segunda derivada. La base de análisis consiste en reconocer que al actualizar la matriz de ponderaciones en cada iteración W j1=W jE es siempre positiva si E es positiva. Más aún si partimos de W 0=I .

Davidon, Fletcher y Powell (1958)7 sugieren utilizar el siguiente algoritmo de métrica variable:

W j1=W j j j ' j ' j

W j j j ' W j ' j ' W j j

(6.16)

donde j= j j y j= g j − g j−1 . Entonces lo que se propone es aproximar la inversa de la segunda derivada H−1 por el cambio ponderado en la primera derivada, j= g j − g j−1 . Por ello, el método va acumulando los errores cometidos en la

aproximación de la inversa de las segundas derivadas:

W j1=W jaa 'bb '=W j[a b ][a b ]' (6.17)

debido a que la matriz [a b] es de rango 2 se le llama actualización de segundo rango.

Broyden et al. (1970)8 sugieren usar una actualización de tercer rango, que es más eficiente, pues le añade un término del tipo dd ' , donde:

d j=1

' j j j−

1 ' j W j j

W j j (6.18)

6 Goldfeld, S.M.; Quandt, R.E.; and Trotter, H.F. (1966), "Maximisation by Quadratic Hill-Climbing", Econometrica, 34, 541-551.

7 W. C. Davidon, AEC Research and Development Rept. ANL 5900 (Rev.) 1959. Fletcher, R. and Powell, M.J.D. (1963), "A Rapidly Convergent Descent Method for Minimization", Comput.J., 6, 163-168.

8 C. G. Broyden, J. Inst. Mat. Appl. 6:222-231, 1970. R. Fletcher, Comp. J., 13:317-322, 1970. D. Goldfarb Mat. Comp. 24: 23-26, 1970. D. F. Shanno, Mat. Comp. 24:647-656, 1970.

Page 192: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.9

6.03 Estimación de mínimos cuadrados no lineales

La definición de un modelo no lineal se hará por la técnica de estimación y no por la naturaleza del modelo. Supongamos la existencia de un modelo genérico del siguiente tipo:

y i=h x i ; i (6.19)

Si se mantiene la noción de minimización de la suma de residuos al cuadrado y se aplica al modelo anterior, la estrategia sería buscar un estimador tal que minimice la suma, S:

S=∑ii

2=∑i y i−hx i ; 2 (6.20)

Note que si el error se distribuye normal, entonces corresponde al estimador de máxima verosimilitud. Así, el estimador de máxima verosimilitud es un estimador adecuado para parametrizar modelos no lineales, reteniendo las propiedades y limitaciones que ya estudiamos en los capítulos anteriores. No obstante, es posible derivar un estimador de mínimos cuadrados –en este caso mínimos cuadrados no lineales– que opera de manera análoga al estimador de mínimos cuadrados ordinarios. De la ecuación (6.20) es posible obtener:

∂S∂=−2∑

i[ y i−h x i ; ] ∂h x i ;

∂ (6.21)

Como es evidente, si la función h(.) es lineal, entonces la ecuación (6.21) no difiere de las ecuaciones normales derivadas en el capítulo 4. Cuando el modelo es no lineal, la ecuación (6.21) no es de forma cerrada y debiese ser resuelta por los métodos numéricos que ya estudiamos. No obstante, considere una expansión de Taylor alrededor de 0 de tal modo que el modelo quede aproximado por:

h x i ; ≈h x i ; 0∑k=1

K

∂ h x i ;0

∂ k0

k−k0

(6.22)

Este conjunto de ecuaciones es llamado modelo de regresión generalizado y puede ser convenientemente reescrito como:

h x i ; ≈h x i ; 0−∑k=1

K

∂ h x i ; 0

∂ k 0

k 0∑k=1

K

∂h x i ; 0

∂k 0

k(6.23)

Page 193: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.10

Llamando x 0 a la derivada de la función h, tenemos

h x i ; ≈ hx i ;0 −x 0k0x 0k (6.24)

lo que en términos matriciales se puede sintetizar como:

h x i ; ≈h0−x0�k0x 0k (6.25)

Note que una vez escogido 0 los dos términos al interior del paréntesis son constantes, por lo que pueden pasar al lado izquierdo pues son expresiones conocidas.

y 0=h x i ; −h0x0k0≈ x 0k (6.26)

Añadiéndole el término de error, se obtiene finalmente

y 0=x 0k (6.27)

Así, dado un valor de 0 es posible estimar k directamente por mínimos cuadrados. A diferencia de su contraparte lineal, el estimador de mínimos cuadrados no lineales no ocupa directamente las variables sino una transformación de ellas y de la función original, estimándose el modelo sobre las derivadas de la misma. Por ello, en este caso se trabaja con pseudo-estimadores.

Propiedades del Estimador Mínimos Cuadrados no Lineales

El estimador de mínimos cuadrados lineales aplicado a las primeras derivadas de la función no lineal puede proveer una estimación de los parámetros del modelo. Por razones de eficiencia, la estimación se hace, en realidad, de manera iterativa, de modo de minimizar el error que se comete en la aproximación. Lo que nos preocupa es si este estimador es consistente y/o eficiente. Al igual que en el caso del estimador de mínimos cuadrados del modelo lineal, sólo si los residuos son normales podemos estar seguros que es eficiente. En otros casos, tenemos que hacer algunos supuestos.

En el caso lineal, supusimos que los regresores cumplían 1n x ' x → Q. Ahora

haremos el mismo supuesto para los pseudo-regresores construidos según (6.26):

plim 1n

x0 ' x 0= plim 1n∑i=1

n [ ∂ h x i ; 0∂ k0

][ ∂h x i ; 0∂ k 0

]'

= Q0 (6.28)

Page 194: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.11

Para que el estimador NLS sea consistente tiene que cumplirse que

plim 1n x0�=0 . Finalmente, el estimador será asintóticamente normal cuando:

1n∑i=1

n

x i i → N 0, 2 Q0 (6.29)

El estimador de la varianza de los residuos puede ser encontrado usando:9

2=1n∑i=1

n

[ y i−h x i ; ]2 (6.30)

Cómputo del estimador de mínimos cuadrados no lineales

La estimación de NLS se hace de manera iterativa, lo que exige determinar el algoritmo de actualización y el criterio de fin de búsqueda.

Note que para estimar (6.27) se requiere haber fijado la derivada de la función -x 0 - para lo cual se tuvo que haber usado algún 0 . Una vez computado NLS por

primera vez, se puede usar éste para construir [ y0 x 0] y volver a estimar NLS repitiéndose el ciclo hasta que se cumpla el criterio de fin de búsqueda.

No existe una regla para escoger los parámetros iniciales, pero su elección puede afectar bastante el resultado. El problema de escoger mal los parámetros iniciales es que los algoritmos suelen diverger o pueden tomar un número muy grande de iteraciones antes de converger. Algunos autores prefieren usar parámetros derivados aleatoriamente de alguna distribución. Otros autores usan los parámetros obtenidos de una regresión lineal del mismo problema que se está estudiando. Finalmente, es posible usar los parámetros de otros estudios.

Respecto del criterio de fin de búsqueda hay varias alternativas. Es posible usar el cambio en la función de verosimilitud de la estimación: si ésta no cambia en algún monto fijo en la iteración (p.e., 10-5), no siga buscando. Muchas veces, los cambios en la función de verosimilitud continúan, cuando los parámetros sólo cambian en el quinto o sexto decimal. Desde un punto de vista económico, la precisión en el quinto decimal de una elasticidad es irrelevante, por lo que un criterio de fin de búsqueda usado es detener las iteraciones cuando los parámetros cambian en el tercer o cuarto decimal.

9 Note que el estadígrafo R² no está acotado entre 0 y 1.

Page 195: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.12

6.04 Estimación de variables instrumentales no lineales

El estimador de variables instrumentales descrito en los capítulos anteriores también puede ser aplicado al caso no lineal si existen sospechas que pudiese existir correlación entre regresores y residuos. El problema en el caso no lineal es que la correlación regresor-residuo se traspasa a los pseudo-regresores x 0 . Entonces, supongamos que tenemos un conjunto de variables z tal que:

plim 1n z ' x 0=Qzx

0 plim 1n z ' =0 (6.31)

Aplicando la misma lógica del estimador de mínimos cuadrados no-lineales tenemos que el modelo linealizado es:

y 0 ≈ x 0 (6.32)

premultiplicamos por z ’ y tomamos plim:

plim 1n z ' y0≈ plim 1n z ' x0 (6.33)

Supongamos, aunque esto no es crucial, que el rango de z es el mismo de x, entonces el estimador de variables instrumentales en este caso parecería ser directamente

NIV=z ' x 0−1 z ' y0 (6.34)

El problema con el estimador (6.34) es que el vector de parámetros β aparece a ambos lados de la ecuación. Una alternativa es buscar un punto fijo, es decir, un vector β que satisfaga dicha ecuación. Un algoritmo posible –pero no eficiente– sería darle 0 , computar los pseudo-regresores, estimar 1 , computar los pseudo-regresores, etc.

Una solución general al problema –que además elimina la restricción de rango de z– es:

minS =½ [ y−h x i ;]' z z ' z −1[ y−h x i ; ] ' z =½' z z ' z −1' z

(6.35)

cuyas derivadas son:

∂∂

=−x 0 ' z z ' z −1z ' =0 (6.35)

Page 196: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.13

Este es un problema de optimización no-lineal que ya hemos estudiado. Si los pseudo-regresores se comportan razonablemente, el algoritmo debiese producir una estimación del parámetro eficientemente (Davidson y McKinnon, 1993).10

6.05 No linealidad de la variable dependiente

Supongamos ahora que la no linealidad también envuelve a la variable dependiente, es decir:

g y i ;=h x i ;i (6.36)

La estimación de los parámetros puede hacerse por dos métodos: mínimos cuadrados y máxima verosimilitud. Este último es más eficiente. Si los residuos se distribuyen normales, entonces la densidad de cada observación es:

f y i =∣∂i

∂ y i∣[22 ]1 /2⋅e

−[ g y i ,−h x i ; ]2

2 2 (6.37)

donde ∣∂ i

∂ y i∣ es el Jacobiano de la transformación, es decir:

∣∂i

∂ y i∣=∂ g y i ;

∂ y i= J i (6.38)

Por ello, la función de verosimilitud de la muestra es (en logs):

log L=−n2

log 2− n2

log2∑i=1

n

J i y i ;− 12∑i=1

n

[ g y i ;−h x i ; ]2 (6.39)

Debe notarse que la presencia del término J i y i ; hace que el estimador de mínimos cuadrados no lineales no sea equivalente al estimador de máxima verosimilitud. Por lo tanto, es necesario usar este último estimador. No obstante, es posible usar una aproximación por iteración cuando la dimensión de θ es pequeña (1 o 2). El algoritmo sería el siguiente:

1. Fijar 0 , computar g y i ;0 y estimar los parámetros usando el estimador de mínimos cuadrados no lineales y computar el valor de la función de verosimilitud.

10 Davidson, Russell and James G. MacKinnon (1993). Estimation and Inference in Econometrics, Oxford: Oxford University Press.

Page 197: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.14

2. Actualizar 1=0i , computar g y i ;1 y re-estimar los parámetros usando el estimador de mínimos cuadrados no lineales y computar el valor de la función de verosimilitud.

3. Usar las funciones de verosimilitud computadas en (1) y (2) para determinar la dirección de ajuste de los parámetros e iterar hasta que converja.

6.06 Interpretación de los parámetros de un modelo no lineal

La intepretación de los parámetros no es fácil en el caso de los modelos no lineales. Consideremos que en el modelo lineal los parámetros miden:

∂E [ y i | x i]∂ x i

=i (6.40)

por lo que, si las variables están medidas en logarítmos, se obtienen directamente las elasticidades. En el modelo no lineal, sin embargo, los parámetros son:

∂E [ y i | xi]∂ x i

≈∂h x i ;∂ x i

1g ' yi

(6.41)

por lo que los parámetros no son las elasticidades. Estas últimas se computan, usualmente, en la media muestral. Es decir,

i≈∂ h x i ;∂ x i

1g ' y i

x iyi

(6.42)

6.07 Tests de hipótesis

A diferencia de los modelos lineales, el testeo de hipótesis en el caso de los modelos no-lineales requiere que las restricciones impuestas sean de sobreidentificación.

Sea S =∑ i2 la suma de residuos al cuadrado del modelo sin restringir y sea

S *=∑ *i2 su contraparte en el modelo restringido.

Los siguientes tests son válidos asintóticamente:

Page 198: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

6.15

● Test F asintótico [S *−S ]/ J

[S /n−k ]F [ J ,n−k ]

● Test Razones de Verosimilitud −2 log L *− log L 2 [ J ,n−k ]

● Test de Wald [R −q ]VAE R −q -1 [R −q ] '2 [ J , n−k ]

Page 199: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

Capítulo 7Modelos con Datos de Panel

Los métodos de panel data combinan observaciones de corte transversal con observaciones de series de tiempo. Por el momento no vamos a imponer restricciones para que la mezcla sea válida, pero más adelante vamos a discutir exactamente qué tipo de observaciones de corte transversal se pueden mezclar con cuál tipo de observaciones de series de tiempo.

Cuando hablamos de observaciones de corte transversal nos referimos a observaciones para una determinada cohorte y por lo tanto el tipo de pregunta que se puede responder se refiere a hipótesis respecto de la heterogeneidad de los individuos que componen dichas cohorte. Por ejemplo, ¿por qué, en algún instante del tiempo, algunas personas con determinadas características trabajan y otras no lo hacen?

Cuando nos referimos a observaciones de series de tiempo nos referimos a que es posible observar el comportamiento de un individuo repetidamente en el tiempo. Por ello, el tipo de hipótesis que se puede enfrentar se refiere a la evolución del comportamiento de un individuo y sus determinantes. En particular, y manteniendo la simetría con el ejemplo anterior, ¿qué hace que un individuo trabaje en algunos periodos y no lo haga en otros?

Como vemos, mientras las observaciones de corte trasversal son útiles para responder preguntas relacionadas con heterogeneidad, los de series de tiempo sirven para estudiar la evolución temporal. Las técnicas de panel nos permiten responder ambos tipos de preguntas –y otras que no pueden ser respondidas por corte transversal o series de tiempo– porque usan información sobre una cohorte donde hay individuos heterogéneos a los que se les observa repetidamente en el tiempo. Es decir observaremos N individuos durante T periodos de tiempo.

Esto presenta varias ventajas con respecto a los modelos de corte transversal o series de tiempo por separado. Entre ellas:

● Aumento en grados de libertad: Esta es una razón bastante obvia: si observamos una cohorte dos veces en el tiempo, las observaciones disponibles aumentan a 2N para el mismo número de potenciales parámetros a estimar, k. Esto permite mejorar la precisión con la cuál se estiman dichos parámetros y mejorar la calidad de las predicciones hechas con el modelo.

● Control de efectos fijos individuales: Un problema complejo de los métodos de corte transversal es que no pueden identificar la presencia de efectos fijos individuales. Estos efectos cambian entre individuos pero no para cada individuo y, como no se observan, son absorbidos por el residuo. Cuando dichos

Page 200: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.2

efectos individuales están correlacionados con los regresores hay sesgo en el estimador del parámetro.

Por ejemplo, suponga que se desea estudiar el rendimiento de alumnos de educación primaria (Rend) de una cohorte como una función de calidad establecimiento (Cal), las horas de estudio (Horas) y la educación de los padres (EP). El modelo estimado es Rend i=01 Cal i2 Horas i3 EP ii . El verdadero modelo debe incluir la inteligencia o habilidad natural del individuo (Hab), pero ésta no es observable. Por ello, el residuo no es ruido blanco ya que incluye el efecto de la habilidad y tiene la forma i= 4 Hab ii .

Recuerde que si el modelo es y i=x ii , el estimador de mínimos cuadrados es =x ' x −1 x ' y , reemplazando y i obtenemos:

=x ' x −1 x ' [ x ]=x ' x −1x ' x x ' x −1x ' =x ' x −1 x '

(7.1)

Entonces, el estimador de los parámetros del ejemplo es:

i=i4 x i ' Hab i (7.2)

Así, si la habilidad está relacionada, por ejemplo, con las horas de estudio, entonces habrá sesgo en el estimador del parámetro. Lo mismo sucede si los colegios seleccionan a los alumnos por habilidad.

● Modelación de efectos temporales sin sesgo de agregación: Los modelos de series de tiempo tienen frecuentemente el problema que se agrupan individuos heterogéneos como si ellos fuesen idénticos entre sí. Sin embargo, no siempre el comportamiento del individuo promedio es representativo de un individuo particular. Por ejemplo, cuando se estudia el consumo en un país en las últimas dos décadas se agrupa a individuos que, por diferentes razones, tienen comportamientos potencialmente muy diferentes. Los consumidores reaccionan diferentes a cambios en ingresos corrientes en distintos periodos del ciclo de vida; los consumidores que están “restringidos de liquidez” reaccionan distinto de aquellos que pueden usar el mercado de capitales para suavizar variaciones de ingreso y mantener el consumo estable.

Hay pocas desventajas en el caso de los modelos de panel. En primer lugar, aún hay pocas bases de datos –sobre todo en América Latina– y éstas frecuentemente deben ser “limpiadas” de numerosos errores. En segundo lugar, los programas computacionales para econometría de panel son aún limitados y frecuentemente del tipo caja negra (es decir, se desconoce exactamente qué procedimientos usa). Un tercer problema, que es propio de los modelos de panel, es llamado desgaste de la muestra (sample attrition) que proviene del hecho que algunos miembros de la cohorte van desapareciendo a medida que pasa el tiempo. Por ejemplo, porque migran o

Page 201: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.3

desaparecen (las personas mueren o las firmas salen del mercado) o porque cambian las condiciones que les hacía participar de la cohorte (solteros). Si el desgaste es aleatorio el único problema es que se pierde eficiencia en la estimación. Si el desgaste no es aleatorio (p.e. cuando el desgaste es por muerte de los mayores de la muestra), hay problemas de sesgo de selección.

7.1 Modelo canónico de datos de panel

El modelo canónico o genérico de datos de panel tiene la siguiente forma:

y ti=t

ix tit

i (7.3)

donde i=1, ... , N y t=1,... , T . La variable x ti contiene todos los regresores del modelo,

es decir, incluye x1ti , x2t

i , , xk ti . La existencia de efectos individuales está recogida en

la constante que ahora está subindizada t para recoger efectos temporales y supraindizada i para recoger efectos individuales.

Modelo con todos las observaciones juntas (pooled)

Una alternativa posible –pero no óptima– es simplemente asumir que todos las observaciones corresponden a un mismo individuo. En ese caso, suponemos que no hay efectos individuales, por lo que

y ti=x t

iti (7.4)

y el estimador de mínimos cuadrados es aplicable, es decir, p=x i ' x i −1 x i ' yi . La

principal ventaja de este modelo respecto de usar datos de corte transversal es que ahora se dispone de NT observaciones en vez de N y eso mejora la precisión del estimador porque:

Var =

2

x i ' x i=

2

∑i =1

NT

x i−x ' x i−x (7.5)

Page 202: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.4

Modelo de efectos fijos individuales

Una alternativa para modelar los efectos individuales es suponer que éstos son fijos en el tiempo y sólo se refieren a características del individuo. Es decir, el modelo queda como:

y ti=ix t

iti (7.6)

Como los efectos son fijos podemos modelarlos con variables mudas y usar mínimos cuadrados ordinarios, es decir, pondremos una variable muda (dummy) por cada intercepto.

[ y1

y2

⋮yn]=[ i 0 ⋯ 0

0 i ⋯ 0⋮ ⋮ ⋱ ⋮0 0 ⋯ i ][x 1

x 2

⋮x n][1

2

⋮n] (7.7)

donde y son vectores, es decir, contienen n y k parámetros respectivamente. Si llamamos D a la matriz de dummies, entonces el modelo se reduce a:

y ti=Dx t

iti (7.8)

Todos los resultados clásicos sobre técnicas de estimación de mínimos cuadrados, optimalidad del estimador, bondad de ajuste, y distribuciones de los estimadores y los tests se mantienen. Este estimador es llamado LSDV por least squares dummy variables.

Note, además, que es posible hacer un test formal de igualdad de efectos fijos usando simplemente el test de Wald para H 0 : i= j .

¿Cuál es la importancia de estimar usando efectos fijos? Como se muestra en la Figura 1, el estimador pooled es sesgado cuando hay efectos individuales. Las observaciones en este ejemplo están ordenadas en dos grupos.1 El estimador pooled intenta minimizar el error cuadrático de ambos grupos simultáneamente. No obstante si se modela cada grupo de la siguiente forma:

yti=1x t

iti si el individuo es tipo 1

y ti=2x t

iti si el individuo es tipo 2

(7.9)

el estimador es insesgado.

1 Naturalmente, en la realidad es posible tener un gran número de grupos.

Page 203: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.5

Figura 7.1

La situación podría ser mucho más dramática. Considere el siguiente fenómeno estudiado por Vial y Soto (2002).2 Algunos estudios señalan que el puntaje en las pruebas de selección universitaria (PAA o PSU) no es una buena prueba de selección porque no hay una correlación positiva entre puntaje de entrada y rendimiento posterior en la universidad. La evidencia es que la correlación en datos pooled es estadísticamente cero (si no es negativa). Pero, la selección de alumnos por puntaje de entrada segmenta las carreras (las carreras cierran las vacantes en puntos de corte que están ordenados): cuando se hace un modelo de panel permitiendo que cada carrera tenga su propio intercepto se obtiene una correlación positiva invalidando la conclusión anterior.

2 Bernardita Vial y Raimundo Soto. “¿Predice la PAA el rendimiento o éxito en la universidad?”, Administración y Economía, 24-27, 2002.

ModeloPooled

Modelo Efecto Fijo

α1

α2

y

x

Page 204: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.6

Figura 7.2

El estimador intragrupos

Existe un problema evidente cuando la muestra es grande en la dimensión de corte transversal (N), porque es poco práctico poner un número elevado de variables mudas. Si usted usa la CASEN podría enfrentarse con el problema de tener que poner 5.000 dummies. Una alternativa interesante consiste en tomar el promedio en el tiempo para un individuo de la ecuación (7.6):

yi= ix

ii (7.10)

y restarlo de la ecuación (7.6) para obtener:

y ti−y

i=ix tit

i−i− xi−

i

= x ti−x

i ti−

i (7.11)

Si definimos las desviaciones con respecto a la media del individuo en el tiempo como y* y x*, entonces:

=x t* ' x t

*−1 x t* ' yt

* (7.12)

Debido a que este estimador usa desviaciones con respecto a la media de cada grupo, las variables han sido normalizadas para estudiar sólo las desviaciones con respecto a la media grupal, es decir, permite ver lo que sucede al interior del grupo. Por ello le llamamos estimador intragrupal (within groups estimator).

ModeloPooled

Modelo Efecto Fijo

Rendimiento

Puntaje

α1

α2

Page 205: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.7

Figura 7.3

Es decir, al tomar diferencias con respecto a la media en el tiempo de las observaciones se elimina la constante y los efectos fijos. Nótese que la transformación retira la media de cada variable por grupo i-ésimo, no con respecto a la media global de las variables.

Para recuperar el efecto fijo, se usa la ecuación (7.10) porque el promedio de los grupos cumple i=y

i−xi

Vamos a definir unas sumas de cuadrados que serán de gran utilidad. En el caso del estimador pooled o total (p) usamos todas las observaciones:

S xxp =∑

i=1

N

∑j =1

T

x ti−x ' x t

i−x

Sxyp =∑

i=1

N

∑j=1

T

x ti−x ' y t

i−y (7.13)

donde x es la media de x en todos los grupos y todos las observaciones. Computamos el estimador como:

p=Sxy

p

Sxxp (7.14)

En el caso del estimador intragrupos w usamos los datos en desviaciones con respecto a la media en el tiempo de cada individuo, x

i :

Estimación Intragrupal

y

x

Page 206: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.8

S xxw =∑

i=1

N

∑j =1

T

x ti−x

i ' x ti−x

i

Sxyw =∑

i=1

N

∑j=1

T

x ti−x

i ' y ti−y

i (7.15)

y computamos el estimador como: w=S xy

w

S xxw

Pero notemos que S xxp puede ser escrito como:

S xxp =∑

i=1

N

∑j =1

T

x ti−x ' x t

i−x

=∑i=1

N

∑j =1

T

x ti−x

ixi−x ' x t

i−xix

i−x

=∑i=1

N

∑j =1

T

x ti−x i x i−x ' x t

i−x i x i−x

=∑i=1

N

∑j =1

T

x ti−x i ' x t

i−x i ∑i =1

N

∑j=1

T

x i−x ' x i−x

=S xxw ∑

i=1

N

∑j =1

T

x i−x ' x i−x

(7.16)

por lo tanto S xxw =S xx

p −∑i=1

N

∑j=1

T

xi−x ' x

i−x . Más adelante estudiaremos la doble

suma. Por el momento apliquemos la ecuación (7.5) al modelo en (7.11) para obtener la varianza del estimador intragrupos:

Var w =¿

2

∑i =1

N

∑i=1

T

x i−x i ' x i−x i =

¿2

S xxp −∑

i=1

N

∑i=1

T

x i−x ' x i−x (7.17)

entonces la varianza del estimador intragrupos es mayor que la del modelo pooled. Por eso, el estimador intragrupos es insesgado pero más ineficiente que el pooled.

Un problema de remover efectos fijos del modelo usando diferencias con respecto a la media grupal es que también se remueven todas aquellas variables que son fijas pero observables y que podrían ser de interés. En el ejemplo de la educación primaria, la educación de los padres está fija en el tiempo (suponga que no se capacitan en el periodo de estimación). El modelo podría ser escrito de manera genérica como:

y ti=ix t

iz iti (7.18)

Page 207: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.9

y, al usar el estimador intragrupos, se perderían todos las variables z. Típicamente con este método se pierden variables tales como género, religión, raza, ubicación geográfica, atributos fijos, etc.

El modelo con efectos temporales fijos

Podemos extender el modelo anterior para incluir efectos fijos que no se relacionan con unidades sino con el tiempo. Es frecuente que estemos interesados en algún fenómeno determinístico que afecta todas las unidades en un determinado instante de tiempo. Por ejemplo, cambios en el salario mínimo –una variable determinística– afectan la participación en el mercado laboral a través de cambios en la tasa de desempleo y, por lo tanto, los incentivos para entrar o salir del mercado laboral.

y ti=itx t

iti (7.19)

Para modelar este tipo de fenómeno se puede usar una dummy temporal, es deir, que tome valor uno para el t=1 y 0 en todo otro instante, otra dummy con valor uno en t=2 y 0 en todo otro instante, etc.

El modelo de la ecuación (7.19) con efectos fijos individuales y temporales es conocido como two-way fixed effects model. Se debe tener cuidado con poner T dummies temporales y N dummies individuales porque produce colinealidad perfecta.

El estimador intergrupos

Retomemos el modelo original

y ti=ix t

iti (7.20)

como sabemos de econometría básica, el modelo econométrico es una descripción de la medias condicionales y por lo tanto la ecuación (7.19) se cumple en las medias de cada grupo, i . La figura 4 muestra, esquemáticamente, el hecho que la regresión pasa por las medias de cada grupo:

Page 208: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.10

Figura 7.4

Entonces si en el modelo tomamos media con respecto al grupo tenemos:

Ei [ y ti ]=E i [

ix tit

i ]y i=i x ii (7.21)

y podemos computar el estimador de usando las siguientes sumas:

S xxb =∑

i=1

N

∑j =1

T

xi−x x

i−x '

Sxyb =∑

i=1

N

∑j=1

T

xi−x y

i−y '(7.22)

Consecuentemente el estimador es b=Sxy

b

Sxxb .

Este estimador es llamado intergrupos (between groups) precisamente porque al usar la media grupal elimina toda la variación intragrupal. Note que la suma de cuadrados Sxx en (7.22) es exactamente el término que habíamos dejado sin identificar en (7.16). Es decir, se cumple:

S xxp =S xx

w Sxxb (7.23)

y

x

E[y1]

E[y2]

E[x2] E[x1]

Page 209: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.11

Relación entre los estimadores totales, intra e intergrupos

Es importante entender qué tipo de estimación es la que realiza cada uno de los estimadores que hemos derivado. Hemos escrito el modelo de efectos fijos en tres distintas formas:

a y ti=ix t

iti

b y ti−y

i=[x ti−x

i ]ti−

i

c yi=i x

ii

(7.24)

Obviamente (a) es el modelo pooled ; (b) es el modelo en desviaciones con respecto a la media grupal (within), y (c) es el modelo en las medias grupales (between). Recordemos que las sumas de cuadrados de cada especificación son las que se muestran en el Cuadro 7.1:

Cuadro 7.1Comparación de estimadores de datos de panel

Estimador Sxx Sxy

Pooled ∑i =1

N

∑j=1

T

x ti−x x t

i−x ' ∑i =1

N

∑j=1

T

x ti−x yt

i−y '

Within ∑i =1

N

∑j=1

T

x ti−x i x t

i−x i ' ∑i =1

N

∑j=1

T

x ti−x

i yti−y i '

Between ∑i =1

N

∑j=1

T

x ti−x x t

i−x ' ∑i =1

N

∑j=1

T

x ti−x yt

i−y '

Los tres estimadores son:

p=[S xxp ]−1S xy

p

w=[S xxw ]−1S xy

w

b=[S xxb ]−1S xy

b(7.25)

Nóte que como S xxp =S xx

w Sxxb y S xy

p =Sxyw Sxy

b , podemos escribir el estimador pooled como una combinación de los otros dos estimadores:

Page 210: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.12

p=F w w[I−F w ] b

F w=Sxx

w

Sxxw Sxx

b(7.26)

Este es un resultado muy importante: el estimador pooled es un promedio de ponderado de los estimadores intra e intergrupos, cuya ponderación depende de la variación de cada grupo. Ello implica:

● Si no hay variación intragrupal F w=0 , sólo hay variación intergrupos

● Si no hay variación intergrupal F b=0 , sólo hay variación intragrupos

Estimador de la varianza de los errores

Un elemento práctico que no hemos resuelto es de dónde se obtiene el estimador de la varianza de los errores. En general, el estimador tradicional de econometría clásica basado en los residuos es válido, pero debe considerarse correctamente los grados de libertad en este caso:

2=∑i =1

N

∑j=1

T

y ti−i−x t

i 2

NT −N – K(7.27)

Modelo de efectos aleatorios

En muchos casos existe una buena razón a priori para suponer que los efectos son fijos, es decir, sin hacer un test que nos permita diludicar si es que el supuesto es aceptado por los datos. Cuando se observan a todos los componentes de un grupo o una muestra exahustiva de los mismos, entonces el efecto individual estará exactamente identificado o se le aproximará bastante bien. Por ejemplo, en un experimento con un grupo de control es fácil saber si un individuo recibió o no recibió el tratamiento. En tal caso, es razonable suponer que las diferencias entre individuos son cambios paramétricos.

Sin embargo, cuando sólo se cuenta con una muestra de individuos de un grupo, la identificación del efecto individual de ese grupo será dependiente de la conformación de dicha muestra. En tal caso es más razonable considerar que el efecto individual es sólo una realización de una variable aleatoria, i.e., la conformación de la muestra. Esto es natural porque estamos tratando tanto con series de tiempo como porque la constante refleja el promedio de shocks aleatorios que dan vida al error. Vamos a permitir que la constante tenga un componente aleatorio: i=i . De ahi el nombre random effects.

Page 211: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.13

y ti=ix t

iti (7.28)

donde μ es una variable aleatoria. Supondremos que la estructura de la parte estocástica es:

E[ti ]=E [i ]=0

E[ti ]2=

2

E[i ]2=2

E[ti i ]=E[t

i tj ]=E [i j ]=0

(7.29)

La estructura en la ecuación (7.29) es inocua excepto por el supuesto que E[ε , μ ]=0 , como veremos más adelante.

Obviamente, ambos “errores” (ε y μ) se tratan como una entidad. Entonces, para un grupo –la i-ésima unidad– su matriz de covarianzas de los errores es:

=[2

2 2 ...

2

2

22 ...

2

⋮ ⋮ ⋱ ⋮

2 2 ...

22] (7.30)

Como los errores entre las unidades no están correlacionados entre sí, la matriz de covarianza de residuos de la muestra completa es:

V =[ 0 ... 00 ... 0⋮ ⋮ ⋱ ⋮0 0 ...

] (7.31)

Entonces, resulta natural tratar el problema como si fuese uno de heterocedasticidad. Necesitamos construir el estimador de mínimos cuadrados generalizados con esta estructura de estocasticidad. Recordemos que la técnica de mínimos cuadrados generalizados consiste en encontrar una transformación del modelo original tal que el modelo transformado sea homocedástico. Es decir, buscamos una matriz de transformación T tal que al aplicársela al modelo haga que sea homocedástico:

Ty i=Tx i T i (7.32)

donde E[T ]=0 y E[T ' T ' ]= 2T ' T . Imponiendo la restricción que T ' ΩT=I , encontramos T y soluciomos el problema de heteocedasticidad. En nuestro

caso, se puede demostrar analíticamente que basta con usar 1/2=I − T

ii ' donde es:

Page 212: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.14

=1−

T 2

2 (7.33)

y hacer la transformación de las variables de acuerdo a

y ti−y

i

x ti−x

i (7.34)

El resto del procedimiento es sencillo, encontrándose una expresión análoga a (25) para el estimador pooled:

p=F * w w[I −F * w ] b

F * w=Sxx

w

Sxxw

2

2T

2 S xxb

(7.35)

Notemos propiedades importantes del estimador de efectos aleatorios:

● Si 2=0 –es decir si no hay efectos aleatorios– se obtiene el modelo pooled como

esperabamos por congruencia

● Si T→∞ se obtiene el modelo de efectos fijos. Esto es muy razonable: si la muestra es enorme, entonces será representativa de la población.

Algoritmo de estimación del modelo de efectos aleatorios

El problema de la solución anterior es que Ω no es conocida. El siguiente algoritmo permite obtener un estimador de Ω sobre la base del estimador de las varianzas de los shocks y del estimador de los parámetros de efectos fijos.

1. Compute 2 usando los residuos del estimador intragrupos usando LSDV.

2. Compute

22

T usando el residuo del estimador intragrupos. De aquí se

obtiene el estimador despejando convenientemente. Nótese que esto sólo se puede hacer porque se ha supuesto que ambos shocks están no correlacionados.

3. Calcule =

2T

2

4. Obtenga y ti−y

i y x ti− x

i y haga la regresión

Page 213: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.15

5. Compute los estimadores de efectos aleatorios p , w , b

Hay, sin embargo, un segundo supuesto implícito que es necesario tomar en cuenta. Cuando modelamos el efecto aleatorio como:

y ti=ix t

iti (7.36)

es indispensable que no exista correlación entre el efecto aleatorio, μi, y los regresores, x ti , pues de otro modo el estimador de efectos aleatorios es inconsistente.

Si este supuesto se cumple, el estimador es consistente y, como usa el estimador de Ω, es eficiente asintóticamente (es decir, en muestra grande).

Paneles desbalanceados

Es común que en la práctica falten observaciones de alguna variable para unidades u observaciones. Estos se llaman paneles desbalanceados o incompletos. Este no es un problema serio. Nótese que en tanto hayan suficientes observaciones para computar la media grupal o la media temporal, la pérdida de observaciones no afecta a los estimadores de panel por la simple razón que éstos usan siempre la información disponible.

La incompletitud de una base de datos de panel sí afecta los estimadores de las varianzas de los errores y, en particular, los tests de hipótesis porque, al contar los grados de libertad, no se puede suponer que haya NT observaciones sino que un número menor. En este sentido, el estimador de la varianza de los residuos de la ecuación (26) debe ser corregido.

7.2 Modelación con datos de panel

Resulta natural preguntarse qué tipo de modelo se debe usar. Primero, si es imprescindible usar un modelo con efectos (ya sea fijos o aleatorios) o si es posible usar un modelo pooled. Una vez descartada la segunda alternativa, uno puede preguntarse si es necesario usar un modelo de efectos fijos o éste debe ser de efectos aleatorios. Una manera de enfocar el problema es notar que cada tipo de modelo exige una distinta relación entre los regresores y el efecto fijo y derivar del modelo analítico la disciplina necesaria para el modelo empírico. Es decir, si el modelo económico es capaz de identificar ex-ante el tipo de efecto individual, entonces ya tenemos la especificación necesaria y se puede testear si ésta describe adecuadamente los datos o no.

La mayor parte de las veces, sin embargo, los modelos teóricos no son capaces de identificar el tipo de efecto individual que se debe usar en el trabajo empírico. Para ello,

Page 214: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.16

se han diseñado tests estadísticos que ayudan en la especificación. En esta sección estudiamos los principales tests que nos permiten evaluar la aplicabilidad de los distintos estimadores en modelos de panel.

¿Efectos fijos o aleatorios?

Resulta natural preguntarse cuándo es preferible usar un modelo de efectos fijos o de efectos aleatorios. Es posible usar el test de Hausman para inferir cuál modelo usar. La base del test es precisamente la restricción del modelo de efectos aleatorios de que no haya correlación entre dichos efectos y los regresores.

Recordemos que si no hay correlaciónentre efectos individuales y regresores el estimador GLS es consistente y eficiente. Por otro lado, el estimador LSDV es consistente –pero ineficiente– tanto si hay correlación como si no la hay. Así, las hipótesis del test son:

● Ho (si no hay correlación): OLS y GLS son consistentes, pero OLS es ineficiente.

● H1 (si hay correlación): OLS es consistente, pero GLS es inconsistente.

El test entonces estudia la diferencia entre los estimadores de efectos fijos y aleatorios usando [ RE−FE] un sencillo test de Wald. Recuerde que el test de Wald en forma genérica es:

−2

2 (7.38)

aplicado a la diferencia entre estimadores, el problema es encontrar la varianza de [ RE−FE] .

Var [ RE−FE ]=Var [ RE ]Var [ FE ]−2Cov [ FE , RE ] (7.39)

La contribución de Hausman es notar que un estimador eficiente es ortogonal a “su diferencia con respecto a un estimador ineficiente”. Recuerde que dos variables correlacionadas comparten información y, por lo tanto, se puede usar una para predecir –con menor incertidumbre– la otra. Así, si el estimador LSDV es eficiente no puede estar correlacionado con su diferencia con otro estimador [ RE−FE] pues, de otro modo, podríamos usar esa información para construir un estimador aún más eficiente. Por ello,

0=Cov [ RE−FE , FE]=Cov [ FE , RE]−Var [ FE] (7.40)

Así, Cov [ FE , RE]=Var [ FE]

Page 215: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.17

y por lo tanto Var [ RE− FE ]=Var [ RE ]−Var [ FE]= . Entonces el test de Hausman es directamente:

[ FE− ℜ] ' −1 [ FE− ℜ]↝2 K (7.41)

donde k es el número de regresores en x ti .

Tests de Poolability

Después de haber estudiado si un modelo de efectos fijos es preferible a un modelo de efectos aleatorios, resulta natural preguntarse si un modelo pooled es preferible a un modelo de efectos aleatorios. El siguiente test –llamado de Breusch y Pagan– se emplea comúnmente (es un simple test de heterocedasticidad aplicado a datos de panel).

Recordemos que el efecto aleatorio lo modelamos como i=i con E[]=0. Entonces, si no hay efectos aleatorios, es obvio que α será constante. Así, las hipótesis del tests son:

H 0 : 2=0

H 1 : 2 ≠ 0

El test se aplica sobre los residuos del modelo pooled que denotamos por ti :

NT2 N−1 [∑i =1

N ∑i =1

T

ti

2

∑i=1

N

∑i=1

T

{ti }2

−1]↝ 12 (7.42)

Tests de igualdad de efectos fijos

Después de haber estudiado si un modelo de efectos fijos es preferible a un modelo de efectos aleatorios y si un modelo pooled es preferible a un modelo de efectos aleatorios, resulta natural preguntarse si el modelo de efectos fijos es preferible a un modelo pooled. El test es bastante sencillo:

H 0 : 1=2=...=n

H 1 : 1≠2≠ ...≠n

Este es un simple test de Chow, en el sentido que la H 0 señala un modelo restringido y la alternativa un modelo sin restringir. Computamos la suma de residuos

Page 216: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.18

al cuadrado de cada uno y formamos el test F:

SRCR−SRCU /N−1SRCU /T N−1−K

↝ F N−1T N−1−K (7.43)

donde SRCR es la suma de residuos al cuadrado del modelo restringido y SRCU es la suma de residuos al cuadrado del modelo no restringido.

7.3 Modelos de panel dinámicos

El modelo canónico o genérico de datos de panel dinámico tiene la siguiente forma

y ti=ix t

i yt−1i t

i (7.44)

donde i=1, ... , N y t=1, ... ,T . La variable x ti contiene todos los regresores estáticos del

modelo, es decir, incluye x1ti , x 2t

i , ... , x kti e incorporamos y t−1

i para capturar la dinámica del fenómeno. Seguimos suponiendo que el error εit es homocedástico y no correlacionado.

Consideremos que el error de (7.44) puede ser escrito como ti=it

i :

y ti=x t

i yt−1i t

i (7.45)

La existencia de efectos dinámicos complica el análisis porque produce correlación entre regresor y residuo: si y t

i depende de i entonces y t−1i también está

correlacionado con i . En este caso, el estimador pooled es inconsistente.

Consideremos el estimador de efectos fijos. La técnica de tomar primeras diferencias va a eliminar αi pero no va a ser una solución viable en este caso porque:

y ti−y

i= [x ti−x

i ] [ yt−1i −yt−1

i ]ti−

i

=[x ti−x i ] [ yt−1

i −y t−1i ]t

i−i (7.46)

pero y t−1

i =∑t=2

T

y t−1i

T−1 está relacionado con t

i−i porque, por construcción, y t−1

i está

correlacionado con i porque en este último se incluye t−1

i .

El estimador de efectos fijos será inconsistente. El sesgo del estimador dependerá del tamaño de muestra. Cuando T tiende a ∞, el sesgo desaparecerá. Sin embargo en este

Page 217: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.19

contexto T moderadamente alto aún producirá un estimador sesgado. Estudios con datos artificiales señala que con muestras de tamaño T=30, el estimador puede estar sesgado en un 20% o más.

El estimador de efectos aleatorios también será sesgado. Recordemos que para construir el estimador hay que cuasi-diferenciar de la forma y t

i−yi . Así, nuevamente

y t−1i =

1T−1∑t=2

T

y t−1i estará relacionado con t

i−i por construcción.

Una alternativa de solución sería usar primeras diferencias y ti− yt−1

i. El modelo sería:

y ti− yt−1

i =ix ti y t−1

i ti−i−x t−1

i yt−2i t−1

i

= [x ti−x t−1

i ] [ yt−1i − y t−2

i ]ti−t−1

i (7.47)

lo que elimina el efecto fijo. Pero va a haber correlación entre regresor yt−1 y el residuo. Para controlar esta problema la solución sería usar variables instrumentales.

Estimador de Anderson y Hsiao (1981)

Usar yt−2 como un instrumento de yt−1 . Nótese que como y t−2 e y t−3 suceden antes que t y t−1 entonces no hay correlación entre instrumento y residuo. Además, hay covariación obvia entre yt−2 y yt−1 . En este caso, el estimador de variables instrumentales (Anderson y Hsiao, 1981) es consistente pero no necesariamente eficiente. Este último fenómeno se debe a que el estimador no hace uso de la estructura característica de los residuos, t

i−t−1i .

Estimador de Arellano (1989)

El problema de eficiencia se reduce notablemente si se usa y t−2 como un instrumento de yt−1 , en vez de yt−2 . Nótese que como y t−2 sucede antes que t y t−1 entonces no hay correlación entre instrumento y residuo y, por otro lado, hay covariación entre y t−2 y yt−1 .

Estimador de Arellano y Bond (1991)

Arellano y Bond (1991) desarrollan el estimador de momentos en el contexto de panel data. Consideremos el modelo dinámico más simple y t

i= yt−1i t

i . Tomamos primera diferencia:

Page 218: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.20

yti= y t−1

i ti (7.48)

y nos concentramos en definir la matriz de instrumentos Z adecuados para estimar el modelo:

● Para t=3, que es el primer período que podemos estimar, los instrumentos disponibles y adecuados son: y 1 .

● Para t=4, los instrumentos disponibles y adecuados son: y 1 e y 2 .

● Para t=5, los instrumentos disponibles y adecuados son: y 1 , y 2 e y 3.

● etc.

Por lo tanto la matriz de instrumentos Z va creciendo con la muestra. Premultipliquemos el modelo por Z ’ :

Z ' y ti=Z ' yt−1

i Z ' ti (7.50)

Todo está OK, excepto que el residuo es ahora heterocedástico. De hecho, la matriz de covarianza de t

i es de la forma 2 G . Por lo tanto, usamos mínimos

cuadrados generalizados y obtenemos el estimador de Arellano y Bond consistente de una etapa:

=[ yt−1i ' Z W ' GW −1Z ' y t−1 ]

−1 [ y t−1i ' Z W 'GW −1Z ' yt ] (7.51)

El estimador eficiente, sin embargo, que corresponde al caso en que N→∞ con T

fijo en cuyo caso el estimador de W'GW es V n=∑i=1

N

Z ' i i ' Z . Entonces:

=[ yt−1i ' Z V n

−1Z ' yt−1 ]−1 [ y t−1

i ' ZV n−1Z ' y t ] (7.52)

7.4 Tests de raíces unitarias en panel

Esta es un área reciente de tests y aún son algo primitivos. Un primer test es el de Bhargava, Franzini y Narendrathan (1982) que desarrollan una variación del test de Durbin-Watson para panel y que puede ser usada para testear si el AR(1) tiene una raíz unitaria.

Page 219: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.21

El primer test de raíces unitarias propiemente es el de Levin y Lin (1992). Consideremos el modelo canónico:

y ti=z t

i i yt−1i t

i (7.53)

El test asume que ti es i.i.d. y que ρi=ρ, es decir que el coeficiente de la variable

endógena rezagada es igual en todos los grupos. Esto es equivalente a suponer que la dinámica es la misma en todos los grupos. La hipótesis nula es que existe una raíz unitaria:

H0 :=1H1: 1

Definimos h t , s =z t ʹ ∑i =1

T

z t z t ʹ z s , ti=t

i−∑i =1

T

h t , s si , y

y ti= yt

i−∑i =1

T

h t , s y si entonces Levin y Lin (1992) encuentran la distribución de:

N T −1 =

1 N ∑

i=1

N 1T ∑

i=1

T

yt−1i t

i

1N ∑

i=1

N 1T 2 ∑

i=1

T

y t−1i yt−1

i(7.54)

y del estadístico

t = −1∑i =1

N

∑i =1

T

yt−1i

y t−1i

1NT ∑

i=1

N

∑i=1

T

t−1i t−1

i

(7.55)

Al igual que en el caso de las series de tiempo univariadas (p.e., test de Dickey-Fuller), las distribuciones de (72) y (73) dependen de lo que contenga z (nada, constante, un shock individual, o un shock individual y una tendencia lineal). Así:

Page 220: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.22

Cuadro 7.2

z ti tρ

0 N T −1 ⇒N 0,2 t ⇒ N 0,1

1 N T −1 ⇒N 0,2 t ⇒ N 0,1

μi N T −1 3 N ⇒ N 0,51

5 1.25 t 1.875N⇒ N 0,1

(μi, t) N [T −17.5 ]⇒ N

0,2895112 488

277t 3.75N⇒N 0,1

Nota: significa “convergencia débil a”.⇒

Las distribuciones son obtenidas siguiendo un proceso de convergencia secuencial, es decir, primero se hace T→∞ y luego N→∞ . Esto es una debilidad si la muestra no es grande en alguna dimensión.

Harris y Tzavalis (1999) derivan la distribución cuando T es fijo y N→∞ para los siguientes casos:

Cuadro 7.3

z ti

0 N T −1 ⇒N 0,2

T T−1μi

N T −1 3T1 ⇒ N 0, 317T2−20T17

5T−1T13 (μi, t)

N T −1 152 T2⇒N 0, 15193T2−728T1147

112 T23 T−2 Nota: significa “convergencia débil a”.⇒

O' Connell (1998) demuestra que estos tests sufren pérdida de poder y distorsión de tamaño cuando hay correlación contemporánea entre los νi. El problema aquí es complejo porque envuelve entender qué es y cómo opera la correlación espacial.

Page 221: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.23

Im, Pesaran y Shin (1997) proponen un test que (1) evita suponer que ρi=ρ, y (2) es menos complejo de estudiar. El test se basa en usar un promedio de los tests ADF hechos para cada cross-section de modo independiente:

ti=∑

j=1

p i

ij t− ji t

i (7.56)

sustituyendo en la ecuación (71)

y ti=z t

i i yt−1i ∑

j =1

p i

ij y t− ji t

i (7.57)

La hipótesis nula es que cada ρi es una raíz unitaria:

H0 : ρi = 1 para todos los iH1 : ρi < 1 para al menos un i

El estadístico de Im, Pesaran, y Shin, llamado t bar, es el promedio de los N t-tests de la ecuación (75):

t =1N ∑

i=1

N

t i(7.58)

La distribución del estadístico t bar no es fácil de computar porque depende del valor promedio y la varianza det bar que son desconocidas. Im, Pesaran, y Shin encuentran los valores por simulación con datos artificiales. En tal caso:

N t −1N ∑

i=1

N

E [ t i |i=1 ] 1

N ∑i=1

N

V [ t i |i=1]⇒ N 0,1 (7.59)

La distribución de este test se obtiene, nuevamente, siguiendo el proceso de convergencia secuencial, es decir, primero se hace T→∞ y luego N→∞, pero tiene la restricción adicional que N/T→0 . Esto es una debilidad si la muestra no es grande en alguna dimensión o si N no es relativamente pequeño.

Maddala y Wu (1999) y Choi (2001) proponen hacer tests de raíces unitarias en cada cross-section y computar el valor p en cada caso. El siguiente estadístico:

Page 222: NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo … · 2.04 Momentos de una Distribución ... el equilibrio de ... principalmente del desarrollo de un fundamento teórico sólido para

7.24

P=−2∑i =1

N

ln p i⇒ χ² 2N (7.60)

Las ventajas de este estimador son (1) no requiere un panel balanceado, (2) los largos de rezagos pueden diferir entre cross-section, (3) no requiere ρi=ρ. Las desventajas es que los valores p tienen que ser obtenidos por simulación de Montecarlo en cada caso.