Pronosticos en el mercado de derivados utilizando redes ...€¦ · Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de

Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer.

GVELASCO

Iván Cruz Torres Facultad de Contaduría y Administración de la Universidad Nacional Autónoma de México

Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer

Índice Índice ……………………………………………………………………………………………. i Índice de tablas y figuras …………………………………………..……………….……….. iv Resumen ………………………………………………………………………………..……... vi Introducción …………………………………………………………......……………………. vii a. Planteamiento del problema ................................................................................. vii b. Hipótesis …………………………………………………………….……….…...……. viii c. Objetivos ……………………………………………………..…………………………. ix c.1 Objetivo general ………………………………………………………...………… ix c.2 Objetivos específicos ……………………………………………….…….…..….. ix d. Justificación …………………………………………………………………………….. ix e. Tipo de investigación ……………………………………………….……….…..…...… x f. Breve contenido de la tesis ……………………………………………………......…… x Parte I. Marco Teórico. Series de tiempo y redes neuronales …………………………… 1 Capítulo 1. Series de tiempo …………………………..…………………………………….. 2 1.1 Generalidades ………………………………………………………………..…....….. 2 1.2 Algunos conceptos de las series de tiempo …………………………..………..….. 4 1.2.1 Proceso estocástico ……………………………………….…………..……….. 4 1.2.2 Proceso estacionario…………………………………………………..…….….. 4 1.2.3 Proceso puramente aleatorio ………………………………………...…….….. 4 1.2.4 Caminata aleatoria ……………………………………….………..………..….. 4 1.2.5 Procesos estocásticos integrados …………………………………………….. 5 1.2.6 Prueba de raíz unitaria ……………………………………….………..…...….. 5 1.3 Modelos ARIMA ……………………………………….…………………………..….. 6 1.3.1 Proceso autorregresivo (AR) …………………………………………..…..….. 6 1.3.2 Proceso de media móvil (MA) ………………………………………...……….. 6 1.3.3 Proceso autorregresivo y de media móvil (ARMA) …………………….....… 7 1.4 Caracterización de las series de tiempo: función de autocorrelación …….…..… 7 1.4.1 Función de autocorrelación …………………………………………………..... 7 1.4.2 Función de autocorrelación parcial …………………………..…………..…… 8 1.5 Propiedades de las series de tiempo financieras ………………………….....…… 9 1.5.1 Hipótesis de los mercados eficientes …………………………………..…..… 9 1.6 Datos usados en la predicción de series de tiempo financieras ….……………. 10 1.6.1 Datos técnicos. ……………………………………………………………..….. 10

i


1.6.2 Datos fundamentales …………………………………………………..….….. 11 1.7 Suavizamiento de series de tiempo ……………………………………………….. 13 1.8 Métodos clásicos para el tratamiento de series de tiempo financieras ………... 14 Capítulo 2. Redes neuronales ………………………………………………………….….. 16 2.1 Generalidades ……………………………….……………………………….…….... 16 2.2 Teoría y operación ………………………………………….…………………...….. 17 2.3 Modelo General de una Neurona Artificial ……………………..………………… 18 2.4 Neurodinámica ……………………………………….…………………………….... 20 2.4.1 Entradas …………………………………………………………………….….. 20 2.4.2 Salidas …………………………………………………………………..…..….. 20 2.4.3 Regla de propagación …………………………………………………….…... 21 2.4.4 Función de activación o función de transferencia ……….…………………. 22 2.4.5 Función de salida ……………………………………………….………….….. 23 2.5 Modelo estándar de una neurona artificial …………………………….………..… 24 2.5.1 Neuronas todo-nada ……………………………………….……………...….. 25 2.5.2 Neurona continua sigmoidea ………………………………………….….….. 25 2.6 Arquitecturas de redes neuronales ………………………………………….…….. 26 2.6.1 Redes Neuronales de dos capas. …………………………………….….….. 27 2.6.2 Redes Neuronales multicapa. ………………………………………...….….. 29 2.6.3 Una definición formal de red neuronal …………………………….………... 32 2.6.4 Actualización del estado de las neuronas ………………………………..…. 33 2.7 Modos de operación de una red neuronal …………………………………….….. 34 2.7.1 Modo de aprendizaje ………………………………………………………….. 34 2.7.1.1 Aprendizaje supervisado ………………………………………….…..… 36 2.7.1.2 Aprendizaje no supervisado …………………..………………….…….. 36 2.7.1.3 Aprendizaje híbrido ……………………………………………………… 37 2.7.1.4 Aprendizaje reforzado ………………………………………….……..… 37 2.7.2 Algoritmo de retropropagación …………………………………….…………. 37 2.7.3 Fase de recuerdo o ejecución ……………………………………….….….… 39 2.8 Clasificación de los modelos neuronales …………………………..….………….. 40 2.9 Desarrollo de un modelo RNA …………………………………………...………… 41 2.9.1 Selección del algoritmo de aprendizaje ………………………………...…… 41 2.9.2 Selección de las funciones de error y transferencia ………………….……. 42 2.9.2.1 Funciones de error ……………………………………………….…..….. 42 2.9.2.2 Funciones de transferencia ……………………………………….……. 42 2.9.3 Aspectos importantes en la predicción con RNA ……………….………….. 44 Capítulo 3. Redes neuronales aplicadas a las series de tiempo financieras …………. 46 3.1 Generalidades ……………………………………………………………...….…….. 46 3.2 Sistemas tradicionales …………………………………………….…………….….. 47 3.3 RNA como modelo no lineal …………………………………………………….….. 48

ii


3.4 Modelos paramétricos y no paramétricos ………………………………………… 49 3.5 Modelos auto regresivos no lineales …………………………………………….… 49 3.6 Modelos de promedio móvil …………………………………………….………….. 51 3.7 Algunas aplicaciones de redes neuronales a las series de tiempo …….……… 53 Parte II. Desarrollo y aplicación del modelo propuesto. Comparación con la metodología ARIMA…………………………………………………………………………………………. 55 Capítulo 4. Metodología para pronósticos mediante modelos ARIMA y RNA ……...… 56 4.1 Metodología para pronósticos mediante modelos ARIMA ……………..……….. 56 4.1.1 Análisis exploratorio de la serie ………………………………………....…… 56 4.1.2 Identificación del modelo ……………………………………...……...…….… 56 4.1.3 Estimación de parámetros ……………………………………………….…… 56 4.1.4 Verificación de diagnóstico ………………………………….…………...…… 57 4.1.5 Pronóstico ………………………………….……………….…………......…… 57 4.2 Metodología para predicción mediante RNA …………………………………..…. 57 4.2.1 Selección de variables ……………………………….…...………………..… 57 4.2.2 Colección de datos …………………………………………………….……… 58 4.2.3 Pre procesamiento de datos ………………………………….…....………… 58 4.2.4 Conjuntos de entrenamiento y prueba ……………………….……………… 59 4.2.5 Paradigmas de las RNA …………………………………………...………… 59 4.2.5.1 Número de capas ocultas ………………...…………………………….. 59 4.2.5.2 Número de neuronas ocultas ……………………………………….….. 60 4.2.5.3 Número de neuronas de salida ……………………………………..….. 61 4.2.5.4 Función de transferencia ……………………………………………….. 61 4.2.6 Criterio de evaluación ………………………….……………………………… 61 4.2.7 Entrenamiento de la red …………………………….………………………… 61 4.2.7.1 Número de iteraciones de entrenamiento ……………………….……. 61 4.2.7.2 Tasa de aprendizaje y momento ………………………………………. 62 4.2.8 Implementación ……………………………………………………………..… 63 Capítulo 5. Desarrollo y análisis de resultados ………………………………...………… 64 5.1 Datos …………………………………………………………………………..……… 64 5.2 Obtención del modelo ARIMA para la serie MexDer Cete Dc08 ………….…… 64 5.2.1 Análisis exploratorio de la serie ……………………………………………… 65 5.2.2 Identificación del modelo ……………………………………………………… 69 5.2.3 Verificación de diagnóstico …………………………………………………… 71 5.2.3.1 Contraste de validez del modelo ………………………………………. 72 5.2.4 Pronóstico ………………………………………………….…………………… 73 5.3 Obtención del modelo RNA para la serie MexDer Cete Dc08 …..……………… 74 5.3.1 Selección de variables …………………………………………………..……. 74 5.3.2 Colección de datos ……………………………………………………….…… 74 5.3.3 Pre-procesamiento de datos ………………………………….……………… 75

iii


5.3.4 Conjuntos de entrenamiento y prueba …………………………..………….. 76 5.3.5 Paradigma de la RNA ……………………………………………….………… 76 5.3.5.1 Topología de la red …………………………………..………………….. 76 5.3.5.2 Determinación de las entradas ………………………...………………. 77 5.3.5.3 Número de neuronas en la capa oculta y entrenamiento …………… 77 5.3.5.4 Algoritmo de entrenamiento ………………………...………………….. 78 5.3.5.5 Selección de pesos iniciales …………………………..……………….. 78 5.3.6 Criterio de evaluación …………………………………………………………. 78 5.3.7 Implementación ………………………………………………...……………… 79 5.4 Resultados obtenidos ………………………………………..……………………… 81 5.4.1 Resultados obtenidos por medio del modelo ARIMA ………..……………. 81 5.4.2 Resultados obtenidos por medio del modelo RNA……………………...….. 82 5.4.3 Características de las series pronosticadas por ARIMA y RNA ………….. 82 5.5 Pruebas de hipótesis ……………………………………………………..…………. 84 5.5.1 Descripción de variables …………………………………………..………….. 84 5.5.2 Pruebas de hipótesis específicas de los modelos dentro de muestra …... 84 5.5.2.1 Coeficiente de determinación …………………………..………………. 84 5.5.2.2 Criterio de información de Akaike ……………………………………… 85 5.5.2.3 Criterio de información de Schwarz ……………………………….…... 86 5.5.3 Pruebas de hipótesis específicas de los modelos fuera de muestra …….. 87 5.5.3.1 Raíz del Error Cuadrático Medio ………………………………………. 87 5.5.3.2 Error Medio Absoluto Porcentual ………………………………………. 88 5.5.3.3 Coeficiente de desigualdad de Theil …………………………………... 89 Capítulo 6. Conclusiones y propuestas para futuras investigaciones …………….…… 90 Capítulo 7. Referencias ……………………………………………………………...……… 92 Apéndices ……………………………………………………………………….…..……… 100 Apéndice A Equivalencias entre la literatura estadística y la literatura RNA ……….. 100 Apéndice B Datos de cierre del futuro del Cete CT91D-dc08 en el MexDer ……..… 101 Índice de tablas y figuras ……………………………………………………...……..……… iv Tabla 1.1 Patrones teóricos de FAC y FACP ..……..…….. ……………………………… 8 Tabla 2.1 Aspectos generales del trabajo con RNA en predicciones ………….……… 44 Tabla 5.1 Pesos entre la capa de entrada y la capa oculta de la RNA estimada ….… 80 Tabla 5.2 Pesos entre la capa oculta y la capa de salida de la RNA estimada ……… 80 Tabla 5.3 Características de la series pronosticadas del Cete en el MexDer …….…. 83 Tabla 5.4 Características de la series pronosticadas del Cete, primeros 60 días ..…. 84

iv


Figura 2.1 Modelo de una neurona artificial .….……………………………..……...…… 19 Figura 2.2 Funciones de activación comunes …………………………………….…...… 23 Figura 2.3 Interacción entre una neurona presináptica y otra postsináptica …….…… 26 Figura 2.4 Red neuronal de dos capas ……………………………………………...…… 29 Figura 2.5 Red neuronal multicapa …………………………………………………….…. 30 Figura 2.6 Ejemplo para demostrar las ventajas de las capas ocultas …………….…. 31 Figura 2.7 Efecto del sobreentrenamiento …………………………………………….…. 35 Figura 2.8 Clasificación de modelos de RNA por tipo de aprendizaje y arquitectura .. 41 Figura 2.9 Comparación de las funciones de transferencia sigmoidea …………….… 43 Figura 2.10 Esquema de trabajo con RNA ………………………….…………………… 45 Figura 3.1 Red neuronal unidireccional como modelo AR no lineal ………………..…. 51 Figura 3.2 Red neuronal conformando un modelo ARMA no lineal …….…………….. 52 Figura 4.1 Gráficas del comportamiento de los errores en una RNA ……………..….. 62 Figura 5.1 Gráfica del Cete Dc08 en el MexDer ………………………………………… 65 Figura 5.2 Gráfica de la serie del rendimiento logarítmico (RCT) ………………...…… 66 Figura 5.3 Correlograma de la serie del futuro del Cete suavizada en niveles .…...… 68 Figura 5.4 Correlograma de la serie RCT ………………………………………….…….. 70 Figura 5.5 Gráfica de los residuos de la serie RCT …………………………..………… 72 Figura 5.6 Pronóstico realizado mediante el modelo ARIMA sobre la serie RCT …… 73 Figura 5.7 Arquitectura de la RNA que proporciona los mejores resultados …………. 79 Figura 5.8 Pronóstico realizado mediante el modelo RNA sobre la serie RCT …….... 80 Figura 5.9 Pronóstico realizado mediante el modelo ARIMA en niveles ………….….. 81 Figura 5.10 Pronóstico realizado mediante el modelo RNA en niveles ……………..... 82 Figura 5.11 Comparación entre pronósticos mediante ARIMA y RNA en niveles …... 83

v


Resumen El objetivo de esta tesis es proponer un modelo que permita pronosticar la tendencia de la serie del futuro del Cete de 91 días en el MexDer con vencimiento en diciembre de 2008, aplicando redes neuronales y series de tiempo, y comparar los pronósticos obtenidos de esta forma con los que se obtendría con un modelo ARIMA tradicional, con el fin de conocer que modelo ajusta mejor los datos dentro de muestra y que modelo pronostica mejor los datos fuera de muestra.

La principal aportación es demostrar que el modelo propuesto basado en redes neuronales es capaz de obtener buenas aproximaciones tanto en el ajuste como en el pronóstico, además de observar que, en este caso en particular, la aproximación resulta mejor que la generada por medio de la metodología ARIMA. Así también, la tesis contiene una propuesta metodológica para la aplicación de las redes neuronales a las series de tiempo financieras.

Este trabajo se divide en dos partes: Parte I, Marco teórico. Series de tiempo y redes neuronales, en donde se establecen las bases teóricas para el desarrollo de la tesis. Parte II. Desarrollo y aplicación del modelo propuesto y, comparación con la metodología ARIMA, en la cual se muestran las hipótesis de la investigación, su desarrollo y los resultados obtenidos, a partir de los cuales se presentan las conclusiones y algunas propuestas para futuras investigaciones.

vi


Introducción La importancia de saber el comportamiento de determinado activo financiero o instrumento derivado en un futuro permite tomar previsiones para evitar tomar riesgos innecesarios o tener la oportunidad de obtener mayores beneficios que la mayoría de las personas no puede aprovechar.

Las técnicas de pronóstico de series de tiempo por los métodos estadísticos tradicionales permiten llevar a cabo esta labor como, por ejemplo, por medio de la metodología Box-Jenkins, la cual permite obtener buenas aproximaciones en el caso de que dicho método sea bien aplicado, ya que ésta metodología tiene una parte de arte en el sentido de que el proceso es iterativo hasta alcanzar el mejor modelo de acuerdo a la experiencia del investigador.

Existen en general, dos grupos de modelos propuestos para pronosticar series de tiempo aplicadas a las finanzas, por un lado, los modelos estadísticos tradicionales como los ARIMA, los modelos GARCH y mixtos, y por otro, los modelos basados en áreas nuevas como la inteligencia artificial, las redes neuronales y los algoritmos genéticos.

Mediante el uso de redes neuronales artificiales es posible realizar predicciones sobre el comportamiento de series financieras, en este caso, para pronosticar la tendencia del futuro del Cete de 91 días en el MexDer. De acuerdo a la mayor parte de la literatura existente, se espera un mejor desempeño de las RNA en comparación con un modelo ARIMA utilizado como referencia, ya que las redes neuronales son capaces de identificar relaciones no lineales, las cuales, como se ha demostrado en algunos estudios, existen en los mercados financieros.

Resulta muy recomendable también, saber cuáles son las virtudes de cada una de las técnicas disponibles, por lo que en este trabajo se presentan las fortalezas y debilidades del modelo que emplea RNA como instrumento de predicción aplicado a series de tiempo financieras. a. Planteamiento del problema La predicción de series de tiempo financieras ha adquirido gran atención dentro de las investigaciones empíricas, tanto que los econometristas han empezado a dedicar mayores esfuerzos a este tipo de información, tal y como se demuestra con el número de artículos publicados en la materia.

vii


Una de las técnicas estadísticas tradicionales empleadas frecuentemente en el pronóstico de series de tiempo es la metodología Box-Jenkins, la cual permite obtener buenas aproximaciones cuando se aplica a series de tiempo estacionarias o que pueden convertirse en estacionarias mediante la transformación o transformaciones adecuadas.

Hasta ahora no se tiene conocimiento de la aplicación de un modelo similar al mercado mexicano de derivados desde un enfoque de series de tiempo, las propuestas en trabajos de tesis se han enfocado al aprendizaje de las redes utilizando las variables de entrada con las cuales se calcularía el valor de una opción, por ejemplo, por medio de la fórmula Black y Scholes (Pérez, 1998), por lo que esta tesis pretende determinar la factibilidad de emplear redes neuronales en la predicción de la serie del futuro del Cete en el MexDer. La pregunta general es: ¿Es posible generar un modelo basado en redes neuronales capaz de ajustar y predecir la tendencia de los datos de la serie de tiempo del futuro del Cete en el MexDer, así como mejorar los resultados obtenidos por medio de un modelo ARIMA utilizado como referencia? A partir de la cual se plantean las siguientes preguntas específicas:

- ¿El modelo propuesto basado en redes neuronales ajusta mejor los datos dentro de muestra que el modelo ARIMA usado como referencia?

- ¿El modelo propuesto basado en redes neuronales pronostica mejor los datos

fuera de muestra que el modelo ARIMA usado como referencia? b. Hipótesis Hipótesis general: Un modelo basado en redes neuronales es capaz de ajustar y predecir la tendencia de los datos de la serie de tiempo del futuro del Cete en el MexDer, así como también mejorar los resultados obtenidos por medio de un modelo ARIMA utilizado como referencia. A partir de la cual se plantean las siguientes hipótesis específicas:

- El modelo propuesto basado en redes neuronales ajusta mejor los datos dentro de muestra que el modelo ARIMA usado como referencia.

- El modelo propuesto basado en redes neuronales pronostica mejor los datos

fuera de muestra que el modelo ARIMA usado como referencia.

viii


c. Objetivos c.1 Objetivo general: Desarrollar un modelo basado en redes neuronales es capaz de ajustar y predecir la tendencia de los datos de la serie de tiempo del futuro del Cete en el MexDer, así como también realizar un análisis comparativo con un modelo ARIMA utilizado como referencia para determinar que modelo proporciona los mejores resultados. c.2 Objetivos específicos:

- Determinar si el modelo propuesto basado en redes neuronales ajusta mejor los datos dentro de muestra que el modelo ARIMA usado como referencia por medio de criterios estadísticos.

- Determinar si el modelo propuesto basado en redes neuronales pronostica mejor

los datos fuera de muestra que el modelo ARIMA usado como referencia por medio de criterios estadísticos.

d. Justificación La intención de esta tesis es mostrar la capacidad de las RNA de realizar pronósticos en series de tiempo financieras, en particular sobre la serie del futuro del Cete en el MexDer, como una herramienta alterna a las técnicas estadísticas tradicionales como la metodología ARIMA, además de explicar de manera clara y sencilla -pero sin perder de vista la rigurosidad matemática que involucran este tipo de temas-, el funcionamiento de una RNA.

El estudio propuesto no está diseñado para aquellas personas o empresas que se dedican de manera profesional a la inversión de valores, sino para aquellos inversionistas inquietos que deseen intentar una nueva forma de valuar instrumentos financieros con mayor precisión y poder subsanar de este modo la desventaja que presenta el no contar con todo un equipo de expertos en finanzas para poder determinar si el precio de determinado instrumento es el adecuado o no, basado en tecnologías que han demostrado su efectividad en otras disciplinas y que ahora se aplican a un sistema aparentemente caótico, pero a la vez con cierto orden como lo es el mercado de derivados.

Existen pocos estudios realizados por medio de redes neuronales relacionados al presente, y los que existen son aplicados sobre todo a mercados de países desarrollados, por lo que se pretende que este estudio pueda aplicarse a distintas series de tiempo existentes en el MexDer, incrementando con ello el abanico de

ix


posibilidades que cualquier persona debe poseer para poder tomar las mejores decisiones. Es por esta razón que esta investigación se considera novedosa.

Por todo lo anterior, existe la necesidad de desarrollar un marco conceptual que

permita fundamentar la propuesta metodológica de la presente tesis, y elaborar una investigación empírica con el fin de comprobar las hipótesis planteadas. e. Tipo de investigación Dado que no es posible realizar la manipulación de los datos de manera arbitraria en cuanto a sus valores, puesto que éstos son fijos dado que son los precios históricos de la serie de tiempo del futuro del Cete en el MexDer, este estudio no es experimental. Además, como el objeto de estudio es una serie de tiempo, el análisis será en consecuencia longitudinal. Inherentemente este estudio es diacrónico puesto que se usan los datos históricos, mismos que se emplean para predecir los valores de la serie en el tiempo t+1. Los datos considerados son los precios históricos del futuro de la serie del Cete a 91 días que cotiza en el MexDer, debido a que se quiere mostrar la aplicación de las redes neuronales artificiales al mercado mexicano. Se consideran los precios dentro del periodo del 1 de noviembre de 2002 al 12 de abril de 2007.

Se pasará entonces por la etapa correlacional, donde se explicará la relación de las diversas variables involucradas en la investigación para finalmente emitir conclusiones con respecto a la mejor técnica para realizar ajustes y predicciones dentro y fuera de muestra respectivamente, así como la complejidad, ventajas y limitaciones de la metodología propuesta. f. Breve contenido de la tesis La tesis comienza con una introducción en donde se presenta un panorama general del tema, se plantea el problema, se proponen hipótesis, se dan a conocer los objetivos, se justifica la investigación, se establece el tipo de investigación y se describe brevemente su contenido. La tesis se divide en dos partes principales: la primera trata acerca de las bases teóricas de las series de tiempo y de las redes neuronales, y la segunda parte utiliza el marco teórico para desarrollar los modelos ARIMA y RNA en el ajuste y predicción de series de tiempo financieras.

Parte I. Marco teórico. Series de tiempo y redes neuronales, en la cual se establecen las bases teóricas para el desarrollo de la investigación, presentando los aspectos relevantes de dichos temas, sus propiedades, aplicaciones, utilidad, complejidad y su poderoso alcance en el área de las finanzas.

En el primer capítulo se revisan los conceptos de las series de tiempo, procesos estocásticos, estacionarios, modelos ARIMA, funciones de auto correlación, tipos de

x


datos empleados en pronósticos, y métodos clásicos para el tratamiento de series financieras.

El segundo capítulo incluye la teoría y operación de las redes neuronales, así como el modelo general, la arquitectura, los modos de operación, la clasificación de los modelos y los pasos generales en el desarrollo de un modelo con RNA.

El tercer capítulo relaciona los primeros dos capítulos por medio de la revisión de la literatura en la cual las redes neuronales son aplicadas al pronóstico de series de tiempo financieras, incluyendo el estudio de los sistemas tradicionales, los modelos lineales y no lineales, los paramétricos y no paramétricos, los modelos autorregresivos no lineales, que serán la base del modelo propuesto con RNA, así como la descripción de algunas aplicaciones seleccionadas de las RNA a las finanzas.

Parte II. Desarrollo y aplicación del modelo propuesto. Comparación con la metodología ARIMA. En esta parte se aplica tanto la metodología ARIMA como la de RNA, se realiza un estudio comparativo de los resultados obtenidos y se emiten las conclusiones respectivas así como también algunas propuestas para investigaciones futuras.

El capítulo cuarto trata acerca de la metodología para pronósticos mediante modelos ARIMA y RNA, en donde se explica a detalle la metodología a seguir para realizar pronósticos mediante modelos ARIMA, como son, el análisis exploratorio de la series, la identificación del modelo, la estimación de parámetros, la verificación de diagnóstico así como el pronostico respectivo. También se proporciona la metodología para predicción mediante RNA, la cual incluye, la selección de variables, la colección de datos, el preprocesamiento de datos, los conjuntos de entrenamiento y prueba, los paradigmas de las RNA, el criterio de evaluación, el entrenamiento de la red y la implementación respectiva.

En el capítulo quinto se realiza el desarrollo y el análisis de resultados, abarcando la descripción de los datos, la obtención del modelo ARIMA, la obtención del modelo RNA, los resultados obtenidos y las pruebas de hipótesis específicas planteadas al inicio de la tesis.

En el capítulo sexto se presentan las conclusiones obtenidas a través del desarrollo de la tesis, así como algunas propuestas para el desarrollo de futuras investigaciones afines al tema.

Finalmente se proporciona la bibliografía empleada así como los apéndices referidos en el texto y la base de datos utilizada.

xi

Capítulo 1: Series de tiempo

Parte I.

Marco teórico

Series de tiempo y redes neuronales En esta parte se establecen las bases teóricas para el desarrollo de la tesis, incluyendo también la revisión de la literatura relacionada con la aplicación de las RNA en la predicción de series de tiempo financieras.

1


Capítulo 1

Series de tiempo

1.1 Generalidades Una serie de tiempo es una secuencia cronológica de observaciones de una variable en particular (Bowerman y O’Connel, 1993).

En términos formales, una serie de tiempo se define como una secuencia de vectores, dependientes del tiempo transcurrido t:

)(tx donde t = 0, 1, 2, …

Teóricamente, x se puede ver como una función continua de la variable de tiempo t. Sin embargo, para cuestiones prácticas, el tiempo generalmente se ve en términos de pasos de tiempo discretos, conduciendo a una instancia de x en cada punto de un intervalo de tiempo, generalmente de tamaño fijo (Dorffner, 1996).

De acuerdo a Chatfield (1978), son varios los objetivos por los cuales se desea analizar una serie de tiempo:

- Descripción: Al tener una serie de tiempo, el primer paso en el análisis es graficar los datos y obtener medidas descriptivas simples de las propiedades principales de la serie.

- Explicación: Cuando las observaciones son tomadas sobre dos o más

variables, es posible usar la variación en una serie para explicar la variación en las otras series.

- Predicción: Dada una serie de tiempo se intenta predecir los valores futuros

de la serie. Este es el objetivo más frecuente en el análisis de series de tiempo.

- Control: Si una serie de tiempo se genera por mediciones de calidad de un

proceso, el objetivo del análisis puede ser el control del proceso.

Una serie de tiempo generalmente se examina con la intención de descubrir patrones históricos que puedan ser útiles en la predicción. Para identificar esos patrones es conveniente pensar que una serie de tiempo consiste de varios componentes:

2


- Tendencia. Una serie de tiempo tiene tendencia cuando por largos periodos los valores crecen o disminuyen consistentemente. También puede definirse como cambios en la media.

- Ciclos. Se refiere a movimientos hacia arriba o hacia abajo alrededor del

nivel de la tendencia. Estas fluctuaciones, medidas de pico a pico, pueden tener una duración larga.

- Variaciones estacionales. Son patrones históricos que ocurren y se repiten

cada determinado tiempo, por ejemplo, anualmente. Estas variaciones son causadas típicamente por factores como el clima y las costumbres.

- Fluctuaciones irregulares. Son movimientos irregulares en una serie de

tiempo que no siguen un patrón regular, ni reconocible. Tales movimientos representan “lo que queda” en una serie de tiempo después de que la tendencia, ciclos y variaciones estacionales han sido explicados.

Pueden obtenerse valores futuros de una serie de tiempo observada mediante una gran cantidad de métodos de predicción. Estos métodos pueden clasificarse fundamentalmente en tres grupos:

- Subjetivos. Las predicciones se hacen sobre bases subjetivas usando el criterio, la intuición, el conocimiento en el área y otra información relevante. Entre estos métodos se encuentran: Ajuste de una curva subjetiva, el método Delphi1 y comparaciones tecnológicas en tiempo independiente.

- Univariados. Con este tipo de método se obtienen valores futuros de la serie

basándose en el análisis de sus valores pasados, se intenta conseguir un patrón en estos datos, se asume que este patrón continuará en el futuro y se extrapola para conseguir predicciones. Son muchos los métodos que encajan en esta categoría, entre estos se encuentran: Extrapolación de curvas de tendencia, suavización exponencial, método de Holt-Winters2 y método de Box-Jenkins (ARIMA). Este último es un método ampliamente utilizado.

- Causales o multivariados. Involucra la identificación de otras variables que

están relacionadas con la variable a predecir. Una vez que esas variables han sido identificadas, se desarrolla un modelo estadístico que describe la relación entre esas variables y la variable a pronosticar. Entre estos métodos

1 El método Delphi pretende extraer y maximizar las ventajas que presentan los métodos basados en grupos de expertos y minimizar sus inconvenientes. Para ello se aprovecha la sinergia del debate en el grupo y se eliminan las interacciones sociales indeseables que existen dentro de todo grupo. De esta forma se espera obtener un consenso lo más fiable posible del grupo de expertos. 2 El modelo de Holt-Winters es una ampliación perfeccionada del suavizamiento exponencial.

3


se pueden identificar: Regresión múltiple, modelos econométricos y métodos de Box y Jenkins (Modelo de función de transferencia3).

1.2 Algunos conceptos de las series de tiempo 1.2.1 Proceso estocástico Un proceso estocástico4 o aleatorio es una colección de variables aleatorias ordenadas en el tiempo. Si Y denota una variable aleatoria y continua, se denota como Y(t), pero si es discreta se expresa como Yt. 1.2.2 Proceso estacionario Un proceso estocástico es estacionario si su media y su varianza son constantes en el tiempo y si el valor de la covarianza entre dos periodos depende solamente de la distancia o rezago entre estos dos periodos de tiempo y no del tiempo en el cual se ha calculado la covarianza. En otras palabras, una serie de tiempo no estacionaria tendrá una media que varía con el tiempo o una varianza que cambia con el tiempo o ambas (Gujarati, 2004). 1.2.3 Proceso puramente aleatorio Un proceso puramente aleatorio es un tipo especial de proceso estocástico que tiene una media igual a cero, una varianza constante σ2 y no esta serialmente correlacionada5. 1.2.4 Caminata aleatoria Es una serie de tiempo estocástica en la que cada cambio sucesivo en Yt, expresado como ut es extraído en forma independiente de una distribución de probabilidad con media 0 y varianza σ2 (Pindick y Rubinfeld, 2001). Por lo tanto, Yt está determinada por:

Yt = Yt-1 + ut 3 Este modelo es una extensión del modelo ARIMA, también conocido como modelo de promedio autorregresivo móvil multivariado (MARMA). 4 El término “estocástico” proviene de la raíz griega “stokhos” que significa blanco y, hace alusión a la forma aleatoria en que se distribuyen los proyectiles lanzados contra un blanco. 5 Si también es independiente, dicho proceso se conoce estrictamente como ruido blanco.

4


1.2.5 Procesos estocásticos integrados El modelo de caminata aleatoria es un caso específico de una clase más general de procesos estocásticos conocidos como procesos integrados. Se puede demostrar de manera sencilla que la primera diferencia del modelo de caminata aleatoria es estacionaria. Si expresamos la caminata aleatoria como:

(Yt – Yt-1) = ΔYt = ut

Resulta fácil probar que mientras Yt no es estacionaria, su primera diferencia si lo es, ya que por definición ut tiene media constante cero y una varianza de σ2.

Por tanto, se llama al modelo de caminata aleatoria sin variaciones proceso integrado de orden 1 y se denota como I(1). De manera similar, si una serie de tiempo tiene que diferenciarse dos veces para hacerla estacionaria, se llamará a esa serie de tiempo integrada de orden 2 ó I(2).

En consecuencia, para convertir una serie no estacionaria en estacionaria se toman tantas diferencias como sea necesario, y se dice que el número de diferencias que se requiere para alcanzar la estacionariedad es el orden de integración de la serie. 1.2.6 Prueba de raíz unitaria Es una prueba para determinar la estacionariedad o no estacionariedad de una serie de tiempo. Si se considera la siguiente serie:

Yt = ρYt-1 + utdonde -1 ≤ ρ ≤ 1

Si ρ = 1, como se demostró anteriormente, el proceso no es estacionario. De esta manera, si se realiza la regresión de Yt sobre Yt-1 y se determina que la ρ es estadísticamente igual a 1, se concluiría que Yt no es estacionaria. Ahora, al diferenciar la serie se tiene la siguiente ecuación:

Yt – Yt-1 = ρYt-1 – Yt-1 + ut o expresándola de otra manera:

ΔYt = δYt-1 + ut donde δ = ρ - 1

5


Si δ = 0, entonces ρ = 1 y se dice que tiene una raíz unitaria, lo cual significa que la serie de tiempo bajo estudio no es estacionaria, pero al mismo tiempo ΔYt = ut. En consecuencia al tomar las primeras diferencias de la serie se obtiene una estacionaria.

Para saber si δ = 0, la mayoría de los estudios aplican pruebas de raíces unitarias introducidas por Dickey y Fuller (1979) conocidas como DF o DFA (Dickey-Fuller aumentada), las cuales vienen integradas en la mayoría de los paquetes econométricos actuales. 1.3 Modelos ARIMA Box y Jenkins (1978) propusieron un modelo novedoso para la predicción de series de tiempo. Popularmente es conocida como metodología Box-Jenkins aunque técnicamente se conoce como metodología ARIMA, en la que se analizan las propiedades probabilísticas o estocásticas de las series de tiempo económicas bajo la filosofía de “permitir que la información hable por sí misma”. 1.3.1 Proceso autorregresivo (AR) En el proceso autorregresivo de orden p la observación actual Yt es generada por un promedio ponderado de observaciones pasadas que se remontan p periodos, junto con una perturbación aleatoria en el periodo actual. Se denota este proceso como AR(p) y la ecuación que lo describe es:

tptpttt uYYYY +++++= −−− δααα ...2211

Donde δ es un término constante que se relaciona con la media del proceso estocástico.

Es interesante observar que el modelo anterior solamente considera los valores actuales y anteriores de Yt, no hay otros regresores. 1.3.2 Proceso de media móvil (MA) En el proceso de media móvil de orden q cada observación Yt es generada por un promedio ponderado de perturbaciones aleatorias que se remontan q periodos. Se denota este proceso como MA(q) y su ecuación respectiva es:

qtqtttt uuuuY −−− +++++= ββββμ ...22110 Donde μ = E(Yt).

6


El modelo de media móvil supone que las perturbaciones aleatorias están distribuidas en forma independiente a lo largo del tiempo, es decir, son generadas por un proceso de ruido blanco. 1.3.3 Proceso autorregresivo y de media móvil (ARMA) Muchos procesos aleatorios estacionarios no pueden modelarse como autorregresivos puros o de medias móviles puras, ya que tienen cualidades de ambos tipos de procesos. De esta forma, se puede concebir un modelo mixto autorregresivo de media móvil de orden (p, q). Se denota este proceso como ARMA (p, q) y se representa por medio de la ecuación:

qtqttptptt uuuYYY −−−− +++++++= ββδαα ...... 1111

Además, las series de tiempo económicas generalmente no son estacionarias, es decir, son integradas, razón por la cual si agregamos el concepto de integración explicado anteriormente, de manera que se tenga que diferenciar una serie de tiempo d veces para hacerla estacionaria y luego aplicar a esta el modelo ARMA(p, q) se dice que la serie de tiempo original es del tipo ARIMA(p, d, q), es decir, es una serie de tiempo autorregresiva integrada de media móvil. 1.4 Caracterización de las series de tiempo: función de autocorrelación Existen dos funciones importantes en el análisis de series de tiempo a partir de las cuales es posible extraer los parámetros del proceso ARMA. De acuerdo con Box y Jenkins, éstas son la función de autocorrelación de la muestra y la función de autocorrelación parcial. La apariencia de cada una de estas funciones da una indicación de la naturaleza del proceso bajo estudio y, en teoría, la tarea de identificar el modelo y de obtener sus parámetros se puede llevar a cabo con base en ellas. 1.4.1 Función de autocorrelación Dada una muestra Y0, Y1, …, Yn-1 de n observaciones, la función de autocorrelación muestral (FAC) de la muestra al rezago k, denotada por ρk, se define como:

0 para 1-n ..., 1, k para

1

ˆ 0 =

=

⎪⎩

⎪⎨⎧

=k

k

k γγ

ρ

donde: γ0 es la varianza de la muestra dada por:

7


( )∑=

−=n

tt YY

n 1

20

1γ

γk es la covarianza al rezago k definida como:

( )( )∑−

=+ −−=

kn

tkttk YYYY

n 1

1γ

La función de autocorrelación indica cuánta correlación existe entre datos

individuales contiguos en la serie Yt (Pindick, op. cit. p. 520). Conforme el valor del retraso aumenta, el número de observaciones comprendidas en la autocovarianza disminuye hasta el elemento final. Al graficar ρk frente a k, la gráfica obtenida se conoce como correlograma.

Cuando se grafica ρk se debe omitir el valor ρ0 el cual es invariablemente 1. Además, al interpretar la gráfica se debe tener cuidado de dar demasiada importancia a correlaciones en valores de retrasos que están significativamente altos en relación con el tamaño de la muestra. 1.4.2 Función de autocorrelación parcial La función de autocorrelación parcial (FACP) de la muestra ρkk en el retraso k es la correlación entre observaciones (series de tiempo) que están separadas k periodos de tiempo, manteniendo constantes las correlaciones en los rezagos intermedios (es decir rezagos menores de k). En otras palabras, la autocorrelación parcial es la correlación entre Yt y Yt-k después de eliminar el efecto de las Y intermedias.

En la tabla 1.1 se dan algunos lineamientos generales acerca de los patrones típicos de las funciones de correlaciones muestral y parcial (Gujarati, op. cit., p. 818).

Tipo de modelo

Patrón típico de FAC Patrón típico de FACP

AR(p) Disminuye exponencialmente o con un patrón sinusoidal decreciente o ambos

Picos grandes a lo largo de los p rezagos

MA(q) Picos grandes a lo largo de los q rezagos

Decrece exponencialmente

ARMA(p, q) Decrece exponencialmente Decrece exponencialmente

Tabla 1.1 Patrones teóricos de FAC y FACP

8


1.5 Propiedades de las series de tiempo financieras La predicción de series de tiempo financieras es una tarea altamente complicada debido a las siguientes razones:

- Las series de tiempo financieras se comportan casi como un proceso de caminata aleatoria, impidiendo desde un punto de vista teórico la predicción (Hellström y Holmström, 1998). La predicción de las series de tiempo más comunes (precios de acciones, niveles de índices) es un tema controversial y ha sido cuestionado en función de la hipótesis de mercados eficientes.

- Las series de tiempo financieras están sujetas al cambio en el tiempo, por

ejemplo, las propiedades estadísticas de las series de tiempo son diferentes en distintos puntos del tiempo (el proceso de variación en tiempo, Hellström y Holmström, ibid.).

- Las series de tiempo financieras son generalmente muy ruidosas, ya que

existe una gran cantidad de aleatoriedad (impredecible) en las variaciones día a día (Magdon-Ismail, et. al., 1998).

- En el largo plazo, una nueva técnica de predicción llega ser parte del proceso

a ser predicho, por ejemplo, se influencia el proceso en predicción (Hellström y Holmström, op. cit.).

1.5.1 Hipótesis de los mercados eficientes La hipótesis de los mercados eficientes o HME fue desarrollada por Fama (1965) y ha encontrado una gran aceptación en el medio financiero, Anthony y Biggs (1965), Malkiel (1987), Tsibouris (1995), White (1988), Lowe y Webb (1991) y Lawrence et. al. (1996).

La hipótesis de los mercados eficientes establece que el precio actual de mercado refleja la asimilación de toda la información disponible. Esto significa que dada la información, no se pueden hacer predicciones en cambios futuros de precios. Conforme nueva información entra al sistema, se descubren inmediatamente los ajustes y se eliminan rápidamente corrigiendo el precio de mercado.

Dependiendo del tipo de información considerada, existen tres formas de HME (Hellström y Holmström, op. cit.): La forma débil. Solamente se consideran los datos de precios pasados. Este tipo de HME elimina cualquier forma de predicción basado en los precios solamente, porque los precios siguen una caminata aleatoria en la cual, los cambios sucesivos tienen correlación cero.

9


La forma semifuerte. Se considera toda la información pública disponible. Esta incluye información adicional como volúmenes y datos fundamentales como pronósticos de utilidades y predicciones de ventas. La forma fuerte Toda la información disponible ya sea pública o privada es considerada.

En años recientes, la HME llegó a ser un asunto controversial debido a varias razones. Por una parte, se mostró en algunos estudios que se pueden lograr utilidades en exceso usando sólo los datos de precios históricos (Tino, et al, 2000), por otra parte es muy difícil de probar la forma fuerte debido a la falta de datos.

Otro argumento razonable en contra de la HME se refiere a las diferentes perspectivas de tiempo que tienen los inversionistas cuando hacen negocios. Por ejemplo, un accionista mayoritario reaccionará de manera diferente a un vendedor de piso cuando el precio de una acción cae repentinamente. Estas perspectivas de tiempo causarán anomalías en los precios de mercado aún si no entra información nueva al sistema. Puede ser entonces posible identificar estas situaciones y eventualmente predecir cambios futuros (Hellström y Holmström, op. cit.).

De manera más frecuente, los argumentos a favor de la HME se refieren a las pruebas estadísticas que muestran que no existe calidad predictiva en los modelos probados e indicadores técnicos. La mayoría de los argumentos en contra de la HME se refieren a un retraso en tiempo entre el punto cuando la nueva información entra al sistema y el punto cuando es asimilada. 1.6 Datos usados en la predicción de series de tiempo financieras Existen varios tipos de datos que pueden ser empleados en la predicción de series de tiempo, los cuales generalmente son agrupados en dos categorías: datos técnicos y datos fundamentales (Hellström y Holmström, op. cit.). 1.6.1 Datos técnicos. Estos incluyen datos como precios de acciones, volumen, volatilidad, etc. De hecho, el término series de tiempo financieras usualmente se refiere a series de tiempo de datos técnicos.

Los típicos datos técnicos involucrados en la predicción de series de tiempo financieros son:

- yC: precio de cierre; último precio negociado del día.

- yH: precio más alto negociado durante el día

10


- yL: precio más bajo negociado durante el día

- V: volumen total negociado durante el día

Mientras que en la mayoría de los casos se utilizan los datos diarios para modelar el comportamiento de precios de acciones, también están disponibles algunos datos de negociación intradía. Tales datos son usados en su mayoría no para modelar el mercado, sino para determinar el tiempo correcto de la intención de negociación en una operación real.

La opción más común de predicción es la serie de tiempo que emplea precios de cierre. Esta opción tiene algunas deficiencias, entre ellas:

- Los precios de cierre varían grandemente y hacen difícil crear un modelo para un periodo largo de tiempo.

- Los precios de cierre para diferentes acciones pueden diferir grandemente

sobre varias décadas o incluso años, y por lo tanto, no pueden ser usadas como el mismo tipo de entrada en un modelo. En lugar de modelar precios de cierre, una buena opción en muchos casos

es usar el rendimiento como tipo de dato. 1.6.2 Datos fundamentales El análisis del valor de una compañía se realiza usualmente por analistas de mercado profesionales de manera regular. Sus análisis proporcionan una base para evaluar el valor real de la acción de la empresa. Los analistas fundamentales toman en consideración los siguientes factores:

- El estado real de la economía medida por la inflación, la tasa de interés, el balance comercial, etc.

- La situación de la industria a la cual pertenece la empresa medida por medio

de:

o Índices de precios de acciones (Dow Jones, DAX, FTSE 100, S&P 500, IPC, etc)

o Precios de productos relacionados como el petróleo, metales diversos y monedas.

o El valor de las acciones de la competencia.

- La situación de la compañía medida por:

o La razón precio de la acción dividido entre el rendimiento por acción durante los 12 meses anteriores.

11


o Valor en libros por acción (activos netos divididos entre el número total de acciones)

o Margen de ganancia neta o ingreso neto dividido entre las ventas totales.

o Razón de deuda o deudas divididas entre el total de activos. o Pronósticos de ganancias futuras. o Pronósticos de ventas futuras.

Además de los anteriores, existen otros tipos que son generados al

transformar y combinar datos técnicos y/o fundamentales como los siguientes: Rendimientos El rendimiento a un paso se define como el incremento relativo en el precio anterior de la serie de tiempo:

)1()1()()(

−−−

=ty

tytytR

El rendimiento logarítmico se define como:

)1()(log)(−

=ty

tytR

Los datos así transformados son muy similares, con cambios pequeños y

usados muy frecuentemente en la predicción de series de tiempo financieras por las siguientes razones:

- R(t) tiene un rango relativamente constante aún si se usan datos de varios años como entradas. Los precios de y pueden variar mucho y hacer difícil la creación de un modelo válido para un periodo de tiempo grande.

- R(t) para diferentes acciones pueden ser comparadas de igual forma.

- Es fácil de evaluar un algoritmo de predicción para R(t) calculando la

exactitud de la predicción del signo de R(t). Volatilidad La volatilidad es sinónimo de la desviación estándar de algún valor (por ejemplo el precio de una acción). La volatilidad es una medida del riesgo, pero también de posibilidades de ganancias. En las llamadas estrategias de negociación delta-neutral (para contratos de opciones), la ganancia o pérdida de una operación no depende del precio, sino de la volatilidad del precio de la acción respectiva

12


(Tompkins, 1997). Así, la volatilidad no sólo es una medida del riesgo, sino un producto negociable. 1.7 Suavizamiento de series de tiempo Dependiendo de la serie de tiempo, algunas veces resulta necesario suavizarla para de esta manera eliminar algunas de las fluctuaciones a corto plazo más volátiles. Dicho suavizamiento puede realizarse antes de generar un pronóstico o también para contar con una serie de tiempo más fácil de analizar e interpretar.

Una forma sencilla de suavizar una serie es tomar un promedio móvil de periodo n. La serie Yt suavizada de esta manera queda expresada por:

( )11 ...1ˆ+−− +++= ntttt YYY

nY

Mientras más grande sea la n, más suave resultará la serie.

Otro método de suavizamiento es el exponencial, el cual hace uso del modelo de promedio móvil con ponderaciones decrecientes en forma de progresión geométrica:

...)1()1(ˆ2

21 +−+−+= −− tttt YYYY ααααα

Donde el coeficiente α puede tomar valores entre 0 y 1. La suma de los

coeficientes siempre dará la unidad, ya que:

( )∑∞

=

=−−

=−0

1)1(1

1s

s

αααα

Por lo tanto, se necesitan menos términos de la media móvil cuanto mayor

sea el valor de α. Para α = 1, la media coincidirá con el valor del periodo. Con un α cercano a cero, las ponderaciones de los valores serán todas muy pequeñas y el número de términos será mayor.

La elección del parámetro α debe ajustarse para cada serie en particular, aunque muchos programas permiten el cálculo automático del valor óptimo de α, en el sentido de seleccionar aquel que minimiza el error cuadrático medio.

Algunas veces se requiere hacer una mayor suavización de una serie pero no dar mucho peso a los datos individuales pasados. En este caso, el uso de la ecuación con un valor pequeño de α no sería aceptable, pero en su lugar puede aplicarse un suavizamiento exponencial doble. Como su nombre lo indica, la serie suavizada inicialmente se suaviza otra vez.

13


La fórmula de suavizamiento exponencial simple también puede modificarse incorporando cambios promedio en la tendencia (incremento o disminución) a largo plazo de la serie. Esto fundamenta el método de suavizamiento exponencial lineal con dos parámetros o técnica de Holt-Winters. 1.8 Métodos clásicos para el tratamiento de series de tiempo financieras Los métodos tradicionales de series de tiempo financieras incluyen los siguientes modelos:

- Modelo de media.

yty μ=ˆ

Por ejemplo, el valor a predecir es igual al valor de la media de la muestra de la serie de tiempo.

- Modelo de tendencia lineal

tyt βα +=ˆ

Es equivalente a ajustar una línea a una serie de observaciones de manera tal que los residuos sean minimizados.

- Modelo de caminata aleatoria

α+= −1ˆ tt yy

El valor estimado es equivalente al valor previo más una diferencia aleatoria, y es aplicable a series de tiempo que no son estacionarias pero que sus primeras diferencias sí lo son.

- Modelo de caminata aleatoria geométrica

α+= − )log()log( 1tt yy

αeyy tt 1−=

)1(1 α+≈ −tt yy

Aplicable a series de tiempo que exhiben un crecimiento exponencial irregular, pero cuya transformación logarítmica de dicho crecimiento es más o menos lineal y puede ser aproximada por el modelo de caminata aleatoria.

14


- Modelos AR, MA, ARMA, ARIMA, ARFIMA así como modelos basados en

ellos (que pueden incluir algunas transformaciones específicas que ayudan a quitar tendencias estacionarias).

- Modelos de la familia ARCH (ARCH, GARCH, I-GARCH, GARCH-M, etc) que

son usados para modelar series de tiempo cuyas varianzas cambian en el tiempo (Gujarati, op. cit., p. 829).

- Modelos de valuación de activos de capital (CAPM), utilizan el rendimiento

para activos individuales o portafolios (Bodie y Merton, 2003).

- Modelos basados en Black y Scholes empleados para modelar precios de opciones tomando en consideración las propiedades específicas de ellas.

15

Capítulo 2: Redes neuronales

Capítulo 2

Redes neuronales

2.1 Generalidades Las Redes Neuronales Artificiales (RNA) forman parte de una tecnología de procesamiento de información que surge a raíz de los últimos desarrollos en software computacional aplicados al área de inteligencia artificial. Representan una herramienta muy innovadora para simular y analizar sistemas de relaciones complejas y cambiantes.

Las RNA son modelos matemáticos desarrollados con base en el funcionamiento de los sistemas nerviosos biológicos. De esta manera, se intenta contar con un sistema que imite el funcionamiento natural de las neuronas, es decir, que puedan “pensar” y “aprender” como el cerebro humano, el cual se puede ver como un conjunto interconectado de neuronas.

La primera interpretación matemática de las redes neuronales fue realizada en 1865 cuando Mach, un físico y filósofo austriaco, intentó explicar la interacción recíproca e inhibitoria de los elementos que rodean a la retina (Peel y Wilson, 1996). Los trabajos sobre el desarrollo de modelos matemáticos detallados comienzan desde hace más de cuarenta años, con los trabajos de McCulloch y Pitts (1943), Hebb (1949), Rosenblatt (1959), Widrow (1960) y Posch (1968), entre otros.

Sin embargo, cuando se pretende analizar un conjunto de datos con relaciones complejas y condiciones adicionales, la cantidad de procesamiento requerida se eleva considerablemente, lo cual ocasionó que los primeros intentos por utilizar este tipo de modelos fueran abandonados debido a la limitada capacidad de los sistemas de cómputo disponibles en la época.

Fue hasta los años 80 cuando se retoma el interés por su empleo de forma más generalizada. Esto debido a los avances en la potencia de cálculo de las nuevas computadoras, aunado a un mayor conocimiento del funcionamiento del propio cerebro humano. Así, los estudios realizados en este campo por Hopfield (1982, 1984, 1986), Rumelhart y McClelland (1986), Sejnowski y Rosemberg (1986), Feldman (1982), Grossberg (1986) y otros, permitieron el resurgimiento de esta nueva área del conocimiento.

Este nuevo interés se debió al desarrollo de algoritmos y nuevas topologías de red, nuevas técnicas de implementación de circuitos VLSI6 analógicos (Mead, 1986) y algunas demostraciones intrigantes por parte de Senowski (op. cit.) y

6 Very Large Scale Integration (escala de integración muy grande). Se refiere a una gran cantidad de circuitos eléctricos que puede ser colocados en un área muy pequeña.

16


Hopfield (op. cit.), así como por la creciente fascinación por el funcionamiento del cerebro humano. 2.2 Teoría y operación Para poder entender el funcionamiento de un sistema nervioso biológico es necesario conocer las partes que lo componen, así como la interacción que existe entre sus propios elementos y su relación con el exterior. Ramón y Cajal (1899) proporciona un buen estudio e introducción en este sentido. También Berumen (1998) en su tesis de maestría realiza una completa síntesis de las redes neuronales y algunas aplicaciones a las finanzas. Lo importante del presente trabajo es el de tratar de imitar el extraordinario funcionamiento de los sistemas nerviosos por medio de redes neuronales artificiales, y aprovechar las ventajas que ofrecen en la resolución de problemas prácticos, gracias a la capacidad innata que tienen los sistemas biológicos de aprender a partir de ejemplos. Algo que la propia naturaleza ha logrado a lo largo de millones de años para adaptarse al medio que lo rodea y, resolver problemas que involucran el tratamiento de información masiva, imprecisa y distorsionada proveniente del entorno natural.

Sin embargo, dada la complejidad de los sistemas neuronales biológicos, es

necesario hacer una abstracción de las funciones y elementos que los componen para poder emplear modelos capaces de ser implementados con la tecnología disponible. De esta manera, y considerando a las neuronas desde un punto de vista práctico, éstas pueden ser vistas como pequeños procesadores de información. Las cuales -haciendo una analogía con los sistemas informáticos tradicionales- poseen un canal de entrada de información, las dendritas, un órgano de cómputo, el soma, y un canal de salida, el axón7.

La conexión funcional entre dos neuronas para el transporte del impulso

nervioso se denomina sinapsis. En relación a la sinapsis, se mencionan dos tipos de neuronas, presinápticas (las que envían señales) y postsinápticas (las que reciben señales). La intensidad de una sinapsis no es fija, sino que puede cambiar, dependiendo de determinadas condiciones. Esta variabilidad en la intensidad de la sinapsis constituye en buena medida el aprendizaje propiamente dicho, tal y como lo postuló Hebb (op. cit.), encontrándose evidencias experimentales de ello en Nieto (1989), Alkon (1989) y, Kandel y Hawkins (1992).

Existen varias formas de modelar el sistema nervioso: por el establecimiento

de nuevas conexiones, ruptura de otras, modelado de las intensidades sinápticas (plasticidad) o incluso mediante muerte neuronal. En especial, la modificación de las intensidades sinápticas es el mecanismo más empleado por los sistemas neuronales artificiales para llevar a cabo el aprendizaje.

7 Se trata solamente de recoger parte del funcionamiento de la neurona, ya que se sabe que su funcionamiento completo es mucho más complejo.

17


Por medio de las redes neuronales artificiales se pretenden replicar tres características importantes de los sistemas nerviosos: el paralelismo de cálculo, la memoria distribuida y la adaptabilidad.

El paralelismo de cálculo está relacionado con la existencia de varios

elementos de cálculo capaces de procesar información de manera simultánea -o en paralelo-, permitiendo al sistema un manejo de información mucho más rápido que un sistema que ejecuta instrucciones de manera secuencial.

La memoria distribuida se refiere a la posición de las localidades de memoria

que ocupa la información –que a diferencia de las computadoras convencionales en las que ocupa posiciones de memoria bien definidas-, en las redes neuronales se encuentra definida de acuerdo a la sinapsis particular de la red.

Por último, la adaptabilidad se da por medio de la modificación de las

sinapsis existentes en la red y a su capacidad de “aprender” por medio de ejemplos o patrones –también llamada experiencia-, para poder realizar generalizaciones a partir de ejemplos específicos y explotar esa característica esencial y hasta distintiva del sistema nervioso humano. De acuerdo a lo anterior, se puede decir entonces que las redes neuronales son sistemas paralelos, distribuidos y adaptables.

En un sistema neuronal biológico, las neuronas son los elementos básicos.

Millones de neuronas se organizan en capas para formar sistemas con determinada funcionalidad, lo que en conjunto constituyen el sistema nervioso. En el caso de un sistema neuronal artificial se puede intentar copiar dicha estructura, en la cual, la neurona artificial se organiza en capas, varias capas forman una red y la red, con sus interfaces de entrada y salida constituyen un sistema neuronal completo. 2.3 Modelo General de una Neurona Artificial

De acuerdo con lo establecido por el grupo PDP8, el funcionamiento de una neurona o procesador elemental se puede modelar por medio de una función (Rumelhart y McClelland, op. cit.). Por lo que la operación de una neurona i se puede expresar de la siguiente forma:

( )))](,(),1([)( txwtafFty jijiiiii σ−=

Donde: xj(t) representa el conjunto de entradas, 8 Parallel Distributed Processing Research Group. Es un grupo de investigación en RNA, a quienes se atribuye en gran medida el renacimiento de las redes neuronales en la década de los 80. Su trabajo se publicó en dos volúmenes considerados clásicos (Rumelhart y McClelland, 1986).

18


wij son los pesos sinápticos de la neurona i, que representan la intensidad de la relación entre la neurona presináptica j y la neurona postsináptica i, σi[wij, xj(t)] es la regla de propagación que proporciona el valor del potencial postsináptico hi(t) = σ[wij, xj(t)] de la neurona i en función de sus pesos y entradas, fi[ai(t-1), hj(t)] es la función de activación que proporciona el estado de activación actual ai(t) = fi[ai(t-1), hj(t)] de la neurona i, en función de su estado anterior ai(t-1) y de su potencial postsináptico actual. Fi[ai(t)] es la función de salida que proporciona la salida actual yi(t) = Fi[ai(t)] de la neurona i en función de su estado de activación. Una representación gráfica de lo anterior se puede ver en la figura 2.1 (Rumelhart, 1986).

Regla de propagación

Función de activación

Función de salida

Salida yi

Entradas xj

ai = f(hi)

hi = σ(wij, xj) yi = F(ai)

Pesos sinápticos wij

Figura 2.1 Modelo de una neurona artificial.

De acuerdo a Nelson e Illingworth (1991), existe una infinidad de formas de organizar una red neuronal aunque, tal vez sólo una docena de modelos son de uso común. Una red neuronal se puede describir en términos de su neurodinámica y arquitectura.

La neurodinámica se refiere a las propiedades de una neurona artificial individual que consiste de lo siguiente:

- Combinación de entradas

19


- Producción de salidas - Tipo de funciones de transferencia (o activación) - Esquemas de pesos, v. gr. inicialización de pesos, y algoritmos de

entrenamiento.

Estas propiedades también pueden ser aplicadas a la red en su conjunto de un sistema básico.

La arquitectura de red o topología define la estructura de la red e incluye las siguientes características básicas:

- Tipos de interconexiones entre neuronas

- Número de neuronas

- Número de capas 2.4 Neurodinámica 2.4.1 Entradas Las variables de entrada y salida pueden ser tanto analógicas como digitales, dependiendo del modelo como de las aplicaciones. La capa de entrada de una red neuronal comúnmente funciona como un regulador de las entradas, transfiriendo datos a la siguiente capa. Se puede requerir realizar un preprocesamiento para que la red sólo maneje datos numéricos. Esto puede involucrar el escalamiento de los datos de entrada y convertir o codificar los datos de entrada a una forma numérica que pueda ser usada por la red. 2.4.2 Salidas La capa de salida de una red neuronal funciona de una forma similar a la capa de entrada excepto que transfiere la información de la red al exterior. Frecuentemente se utiliza un postprocesamiento para convertir la información a una forma comprensible y útil hacia fuera de la red. Dependiendo del tipo de salida, las neuronas reciben nombres específicos. Por ejemplo, las neuronas estándar cuya salida sólo puede tomar el valor de 1 ó 0 se conocen como tipo McCulloch-Pitts, mientras que las que toman a su salida los valores de -1 y +1 se llaman del tipo

20


Ising9, si puede adoptar diversos valores en la salida, v. gr. -2, -1, 0, 1, 2, se dice que se trata de una neurona tipo Potts (Müller,1990). 2.4.3 Regla de propagación La regla de propagación permite calcular el valor del potencial post-sináptico hi de la neurona a partir de las entradas y pesos correspondientes.

La función más común es la suma ponderada de las entradas y los pesos sinápticos.

∑=j

jiji xwth )(

Utilizando la notación de vectores, se puede representar como el producto

escalar del vector de entrada y el de pesos.

xw ⋅= Tii th )(

El peso sináptico wij se interpreta como la intensidad de la relación entre la

neurona presináptica j y la postsináptica i. Dependiendo de la entrada, si el peso es positivo y la entrada también positiva, se tenderá a excitar a la neurona postsináptica, pero si el peso es negativo se tenderá a inhibirla. Por lo que se habla entonces de sinapsis excitadoras (con peso positivo) o inhibidoras (con peso negativo).

Una regla de propagación no lineal es la siguiente:

∑=jpjj

jpjjjpjjii xxxwth...21

21...21 ...)(

que involucra la multiplicación de todas las entradas de la neurona, lo cual se acerca mucho a la funcionalidad de la neurona biológica, pero aumenta su complejidad tanto en su análisis como en el hardware necesario para implementarla. Este tipo de neurona se denomina de orden superior o neurona sigma-pi, debido al empleo de sumas y multiplicaciones (Rumelhart, op. cit.).

9 Ising, debido al paralelismo con el modelo de Ising que es un modelo físico propuesto para estudiar el comportamiento de materiales ferromagnéticos. En el modelo se emplea el espín σi o espín de la partícula i-ésima, que puede tomar sólo dos valores, +1 y -1.

21

http://es.wikipedia.org/wiki/Modelo

http://es.wikipedia.org/wiki/Ferromagnetismo


Otra regla de propagación empleada comúnmente en los modelos que emplean el cálculo de distancias entre vectores (como RBF, mapas de Kohonen o LVQ), es la distancia euclídea:

∑ −=j

ijji wxth 22 )()(

la cual determina la distancia entre el vector de entradas y el de pesos. Cuando los vectores de entrada y de pesos son similares, la distancia es muy pequeña, y cuando son diferentes la distancia se incrementa. 2.4.4 Función de activación o función de transferencia Esta función determina el estado de activación actual ai(t) a partir del potencial postsináptico hi(t) y del estado de activación anterior ai(t-1)

))(),1(()( thtafta iiii −=

Aunque en muchos modelos sólo se considera su estado actual, la función se expresa como sigue:

))(()( thfta iii =

Existen varias funciones de activación, algunas de las cuales se muestran en

la figura 2.2 La variable x representa el potencial postsináptico, mientras que la variable y = f(x) representa el estado de activación. La función identidad, la función escalón y la función lineal por intervalos son las más sencillas. Aunque dependiendo del algoritmo de aprendizaje, algunas veces se requiere que la función de activación sea derivable, las más empleadas en este caso son las funciones del tipo sigmoideo.

22


Figura 2.2 Funciones de activación comunes.

La función gaussiana también es ampliamente utilizada junto con reglas de propagación que involucran el cálculo del cuadrado de las distancias entre los vectores de entrada y pesos, como se mencionó anteriormente. Las funciones sinusoidales también se emplean en los casos en los que es necesario expresar una periodicidad temporal. 2.4.5 Función de salida La función de salida determina la salida total de la neurona yi(t) en función de su estado de activación actual ai(t). Frecuentemente se usa la función identidad y = x, de tal forma que el estado de activación de la neurona se considera como la propia salida:

( ) )()()( tataFty iiii ==

23


La función de salida también puede ser un escalón, para que la neurona dispare la salida hasta que se alcance cierto nivel de umbral. 2.5 Modelo estándar de una neurona artificial El modelo anterior es muy general, por lo que de manera práctica se emplea un modelo estándar más sencillo.

Además, en algunas ocasiones se agrega al conjunto de pesos de la neurona un parámetro adicional θi en las unidades de i, llamado umbral10 quedando el argumento de la función de la siguiente manera:

∑ −j

ijij xw θ

Lo anterior implica agregar un grado de libertad a la neurona. Para el caso de

las neuronas todo-nada mencionadas más adelante, el parámetro θ representará el nivel mínimo o umbral que debe alcanzar el potencial postsináptico para que la neurona se active.

De esta forma, el modelo de la neurona queda:

⎟⎟⎠

⎞⎜⎜⎝

⎛−= ∑

jijijii xwfty θ)(

Para expresar el modelo de una forma más compacta, los índices i y j se

hacen que comiencen en cero, definiendo wi0 ≡ θi y x0 ≡ -1.

Finalmente, el modelo se puede expresar de la siguiente manera:

⎟⎟⎠

⎞⎜⎜⎝

⎛−= ∑

jijijii xwfty θ)(

donde: xj(t) es el conjunto de entradas, wij son los pesos sinápticos,

∑= jiji xwth )( es la regla de propagación y

10 También es conocido como sesgo y se le asigna un valor numérico de uno.

24


( )()( thfty iii = ) es la función de activación que representa tanto la salida de la neurona como su estado de activación.

Con el modelo de la neurona establecido solo es necesario especificar la forma de la función de activación para caracterizarla por completo. A continuación se muestran algunos de los modelos de neuronas más comunes. 2.5.1 Neuronas todo-nada Tomando como referencia al modelo de la neurona estándar, considerando que las entradas son discretas, por ejemplo xi = {0, 1}, y que la función de activación es el escalón H(x), definido entre 0 y 1, se tiene:

⎟⎟⎠

⎞⎜⎜⎝

⎛−= ∑

jijiji xwHty θ)(

y como la función H(x) = 1 cuando x ≥ 0, y H(x) = 0 cuando x < 0, se tiene lo siguiente:

⎩⎨⎧

<≥

=∑∑

si ,0 si ,1

ijij

ijiji xw

xwy

θθ

Por lo que, cuando el potencial de entrada supera el umbral θi la neurona se

activa, de lo contrario permanece inactiva. Debido a lo anterior este modelo se conoce también como dispositivo de umbral dada su forma de activación. 2.5.2 Neurona continua sigmoidea Si el modelo de neurona estándar puede tener entradas tanto discretas como continuas pero la salida solamente continua, se puede emplear como función de activación a la función sigmoidea, que es una función continua y diferenciable en determinado intervalo. Las dos funciones más comunes son las siguientes:

[0,1] ycon ,1

1∈

+= −xe

y

[-1,1] ycon ),( ∈=+−

= −

−

xtgheeeey xx

xx

El motivo de emplear funciones diferenciables es que algunas reglas de

aprendizaje así lo requieren, tal como sucede con la retropropagación ó BP11.

11 Back-propagation por sus siglas en inglés.

25


2.6 Arquitecturas de redes neuronales La arquitectura es la topología, estructura o patrón de conexión de una red neuronal. En una RNA los nodos se conectan por medio de sinapsis, por lo que la configuración de estas sinapsis determina el comportamiento de la red. Las conexiones sinápticas son direccionales, por lo que la información sólo puede viajar en un solo sentido, de la neurona presináptica a la neurona postsináptica. Ver figura 2.3.

Neurona presináptica (j)

Neurona postsináptica (i)

xj

wij

yj

yi

(j)

(i)

Figura 2.3 Interacción entre una neurona presináptica y otra postsináptica.

Las neuronas se pueden agrupar en capas, las capas a su vez pueden agruparse en grupos neuronales o clusters. El conjunto de una o más capas se denomina red neuronal.

Existen tres tipos de capas: de entrada, salida y ocultas. La capa de entrada está compuesta por neuronas que reciben información proveniente del entorno. La capa de salida es la que proporciona la respuesta de la red neuronal. La capa oculta es la que no tiene relación alguna con el exterior. Este tipo de capa agrega a la red, grados de libertad adicionales, con los cuales es posible representar diversas configuraciones y mejorar la capacidad de cálculo.

Las conexiones entre las neuronas pueden permitir su excitación o inhibirla de acuerdo al peso sináptico, por lo que se define como una conexión inhibitoria a aquella que tiene un peso sináptico negativo y a una conexión excitatoria aquella con un peso sináptico positivo. Generalmente no se establece una conexión determinada desde el inicio, sino que es a través del aprendizaje que se obtiene el valor correspondiente a su signo y magnitud.

26


Se pueden identificar dos tipos de conexiones: intra-capa e inter-capa. Las conexiones intra-capa o laterales son conexiones entre neuronas pertenecientes a una misma capa, mientras que las conexiones inter-capa tienen lugar entre neuronas de diferentes capas. Existen también conexiones realimentadas, e incluso con realimentación de una neurona consigo misma.

También, dependiendo del flujo de datos dentro de la red, se pueden identificar dos tipos: redes unidireccionales (o feedforward) y redes recurrentes (o feedback). En las redes unidireccionales, la información fluye en un único sentido, de las neuronas de entrada a las de salida. En las redes recurrentes o realimentadas la información puede circular en cualquier sentido entre las capas.

De acuerdo a Chatterjee (2000) la RNA puede tener varias formas, debido a que las neuronas están conectadas de formas diferentes y a que algunos de los elementos de proceso pueden realizar los cálculos de manera simultánea. La habilidad de una RNA de ejecutar los procesos paralelos o serie, proviene de las características del modelo de red. A continuación se describe la forma simple de una RNA llamada red de dos capas seguida por formas más complejas de RNA llamadas redes multicapa12.

2.6.1 Redes Neuronales de dos capas La teoría de redes neuronales, de acuerdo con algunos estudios como los de Tam y Kiang (1992), Altman, Marco y Varetto (1994), Medsker, Trippi y Turban (1996), están basadas en la forma “conexionista”. Los modelos conexionistas13 contienen un gran número de capas simples de unidades de proceso. En la red, cada unidad se interconecta con otras unidades del sistema y cada unidad realiza un conjunto de cálculos predeterminados. El comportamiento colectivo de las unidades individuales y no del comportamiento individual aislado de las mismas genera el resultado de la red de procesamiento. Las relaciones entre las unidades se determinan y se modifican si se considera necesario, a través de un proceso de aprendizaje de la interacción entre la red y el mundo externo.

La estructura más simple de un sistema de red es a través de una red

neuronal de dos capas. Bajo un sistema de dos capas, las entradas se relacionan con las salidas sin ninguna capa oculta. Por lo tanto, la red se determina sólo a través de las funciones de entrada y de salida. Bajo estas consideraciones, la función de entrada se expresa como:

ijij

n

ji SXnH ω∑

=

=1

12 También llamadas Layered Networks 13 Conocidos también como modelos de red.

27


donde: Hi representa el potencial de todas las entradas de la i-ésima neurona. Xj es la entrada externa recibida en la i-ésima neurona para cada ωj, ωij representa la intensidad de la entrada externa (o peso) de Xj, Si representa el umbral de respuesta de cada neurona a cada estímulo de las entradas externas, y n representa el número de neuronas en la red.

Si el umbral se elimina por alguna variable de entrada auxiliar o dummy (q)

donde (Xq = 1) y (ωiq = Si), entonces la expresión general de la función de entrada se representa por:

j

n

jjiji XqXnH ∈∃= ∑

=1 ;ω

En esta expresión, la función de entrada se asume que está separada de la

función de salida. Por otra parte, si existe una retroalimentación continua y diferenciable entre las funciones de entrada y salida, la función de entrada modificada se expresa como:

∑=

+=n

jijiji OI

1ψω

En este caso, Ii representa la función de entrada, ωij representa el peso de la

conexión entre las neuronas i y j, mientras que ψi representa el sesgo o error de la neurona i. La función de salida representa la respuesta de la neurona al potencial de entrada. La expresión más común de la función de salida se representa por la función sigmoidea donde la función de salida sigue una distribución logística. La función se representa de la siguiente manera:

iIi eO

+=

11

Aquí Oi representa la correspondiente función de salida. Las redes de dos

capas han probado ser útiles en una gran variedad de aplicaciones cuando se conocen los patrones específicos de los sistemas. En la figura 2.4 se puede apreciar la representación de una red neuronal de dos capas (Chatterjee, op. cit.).

28


Figura 2.4 Red neuronal de dos capas. 2.6.2 Redes Neuronales multicapa La desventaja de un sistema de dos capas es su incapacidad de desarrollar relaciones internas. Lo anterior es especialmente útil cuando los patrones no se conocen de antemano. Una red neuronal multicapa con capas ocultas tiene la habilidad de desarrollar representaciones internas y modificaciones en el sistema. Salchenberger, Cinar y Lash (1992) y, Tam y Kiang (op. cit.) observaron que una red multicapa tiene la habilidad de permitir a la red hacer generalizaciones razonables. Los nodos de la capa intermedia se caracterizan generalmente como detectores de características, lo cual combina observaciones de los renglones en características de alto orden. La forma más común de una red multicapa es conocida como unidireccional.

En este tipo de red, se involucran tres tipos de unidades de procesamiento o

funciones, llamadas funciones de entrada, funciones de salida y funciones ocultas. Las unidades de entrada están en la capa más baja de la red y reciben señales del medio ambiente, mientras que las unidades de salida mandan señales al medio ambiente y residen en la capa más alta. Las unidades ocultas, por otra parte, no interactúan directamente con el medio. La conectividad de una red unidireccional está determinada por el vector:

1 2ˆ[ ( , ,... ),1 ,1 ]j

ij i i i inW i kω ω ω ω= = ≤ ≤ ≤ ≤j n asociado con las conexiones correspondientes. Una red unidireccional con los pesos apropiados puede ser usada para modelar la relación causal entre el conjunto de variables. Se puede cambiar el modelo a través de aprendizaje o algoritmo de aprendizaje modificando el peso asociado con cada conexión.

Los pesos apropiados se asignan para una tarea específica permitiendo que la red aprenda su tarea a través de un entrenamiento por medio de ejemplos. En

29


consecuencia, el algoritmo de aprendizaje busca a través de todos los pesos para encontrar un conjunto de pesos que proporcionen el mejor ajuste. Rumelhart, Hinton y Willians (1986), Dutta y Shekbar (1998) y, Tam y Kiang (op. cit.) proponen al algoritmo de aprendizaje de retropropagación como un predictor preciso de los modelos financieros basados en redes neuronales.

Una representación de una red neuronal multicapa se muestra en la figura 2.5 (Chatterjee, A. et al. op. cit.).

Figura 2.5. Red neuronal multicapa.

La única diferencia entre las RNA y los modelos de regresión es la manera en que se establecen los valores para los pesos. Las RNA emplean una forma de programación dinámica para ajustar de manera iterativa los pesos hasta que el error se minimiza, mientras que los modelos de regresión calculan los pesos usando alguna técnica matemática que minimiza el error cuadrático.

En una RNA sin capas ocultas o unidad de cálculo simple se pueden separar los datos que caen en los lados opuestos de un hiperplano14 (ver el panel izquierdo de la figura 2.6). Comparado con un modelo lineal, el hiperplano generado por el modelo RNA será no lineal, de hecho tiene una gran sección lineal pero se curva en los extremos. En este ejemplo, los modelos lineales y no lineales producirían resultados con precisiones similares, cada uno clasificaría mal 4 de los 49 puntos.

Si se agrega una capa oculta sencilla, entonces cada nodo en la capa oculta formará un hiperplano. Los nodos en la capa de salida de esta red con capa oculta

14 Hiperplano es una generalización del concepto de plano. En un espacio de una única dimensión (como una recta), un hiperplano es un punto; divide una línea en dos líneas. En un espacio bidimensional (como el plano xy), un hiperplano es una recta; divide el plano en dos mitades. En un espacio tridimensional, un hiperplano es un plano corriente; divide el espacio en dos mitades. Este concepto también puede ser aplicado a espacios de cuatro dimensiones y más, donde estos objetos divisores se llaman simplemente hiperplanos.

30


sencilla combina los hiperplanos para crear regiones convexas abiertas o cerradas. En el panel central de la figura 2.6 se muestra un modelo de RNA con dos nodos en una capa oculta sencilla. En este ejemplo, un nodo sencillo en la capa de salida selecciona cuál de los hiperplanos aplicar. La precisión en la clasificación de este modelo con capa oculta incrementó a 48 de los 49 puntos.

Si se usan dos capas ocultas, entonces la segunda capa oculta combina los hiperplanos de la primera capa oculta en regiones convexas, y los nodos en la capa de salida combinan las regiones convexas para formar regiones cóncavas.

El modelo RNA mostrado a la derecha de la figura 2.6 tendría seis nodos en la primera capa oculta y cuatro nodos en la segunda. En consecuencia, el nodo sencillo en la capa de salida seleccionará una de las cuatro regiones convexas. En este caso ya se es capaz de obtener una precisión del 100% con el modelo RNA propuesto (Coakley y Brown, 2000).

Figura 2.6. Ejemplo para demostrar las ventajas de las capas ocultas.

Las investigaciones han mostrado que con dos capas ocultas se puede aproximar un conjunto particular de funciones con una determinada precisión (Cybenko, 1988, 1989). También se ha mostrado que es posible usar una capa oculta única para aproximar una función continua y lograr el nivel deseado de precisión (Hectch-Nielsen, 1990). Como un modelo con una sola capa oculta es menos complejo, la mayoría de los investigadores ha preferido trabajar con una sola capa oculta. Hasta ahora no han existido referencias en la literatura en donde se empleen más de dos capas ocultas. Las redes que contienen conexiones de retroalimentación se llaman recurrentes. Las redes recurrentes recirculan las salidas hacia las entradas. La característica de recurrencia de una RNA considera de manera inherente el movimiento de un factor promedio en una serie de tiempo y supera a las redes de multicapa. Sin embargo, en la mayoría de las aplicaciones de las RNA en contabilidad y finanzas sólo se han empleado arquitecturas multicapa y unidireccionales.

31


2.6.3 Una definición formal de red neuronal Por medio del empleo del concepto de matemático de grafo15 se puede describir la arquitectura del sistema y proporcionar la forma para representar su dinámica. Existen diferentes tipos de grafos, como los grafos dirigidos (directed) y no dirigidos (undirected). En el primer caso, las conexiones sólo se realizan en un sentido, mientras que en el segundo son bidireccionales. También es posible clasificarlos en grafos densos, si todos o casi todos los nodos están conectados y en grafos dispersos, cuando hay pocas conexiones entre los nodos. Un grafo puede componerse de diferentes tipos de nodos y diferentes tipos de conexiones.

Gráficamente los nodos se pueden representar con círculos y las conexiones con líneas o flechas, dependiendo si son en un solo sentido o bidireccionales. Otra forma de representación es por medio de una matriz de conexiones. En el caso de que el grafo sea no dirigido, la matriz de conexiones será simétrica. Una forma adicional de representación es por medio de una lista de conexiones en donde se indica la manera en que los nodos se conectan entre sí.

También existe la posibilidad de definir matemáticamente un grafo, tal y como se muestra a continuación (Müller, op. cit.):

Una red neuronal es un grafo dirigido, con las siguientes propiedades:

1. A cada nodo i se asocia una variable de estado xi, 2. A cada conexión (i, j) de los nodos i y j se asocia un peso wij ∈ ℜ .

3. A cada nodo i se asocia un umbral θi.

4. Para cada nodo i se define una función fi(xj, wij, θi), que depende de los pesos

de sus conexiones, del umbral y de los estados de los nodos j a él conectados. Esta función proporciona el nuevo estado del nodo.

Generalmente se dice que los nodos son las neuronas y las conexiones las

sinapsis, por lo que es posible distinguir diferentes tipos de neuronas:

- Una neurona de entrada es una neurona que no tiene sinapsis de entrada.

- Una neurona de salida es una neurona sin sinapsis de salida.

- Una neurona oculta es una neurona que no es ni de entrada ni de salida.

- Una red es unidireccional cuando no tiene bucles cerrados de conexiones.

15 Objeto consistente en un conjunto de nodos o vértices, más un conjunto de conexiones establecidas entre ellos.

32


- Una red es recurrente cuando existe realimentación en la información.

2.6.4 Actualización del estado de las neuronas Existen dos formas o dinámicas en las que las neuronas de cierta red actualizan sus estados: síncrona y asíncrona. En los modelos con dinámica síncrona, los estados se actualizan en función de un reloj común. Generalmente el proceso se realiza por capas, por lo que las neuronas de una misma capa se actualizan al mismo tiempo, empezando con la capa de entrada y propagándose hasta la salida. Este tipo de actualización es la más empleada. Los modelos con dinámica asíncrona no tienen un reloj común, de tal manera que cada neurona se actualiza de manera independiente. En general, una dinámica asíncrona involucra a neuronas de respuesta continua. Ésta es la dinámica que presentan los sistemas biológicos.

Si los dos tipos de dinámicas se aplican a una misma red y con un mismo patrón de entrada pueden arrojar resultados diferentes. Un claro ejemplo es el modelo de Hopfield discreto, sobre el cual pueden implementarse ambas dinámicas (Bruck, 1990). En el caso de la dinámica asíncrona16, si la matriz de pesos de la red es simétrica, la red converge a un estado estable. Sin embargo, si a esa misma red se aplica una dinámica síncrona17, la red puede o no converger a un estado estable.

También es posible introducir una dinámica no determinista o estocástica para forzar a que la salida posea un carácter probabilístico. Por ejemplo, si consideramos neuronas de activación sigmoidea, la salida de la neurona i será:

)(11)]([)1( thii ie

thfty−+

==+

que pertenece al rango [0, +1]; esta neurona es determinista. Pero si consideramos neuronas de salida discreta {0, +1}, podemos interpretar el valor proporcionado como la probabilidad de que su salida sea +1, es decir,

)(11]1)1([ thi ie

typ −+=+=+

de esta manera, se ha incluido una dinámica estocástica en la operación de la red.

La estructura de neurona probabilística y de salida discreta son empleados en modelos neuronales como el denominado máquina de Boltzmann (Hinton y Sejnowski, 1986)

16 También llamada dinámica de Glauber. 17 También llamada dinámica de Little.

33


2.7 Modos de operación de una red neuronal Existen principalmente dos modos de operación en las redes neuronales: el modo de aprendizaje o entrenamiento y el modo de recuerdo o ejecución. 2.7.1 Modo de aprendizaje El aprendizaje o entrenamiento es un proceso por medio del cual se produce un ajuste de los parámetros de la red como consecuencia de un proceso de estimulación. La forma en que se ajustan los parámetros determina el tipo de aprendizaje de la red. Generalmente, el aprendizaje consiste en determinar el valor de los pesos sinápticos para que la red pueda funcionar de manera tal que arroje resultados con base en la información almacenada en su propia estructura.

El entrenamiento se puede llevar a cabo por medio de dos etapas. Generalmente, en la primera etapa se modifican los pesos sinápticos por medio de la optimización de una función de error que mide la eficiencia de la red neuronal.

De esta manera, si llamamos wij(t) al peso que conecta a la neurona presináptica j con la postsináptica i en la iteración t, el valor Δwij(t) que representa la modificación en dicho peso se expresa de la siguiente forma:

)()()1( twtwtw ijijij Δ+=+Δ

El proceso de aprendizaje es iterativo, actualizándose los pesos hasta que la red alcanza el rendimiento deseado.

Otros modelos incluyen una etapa extra en el aprendizaje, la creación o destrucción de neuronas, en la cual se modifica la propia estructura de la red.

El entrenamiento de la red involucra la propagación del error para ajustar el conjunto de pesos para minimizar la función de error. El factor de momento en el algoritmo actúa como un promedio móvil de los ajustes de los pesos. Así, si el error de cada entrada se propaga antes de que el próximo registro se procese, la red capturará la información temporal entre los conjuntos de registros individuales. Si se usa la RNA para clasificación, entonces todos los registros de entrada deben ser procesados antes de que el error se propague. El algoritmo de retropropagación garantiza que el error total en el conjunto de entrenamiento continuará decreciendo conforme el número de iteraciones se incremente. Con cada iteración los pesos se modifican para disminuir el error en los patrones de entrenamiento. Conforme avanza el entrenamiento, la cantidad de cambio en la función de error se hace cada vez más pequeño. La convergencia

34


ocurre cuando el cambio en el valor de la función de error es menor que un umbral especificado. Sin embargo, el entrenamiento con muchas iteraciones sobre el mismo conjunto de datos puede resultar en el fenómeno de sobreentrenamiento. El sobreentrenamiento ocurre cuando una RNA intenta ajustar exactamente el limitado conjunto de puntos perdiendo su habilidad de interpolar entre estos puntos (Hetch-Nielsen, op. cit.). El problema de sobreentrenamiento se muestra en la figura 2.7, donde se desarrolló una RNA para predicción de series de tiempo (Coakley, op. cit.). Los primeros 48 periodos fueron usados para entrenar la red y los últimos 12 para predicción. Después de 10 iteraciones, la RNA mostró el promedio de los datos (línea punteada gruesa). La mejor predicción ocurrió a las 300 iteraciones. Note que la línea de mejor ajuste no coincide exactamente con los datos tanto en el periodo de entrenamiento como en el de predicción. Después de 3000 iteraciones, la RNA casi ajusta los puntos de los datos en el periodo de entrenamiento, sin embargo, en el periodo de predicción es muy pobre.

Figura 2.7. Efecto del sobreentrenamiento. Comparación entre los valores objetivo y los valores de

salida.

Existen dos tipos básicos de aprendizaje que son el supervisado y el no supervisado. En el aprendizaje supervisado se proporciona información sobre las funciones de entada y salida, mientras que en el no supervisado no se proporciona

35


información alguna. Las reglas de aprendizaje supervisadas suelen ser más complejas pero también más exactas en sus resultados.

Además de los dos tipos de aprendizaje mencionados, existen otros tipos, sin embargo, sólo se mencionarán adicionalmente aquí el aprendizaje híbrido y el reforzado. 2.7.1.1 Aprendizaje Supervisado En el aprendizaje supervisado se presenta a la red un conjunto de patrones, junto con la salida deseada u objetivo y, de manera iterativa se ajustan los pesos sinápticos hasta que se obtiene la salida deseada. Así, la red es capaz de estimar relaciones de entrada y salida a partir de la información almacenada en su arquitectura.

De manera más formal, se puede definir una función E[W] que representa el error esperado de la operación de la red, expresado en función de sus pesos sinápticos W. En el aprendizaje supervisado se pretende estimar una cierta función multivariable desconocida (la que representa la red neuronal) a partir de muestras (x,y) tomadas aleatoriamente, por medio de la minimización iterativa de E[W] mediante aproximación estocástica

mn ℜ→ℜ:f),( mn ℜ∈ℜ∈ yx

18. 2.7.1.2 Aprendizaje no supervisado En el aprendizaje no supervisado o autoorganizado se presentan a la red varios patrones sin proporcionar la respuesta deseada. La red, por medio de la regla de aprendizaje, estima las regularidades en el conjunto de entradas, extrae rasgos característicos o agrupa patrones según su similitud. El ejemplo clásico del modelo que emplea este tipo de aprendizaje son los mapas autoorganizados19 (Kohonen, 1982).

De manera formal, en el aprendizaje no supervisado se pretende estimar la función de densidad de probabilidad p(x), la cual describe la distribución de los patrones x pertenecientes al espacio de entrada a partir de muestras o ejemplos.

nℜ

18 Las técnicas de aproximación estocástica estiman valores esperados a partir de cantidades aleatorias observadas. Usualmente se implementan en forma de algoritmo discreto del tipo descenso por el gradiente (estocástico). (Kohonen , 1989). 19 Los mapas autoorganizados tratan de reproducir la representación de la información en la corteza cerebral.

36


2.7.1.3 Aprendizaje híbrido En este tipo de aprendizaje coexisten en la red los dos tipos de aprendizaje básicos mencionados anteriormente, el supervisado y el no supervisado. Los cuales actúan en distintas capas de la red neuronal. El modelo de contrapropagación (Hetch-Nielsen, op. cit.) y las RBF20 son ejemplos de redes que hacen uso de este tipo de aprendizaje. 2.7.1.4 Aprendizaje reforzado El aprendizaje por medio de este método combina parte de las características de los dos tipos de aprendizaje básicos. Por una parte, utiliza la información sobre el error cometido pero a diferencia del aprendizaje supervisado no existe una única señal de error, que represente el rendimiento global de la red, sino que sólo se le indica que tan bien o mal se están obteniendo los resultados sin dar más detalles. En ocasiones se denomina aprendizaje por premio o castigo.

Muchos de los algoritmos de aprendizaje se basan en métodos numéricos iterativos que tratan de minimizar una función de error, lo que puede ocasionar problemas en la convergencia del algoritmo. Como la convergencia no es general para todos los algoritmos, se tiene que abordar para cada caso en particular. La convergencia es una forma de verificar que determinada configuración, junto con la regla de aprendizaje puede resolver un problema dado, pues el grado de error durante el proceso de aprendizaje describe la precisión de ajuste del mapping21.

Durante el proceso de entrenamiento es importante conocer no solamente el error mínimo obtenido durante la fase de aprendizaje sino también el error que se alcanza para valores no utilizados durante el aprendizaje, lo cual mide la capacidad de generalización de la red. Dicha capacidad de generalización indica si la red ha capturado correctamente el mapping subyacente de los datos. 2.7.2 Algoritmo de retropropagación El algoritmo de retropropagación de errores ó BP proporciona la solución al problema de entrenar los nodos de las capas ocultas de una red con arquitectura multicapa (Rumelhart, op. cit., Hecht-Nielsen, op. cit.). Es el algoritmo más popular y más ampliamente utilizado por los investigadores en redes neuronales artificiales. Su popularidad se debe a su simplicidad en el diseño e implementación. Este algoritmo tiene la habilidad de entrenar una red de múltiples capas por medio del reconocimiento de las irregularidades y excepciones en la muestra de

20 RBF son funciones de base radial. 21 En la mayoría de las áreas de matemáticas, los términos map, mapping y transformación son frecuentemente sinónimos de función.

37


entrenamiento. El algoritmo consiste de dos fases, llamadas: 1) paso hacia delante, y 2) paso hacia atrás.

Bajo el algoritmo de aprendizaje, se proponen k ejemplos de la población

para entrenar a la red. Cada ejemplo propuesto de la población puede ser definido exactamente por un vector de entrada 1 2[ ( , ,... ),1 ,1 ]l

i i imX x x x i k l m= ≤ ≤ ≤ ≤ y por un vector de salida actual o deseado 1 2[ ( , ,... ),1 ,1 ]l

i i inZ z z z i k l n= ≤ ≤ ≤ ≤ . En este caso, m representa el número de entradas que explican el k-ésimo ejemplo.

Bajo la propagación hacia delante (paso 1), el vector de entrada alimenta la

capa de entrada para producir un vector de salida llamado . Las funciones de salida estimada y actual se

comparan para calcular el error cuadrático para cada unidad de salida en el sistema, por ejemplo, .

1 2[ ( , ,... ), ,1 ,1 ]li i in ijY y y y i k l nω= ∀ ≤ ≤ ≤ ≤

21[ ( ) , ,1 ,1 ]l

i i ij ije y z i k l nω= − ∀ ≤ ≤ ≤ ≤ Sumando las diferencias de las salidas individuales, se genera una función E

de error, descrita de la siguiente manera:

( )22

1 1 1 1

12

k n k n

ij ij iji j i j

E e y z= = = =

= = −∑∑ ∑∑

El objetivo es entonces minimizar la función de error E, cambiando

apropiadamente y a través de ejemplos los pesos, de manera que todos los vectores de entrada estén correctamente mapeados con su correspondiente vector de salida. Por lo tanto, la función objetivo se define como:

{ } , ,j l ji i iMininizar E W X Y∈ ∀

En el paso 2 (propagación hacia atrás), la dirección y magnitud del cambio de

los pesos se calcula para localizar la solución óptima. En otras palabras, el error cuadrático total del paso 1 se calcula y se propaga hacia atrás, capa por capa, de las unidades de salida a las unidades de entrada para lograr la convergencia de la función de error E. La dirección y magnitud del cambio en los pesos se calcula como:

,0 1ijij

Eω ε εω∂

Δ = <∂

<

Donde, ε representa la convergencia del algoritmo bajo iteraciones sucesivas

(capas). El término ε es la tasa de aprendizaje que determina el tamaño del paso que es utilizado para moverse hacia el mínimo de E. Valores de ε demasiado grandes conducen a oscilaciones alrededor del mínimo, mientras que valores demasiado pequeños pueden conducir a una lenta convergencia de la red.

38


Los ajustes en los pesos se determinan por la forma en que ocurre la propagación en cada nivel. Para todas las funciones continuas y diferenciables Ii, Oi

y E, el valor del cambio en los pesos ij

Eω

⎡ ⎤∂⎢ ⎥∂⎢ ⎥⎣ ⎦

en cada nivel se calcula como:

i iij

ij i i ij

O IE EO I

ωω ω

⎛ ⎞⎛ ⎞⎛ ⎞∂ ∂∂ ∂Δ = = ⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟∂ ∂ ∂ ∂⎝ ⎠⎝ ⎠⎝ ⎠

En este proceso, el peso del vector W, se actualiza para cada par entrada-

salida [Xi, Zi] para cada ejemplo, o se acumula el cambio de los pesos [ωij] para todos los ejemplos y se actualizan al final de cada iteración. Estos dos pasos se ejecutan en iteraciones sucesivas del algoritmo de propagación hacia atrás hasta que la función de error E, converge al nivel deseado, produciendo en consecuencia la solución óptima. 2.7.3 Fase de recuerdo o ejecución. Una vez que el sistema ha sido entrenado, por lo general el sistema se desconecta, por lo que los pesos y la estructura permanecen fijos y listos para procesar datos. Este modo de operación se conoce como fase de recuerdo o ejecución.

Existen varios teoremas que establecen las condiciones de estabilidad para varias configuraciones de redes neuronales bajo ciertas condiciones. Para demostrar la estabilidad de un sistema, estos teoremas se basan en el método Lyapunov (Simpson, 1989), como alternativa al método directo pero más complejo de integrar el sistema de ecuaciones diferenciales que lo describen.

El método Lyapunov establece que si en un sistema dinámico de variables de entrada (x1, x2…, xn) descrito por el siguiente sistema de ecuaciones diferenciales:

),...,,,( 21 ni

i xxxtFdtdxx =≡

•

se cumplen las condiciones:

- el sistema está en reposo exclusivamente en el origen

- existen las derivadas de las ecuaciones que lo describen en todo el dominio

- las variables están acotadas

39


- y se puede encontrar una función Lyapunov22 V de las variables xi, , tal que: ℜ→ℜnV :

i

n

i i

xxVV &∀≤∂∂

= ∑=

•

,01

entonces el sistema converge para todas las posibles entradas (x1, x2,…, xn), y es globalmente estable.

Esta función es muy importante porque permite estudiar la estabilidad de un sistema dinámico. También Cohen, Grossberg y Kosko han aplicado esta técnica en sus teoremas para demostrar la estabilidad de una amplia clase de redes neuronales realimentadas, autoasociativas y heteroasociativas (Martín del Brío, 2002). 2.8 Clasificación de los modelos neuronales Dependiendo del modelo de neurona empleado, de la arquitectura y del algoritmo de aprendizaje, se tendrá el modelo concreto de red neuronal.

Sin embargo, las dos características que sobresalen más son el tipo de aprendizaje y la topología de la red, por lo que son estos dos conceptos en los que se basa la siguiente clasificación, la cual fue originalmente propuesta por (Simpson, op. cit.).

Así, en cuanto al tipo de aprendizaje se clasifican en supervisados, no supervisados, híbridos y de aprendizaje reforzado. Por otra parte, de acuerdo a la topología de la red, se identifican dos grandes grupos de redes, realimentadas y unidireccionales (o no realimentadas). Dicha clasificación se muestra en la figura 2.8.

22 La función de Lyapunov se denomina frecuentemente función de energía de Lyapunov pues constituye una gneralizacion del concepto físico de energía.

40


MODELOS DE REDES NEURONALES ARTIFICIALES

Híbridos

RBFContrapropagación

Supervisados No supervisados Reforzados

UnidireccionalesRealimentadosRealimentados Unidireccionales

BSBFuzzy Cog. Map.BP Through time

PerceptrónAdalina/MadalinaPerceptrón multicapaBackpropagationTime-Delay NNCMACCorrelación en cascadaMáquina de BoltzmannLVQGRNNSupport Vector Machines

ARTHopfieldBAM

LAM y OLAMMapas de KohonenNeocognitrónRedes PCA

Premio-castigo asociativoCrítico adaptativo

Figura 2.8. Clasificación de los modelos de RNA por el tipo de aprendizaje y arquitectura.

Se puede observar que el grupo más numeroso de redes neuronales incluye a las redes supervisadas y no realimentadas como lo es el caso del perceptrón simple, la adalina y el perceptrón multicapa o MLP (Multilayer Perceptron). Dichos modelos son importantes por varias razones como son su generalidad, aspecto histórico y empleo cotidiano en aplicaciones prácticas. 2.9 Desarrollo de un modelo RNA Una vez que ya se tomó la decisión de usar un modelo RNA, surgen nuevas preguntas como la selección del algoritmo de aprendizaje, escoger el error y funciones de transferencia, especificación de la arquitectura, preparación de los datos para la arquitectura y el entrenamiento de la red (Coakley, op. cit.). 2.9.1 Selección del algoritmo de aprendizaje Las RNA filtran las entradas de manera efectiva para producir salidas. Más específicamente, una RNA busca patrones en un conjunto de ejemplos aplicados en la capa de entrada de la red y, aprende de esos ejemplos para producir nuevos patrones (la salida). El conocimiento dentro de las RNA se mantiene en los pesos. El proceso de aprendizaje se implementa cambiando los pesos hasta que se obtiene la respuesta deseada en los nodos de salida. En una RNA con funciones de transferencia lineales, los pesos se pueden obtener empleando manipulación de matrices. En una RNA con funciones de transferencia no lineales, se pueden usar dos mecanismos de aprendizaje para encontrar los pesos: aprendizaje supervisado y no supervisado.

41


2.9.2 Selección de las funciones de error y transferencia 2.9.2.1 Funciones de error La función suma de los cuadrados de los errores (SSE) es una de las más ampliamente utilizadas en la literatura contable y financiera. Como la función SSE es diferenciable y se puede minimizar cuando sus argumentos son iguales, la superficie del error resultante (en tres dimensiones) parece un tazón. El fondo del tazón corresponde al conjunto de pesos que producen el mínimo error. En un punto dado de la superficie del tazón, la derivada de la función de error proporciona la pendiente de la superficie con respecto a los pesos. Para minimizar el error, los pesos se ajustan para disminuir la pendiente hacia el fondo del tazón. 2.9.2.2 Funciones de transferencia Levich y Thomas (1993) y Kao y Ma (1992) encontraron que los mercados financieros son no lineales y tienen memoria, sugiriendo que las funciones de transferencia no lineales son las más apropiadas. Las funciones de transferencia sigmoideas se utilizan comúnmente para datos de series de tiempo porque son no lineales y continuamente diferenciables, propiedades que son deseables para el entrenamiento de la red.

La función de transferencia se usa para obtener la salida de un nodo, dados sus pesos ajustados por ponderación. El uso de funciones de transferencia lineales requiere que los patrones de entrada sean linealmente independientes. Si se usan funciones de transferencia no lineales, no se requiere independencia lineal de los patrones de entrada. Así, las funciones de transferencia no lineales permiten a los modelos RNA ser aplicados a una amplia variedad de problemas (Hertz, et. al., 1991). Se han propuesto cuatro funciones de transferencia no lineales para su uso con modelos RNA: Sigmoidales (logísticas), medio-sigmoidales, seno (o coseno), y tangente hiperbólico (Anderson y Rosenfeld, 1998). La función sigmoidea es una función real diferenciable y acotada que está definida para todos los valores reales de las entradas y tiene una derivada positiva en todo su dominio. Como se muestra en la figura 2.9, la función sigmoidea es una función semilineal que hace un cambio rápido de la sección central a los extremos. La función sigmoidea se centra en 0.5 y proporciona un rango de salida de cero a uno.

42


Figura 2.923 Comparación de las funciones de transferencia sigmoidea, medio- sigmoidea y de tangente hiperbólico.

( )( )1 Gain h Center

High LowG h Lowe− −

−= +

+

donde: High es el límite superior para la salida. Low es el límite inferior para la salida. Center es el valor de la entrada en el cual la salida es igual a (High + Low)/2. Gain es directamente proporcional a la derivada de la función en el punto central.

Con ganancia alta (Gain >> 1), la función sigmoidea se aproxima a una función escalón, mientras que con ganancias bajas (Gain << 1) se aproxima a una función lineal. h es la suma de las conexiones ponderadas.

Con una función sigmoidea es posible obtener un valor de salida igual a cero en un nodo, lo cual lleva a no modificar la ponderación correspondiente. Para lograr una respuesta que cambie el rango de salida de la función de transferencia sigmoidea, se agrega un sesgo de ½. Esta función sigmoidea modificada es llamada comúnmente como “media- sigmoidea”, la cual da menos peso a aquellos valores cercanos a la media.

Otra alternativa es la función tangente hiperbólica, que al igual que la sigmoidea está centrada en cero. Sin embargo, el rango para los valores de salida

23 Coakley, J. op. cit. p. 131.

43


es más amplio. Esta función es más lineal por naturaleza y produce un efecto similar a truncar las partes lejanas en un modelo lineal. 2.9.3 Aspectos importantes en la predicción con RNA Las Redes Neuronales Artificiales son modelos de predicción, que al igual que los indicadores técnicos, usan datos del pasado, pero con la ventaja de permitir incorporar la información de múltiples indicadores junto con información fundamental, explotando la ventaja de ser un modelo no paramétrico.

Los principales aspectos de la predicción con RNA se exponen en la tabla 2.1. En dicha tabla se pueden observar tres apartados principales: la obtención, selección y pre procesamiento de los datos, la selección y entrenamiento apropiado de la red, y por último, la evaluación de resultados (Olmedo, 1996).

Deteminar qué vamos a predecir, obtener las series de datos que tienen relación con el hecho en concreto y verificar que estos datos no contienen errores y las series están completas.

Preprocesar y combinar los datos con el objeto de hacer la información más útil. Por ejemplo, el cambio en el precio de un valor aporta más información a la red que el precio de dicho valor en un instante dado.

Obtención, selección y preproceso de los datos

Extraer los conjuntos de entrenamiento, prueba y validación. Elegir cuidadosamente el tamaño del conjunto de datos a utilizar en cada caso, y conocer las técnicas adecuadas en caso de poseer un conjunto de datos escaso. Seleccionar la arquitectura de red y el algoritmo de entrenamiento adecuados. No siempre el mismo modelo de red es adecuado, ni el mismo algoritmo de entrenamiento permite obtener los resultados deseados. Elegir los parámetros iniciales de la red. En algoritmos como el de retropropagación, elegir cuidadosamente los parámetros iniciales de entrenamientos puede ser decisivo para la convergencia de la red.

Selección y entrenamiento apropiado de la red

Entrenar la red seleccionando un criterio de convergencia adecuado.

Evaluación de resultados

Evaluar los resultados de la red con el objeto de determinar la necesidad de un nuevo entrenamiento, previa modificación, si así se estima necesario, de alguno de los criterios tomados anteriormente.

Tabla 2.1 Aspectos generales del trabajo con RNA en predicciones.

44


En la mayoría de las aplicaciones se da más importancia a la selección

apropiada del modelo de red así como su uso de forma adecuada, en el caso de las predicciones, los datos que le son suministrados a ésta cobran una importancia vital debido a la necesidad de un preprocesamiento de los mismos, a la vez que se pone más atención a la fuente de la que provienen. Un conjunto de datos defectuosos o mal preprocesados hará inútiles todos los esfuerzos por encontrar el mejor modelo de red. La evaluación de los resultados, y la toma de decisiones forman el último paso del proceso. En la figura 2.10 se muestra un diagrama general que muestra la dinámica anterior (Olmedo, ibid.).

Conseguir mejores datos

Modificar el modeloElegir otro modelo

Ajustar los parámetros

Modificar criterio

No

Criterio de parada del entrenamiento

Evaluar la red entrenada

Preproceso de datos

Selección del modelo de red

Selección de parámetros iniciales

Entrenar la red

¿Objetivo logrado?

Figura 2.10. Esquema de trabajo con RNA.

Una red neuronal artificial no lineal puede implicar muchos problemas (Kohonen, 1998). En particular los sistemas de redes neuronales pueden tener entradas incompletas o confusas por lo que a veces resulta más conveniente para quien decide emplear datos cualitativos más que cuantitativos.

45

Capítulo 3: Redes neuronales aplicadas a las series de tiempo financieras

Capítulo 3

Redes neuronales aplicadas a las series de tiempo financieras

3.1 Generalidades Las aplicaciones de las RNA en los negocios se dividen en dos principales categorías: clasificación y modelado (Peel, op. cit.). La clasificación se refiere a la forma de discriminar entre observaciones con características comunes en diferentes grupos, v. gr. predicción de fallas corporativas, asignación de créditos y clasificación de bonos. Por otra parte, el modelado consiste en simular el comportamiento o las reacciones de una entidad o variable dado un estímulo externo, basado en observaciones pasadas. v. gr, predecir los movimientos de los precios de las acciones o fluctuaciones en el tipo de cambio.

El primer artículo sobre redes neuronales que manejan información financiera fue realizado por White (op. cit.), quien estudió la predicción de los precios de las acciones con un modelo de red neuronal. Posteriormente la predicción de la cotización de las acciones, del tipo de cambio y de otras variables económicas ha sido uno de los temas más atractivos para los investigadores y analistas financieros.

Algunos de los principales autores que han incursionado en la aplicación de las redes neuronales artificiales en las finanzas son: Dutta y Shekhar (op. cit.), Bosarge (1989), Trippi (1990), Hawley, et. al. (1990), Salchenberger, Cinar y Cash (op. cit.), Tam y Kiang (op. cit.), Altman, Marco y Varetto (op. cit.) y Grudnitski y Osburn (1993).

Hasta el momento se han presentando muchas ventajas de las redes neuronales con respecto a otras técnicas, pero en relación a lo que se conoce de la aplicación de las redes neuronales en el campo de la predicción bursátil, es interesante señalar que si fuera una herramienta infalible nadie lo publicaría sino más bien lo guardaría para sí y trataría de sacar el mayor provecho posible. Lo anterior es difícil todavía de afirmar, pero en el ámbito académico se tiene la creencia de que es sólo un modelo más que realiza su función de predicción y optimización y, que realiza su tarea de una manera más eficiente puesto que considera a la información de una manera mejor organizada.

Para la valuación de bonos, las técnicas por redes neuronales artificiales ya han rebasado a los métodos de regresión (Dutta, op. cit). La aplicación de las redes neuronales al comportamiento accionario, sin embargo, sólo había mostrado un éxito moderado a finales de 1990 (Hawley, op. cit).

En la literatura existen varios modelos de redes neuronales diferentes aplicadas al procesamiento de series de tiempo de acuerdo al tipo de mecanismo a tratar con la información temporal. Como la mayoría de las redes neuronales han

46


sido previamente definidas para reconocimiento de patrones con patrones estáticos, la dimensión temporal tiene que ser suministrada de una forma apropiada. Ulbritch (1996) distingue los siguientes mecanismos de manejo de series de tiempo por medio de redes neuronales:

- Capa de retraso sin realimentación (o ventanas de tiempo)

- Capa de retraso con realimentación

- Unidad de retraso sin realimentación

- Unidad de retraso con realimentación (bucles auto recurrentes)

El uso de las redes neuronales en este campo se puede ver en el contexto de la aproximación de funciones y clasificación, por lo que los principales tipos de redes neuronales se verán desde una forma más tradicional de procesamiento de secuencias. 3.2 Sistemas tradicionales La forma tradicional de modelar los datos consiste en el análisis de series de tiempo. Pueden consistir ya sea de valores continuos o discretos. Hay dos tipos de modelos disponibles para modelar el comportamiento de las series de tiempo: los lineales y los no lineales.

I) Sistemas lineales. Los métodos lineales clásicos están basados generalmente en realizar regresiones lineales de las series de tiempo sobre una función lineal que posteriormente se utiliza para pronosticar valores futuros. La evidencia reciente muestra que los mercados financieros son no lineales (Bollerslev, 1992), sin embargo, estos métodos lineales proporcionan una buena aproximación para describir el comportamiento de los sistemas no lineales presente en las series de tiempo de los mercados financieros.

Existen además, otros dos métodos para modelar series de tiempo: el

análisis espectral de máxima entropía y la transformada rápida de Fourier. Sin embargo, para poderlos utilizar es necesario que exista cierta ciclicidad y poderla identificar.

II) Modelos no lineales. Estas técnicas intentan reconstruir las series de tiempo con base en un muestreo de datos para pronosticar los valores futuros. Aunque estas técnicas son estadísticamente potentes, no han tenido mucho éxito en su aplicación en la predicción de los mercados financieros. En el mundo real, los precios de mercado se generan por factores que incluyen las creencias, las relaciones atípicas entre los participantes, coberturas, arbitrajes, etc. Lo anterior crea un ambiente que contiene ruido

47


estadístico, en donde aplicar las técnicas no lineales se vuelve complicado y donde estadísticamente se vuelve indeseable.

Existen numerosos estudios que comparan a los sistemas tradicionales con

las redes neuronales artificiales en cuanto a qué modelo describe mejor el comportamiento de los mercados financieros y se ha encontrado que las RNA proporcionan un mejor estimado. Bell, Ribar y Verchio (1990) compararon a la regresión con las redes neuronales artificiales para predecir fallas en los bancos y observaron que las RNA proporcionan mejores estimaciones, particularmente en el “área gris” donde los bancos parecen tener menos dificultades financieras. Huang, Dorsey y Boose (1994) comparan las RNA con el análisis de discriminantes y encuentran que las RNA proporcionan mejores estimaciones para predecir la insolvencia de las aseguradoras de vida. Se han usado también tanto el análisis de discriminantes múltiples como las RNA para predecir dificultades financieras. El resultado de las pruebas muestra que el método por RNA es más eficiente en reconocimiento de patrones y en la anticipación de problemas financieros.

En estudios recientes, se comparan a las RNA con otros modelos de predicción tradicionales y concluyen que las estimaciones de las RNA son superiores cuando las entradas están altamente correlacionadas, cuando faltan datos o cuando los sistemas son no lineales. También se comparan a las RNA con la regresión logística y el suavizamiento exponencial al predecir el volumen de pasajeros por aerolínea y como resultado las RNA proporcionan un mejor estimado. 3.3 RNA como modelo no lineal Una RNA sin capas ocultas es similar a un modelo lineal generalizado. Mientras que las RNA con alimentación hacia delante son un subconjunto de una clase más grande de modelos de regresión y discriminación no lineales. Generalmente se escoge un modelo no lineal sobre uno lineal cuando se sabe a priori que las relaciones entre las variables son no lineales o desconocidas.

Los modelos económicos lineales no son capaces de capturar patrones no lineales y tendencias en las relaciones de la mayoría de las variables de predicción econométricas usadas en contabilidad y finanzas. Por ejemplo, una serie de tiempo puede ser dividida en cuatro componentes, tendencia secular, variación cíclica, fluctuación estacional y fluctuación irregular. La fluctuación irregular puede a su vez ser dividida en comportamiento caótico determinista y ruido estocástico. Las técnicas lineales convencionales no pueden distinguir entre estos dos subcomponentes de ruido aleatorio y relaciones no lineales (Wong, 1991).

Cuando las RNA se aplican a tareas de clasificación, muestran la habilidad

de inducir algoritmos para el reconocimiento de patrones. Así, la base del conocimiento es inferido del entrenamiento que se dé a la red. La desventaja, sin embargo, es que estas redes no tienen la facilidad de explicar como se llega a determinada conclusión. En general, una RNA no debe ser usada para modelar

48


relaciones lineales inherentes. Las RNA deben ser aplicadas cuando exista alguna evidencia de no linealidad en las relaciones entre las variables dependientes y explicativas. 3.4 Modelos paramétricos y no paramétricos Los modelos paramétricos y en particular los modelos de regresión han llegado a abusar de los métodos estadísticos. Las pruebas se realizan de manera rutinaria y se hacen inferencias sin verificar la normalidad de los errores, independencia de los errores y constancia en la varianza del error (Marques, 1991).

Las RNA pueden ser usadas como modelos paramétricos, así que son

necesarias las mismas consideraciones de distribución para los términos de error que para los modelos estadísticos.

Sin embargo, las RNA aplicadas como modelos no paramétricos pueden

incorporar fácilmente múltiples fuentes sin simplificar consideraciones relativas a la forma funcional de la relación entre las variables de salida y las predictivas. Se considera a las RNA como métodos estadísticos no lineales que ofrecen ciertas ventajas sobre sus contrapartes paramétricas. De esta forma, la primera decisión fundamental que se debe tomar es, si es apropiado usar una RNA para resolver problemas de contabilidad y financieros o modelos estadísticos paramétricos tradicionales. 3.5 Modelos autorregresivos no lineales Entre las redes neuronales más ampliamente utilizadas en clasificación y aproximación de funciones son las redes con alimentación hacia delante, como los perceptrones multicapa (MLP24; unidades ocultas con funciones de transferencia sigmoidales (Rumelhart, op. cit.)) y las redes con función de base radial (RBFN25; unidades ocultas usando una regla de propagación de distancia y una función de transferencia gaussiana u otra (Broomhead y Lowe, 1988)). Ambos tipos de redes han sido probadas para ser aproximadores universales (Cybenko, op. cit. y Hornik, 1989) para el MLP y (Kurkova, 1992 y Girosi, 1990) para la RBFN, es decir, aproximar cualquier función razonable por medio de las redes neuronales respectivas.

La aproximación de la no linealidad se realiza por medio del empleo de la función de transferencia no lineal, ya sea sigmoidea o gaussiana. Con un número fijo de neuronas ocultas (como en el caso de la mayoría de las aplicaciones) el método podría ser llamado aproximación semiparamétrica de funciones. No hace consideraciones específicas acerca de la forma de la función (como lo haría un

24 MLP, multilayer perceptrons por sus siglas en inglés. 25 RBFN, radial basis function network por sus siglas en inglés.

49


método paramétrico), pero no puede aproximar cualquier función compleja arbitrariamente (como lo podría hacer una técnica no paramétrica) (Dorffner, op. cit.).

De esta forma, los MLP y RBFN ofrecen una extensión a la forma clásica de modelar series de tiempo: los modelos autorregresivos lineales. El modelado autorregresivo lineal de series de tiempo (Box y Jenkins, op. cit.) considera a la función objetivo como una combinación lineal de un número fijo de valores previos de la serie, incluyendo un término de error ε:

∑=

+−=p

ii titxtx

1)()()( εα

)())()...,1(()( tptxtxFtx L ε+−−=

Si se toman los p valores previos de la secuencia, se habla de un modelo

AR(p) de la serie de tiempo (modelos autorregresivo de orden p) (Dorffner, op. cit.).

Encontrar un modelo AR(p) apropiado significa escoger un p apropiado y estimar los coeficientes αi. Esta técnica, aunque potente, es limitada, porque asume una relación lineal entre la secuencia de los elementos. Más aún, asume estacionariedad de la serie de tiempo, es decir, que los principales momentos (media y desviación estándar) no cambian en el tiempo.

Es claro que un MLP ó RBFN puede reemplazar la función lineal FL por una función no lineal arbitraria FNN (Dorffner, op. cit.):

)()](),...,1([)( tptxtxFtx NN ε+−−=

Esta función no lineal se puede estimar con base en las muestras de la serie, usando una de las técnicas de aprendizaje u optimización de las redes neuronales.

Haciendo FNN dependiente de los p valores previos es igual a tomar p entradas adyacentes como se muestra en la figura 3.1. Esta entrada es conocida generalmente como ventana de tiempo, porque proporciona una vista limitada de la serie. Se puede ver también como una forma simple de transformar la dimensión temporal en una dimensión espacial (Dorffner, op. cit.).

50


x(t)

x(t-1) x(t-2) x(t-3) x(t-p)

^

FNN[x(t-1),…]

Figura 3.1 Red neuronal unidireccional con ventana de tiempo como modelo AR no lineal

Los modelos autorregresivos no lineales son potencialmente más poderosos

que los lineales debido a que:

- Es posible modelar características más complejas de las series.

- Teóricamente no tienen que asumir estacionariedad.

Sin embargo, al igual que en el reconocimiento de patrones estáticos, se requiere mucho más cuidado y precaución que los métodos lineales porque:

- Requieren un gran número de datos de muestra, debido a su gran número de grados de libertad.

- Pueden caer en un gran número de problemas, como sobre ajuste, obtención

de mínimos subóptimos como resultado de la estimación (aprendizaje) etc., que son mucho más severos que en el caso lineal.

- No incluyen necesariamente el caso lineal de una forma trivial.

Especialmente el primer punto es importante en muchas aplicaciones del

mundo real donde los datos son limitados. 3.6 Modelos de promedio móvil Una forma alternativa de modelar una serie de tiempo es considerar a la serie como una combinación lineal de q señales de ruido (Dorffner, op. cit.):

51


[ ] )()(),...,1(

)()()(1

tqttF

tittx

L

q

ii

εεε

εεβ

+−−=

+−= ∑=

La cual, como ya se vio es un promedio móvil de orden q ó MA(q). De igual

manera la combinación de componentes AR y MA generan un modelo ARMA(p, q), los cuales son limitados debido a su linealidad, y también a su necesidad de estacionariedad. Así, una extensión del caso no lineal mediante el uso de redes neuronales parece una propuesta adecuada.

Al ser un modelo no lineal, la red es potencialmente más poderosa que los tradicionales modelos ARMA. Sin embargo, como se mencionó anteriormente, se debe tener más cuidado debido al gran número de grados de libertad y las potenciales limitaciones de los algoritmos de aprendizaje. La red de la figura 3.2 se puede considerar como un caso especial del tipo de red recurrente generalmente llamada red Jordan (Jordan, 1986). Esta red consiste de un MLP con una capa oculta y un bucle de realimentación de la capa de salida a una capa de entrada adicional o de contexto. La ecuación que describe este modelo se puede escribir de la siguiente manera:

)](),...,1(),(),...,1([)( qttptxtxFtx NN −−−−= εε Siempre que p = q.

x(t)

x(t-1) x(t-2) x(t-p) x(t-1)

^

FNN[x(t-1),…]

^

…

…

Figura 3.2 Red neuronal con realimentación en la capa de salida, conformando un modelo ARMA no lineal.

52


3.7 Algunas aplicaciones de redes neuronales a las series de tiempo Hill, O’Connor y Remus (1996), realizan un estudio en donde comparan el desempeño de las predicciones de series de tiempo basadas en redes neuronales con métodos estadísticos tradicionales (incluyendo el suavizamiento exponencial y Box-Jenkins). Encontraron que el modelo basado en redes neuronales realizó las predicciones significativamente mejor que los estadísticos tradicionales cuando se emplearon datos trimestrales y mensuales, aunque sin embargo, con datos anuales, ambos modelos fueron comparables. El estudio se llevó a cabo como si fuera parte de la conocida competición de Makridakis (Makridakis, 1982).

Shang-Wu (1999) emplea redes neuronales para realizar pronósticos y arbitraje sobre el futuro del índice de accionario del Nikkei, en donde de acuerdo con los resultados empíricos, las redes neuronales superaron al modelo ARIMA en las predicciones, así como también fue capaz de proporcionar al operador mayores ganancias por arbitraje que por los modelos tradicionales aún cuando se observa un menor intervalo de tiempo redituable.

Zang y Berardi (2001), utiliza redes neuronales y series de tiempo para predecir el tipo de cambio entre la libra británica y el dólar estadounidense, específicamente utilizan un método de particionamiento sistemático para construir conjuntos de redes neuronales. Encuentran que la aproximación básica conjunta creada con arquitecturas de red entrenadas con diferentes pesos iniciales aleatorios no es efectiva para mejorar la precisión de la predicción, mientras que los modelos en conjunto de diferentes estructuras neuronales pueden mejorar de manera consistente las predicciones de una única red. Sus resultados también muestran que las redes conjuntas basadas en diferentes particiones de datos son más eficientes que aquellas desarrolladas con el conjunto de datos de entrenamiento completo en la predicción fuera de muestra.

Medeiros, Veiga y Pedreira (2001), presentan y comparan diferentes alternativas para modelar y predecir series de tiempo del tipo de cambio mensual. Los modelos que proponen son autorregresivos de transición suave de neuro-coeficientes, lineales autorregresivos y de caminata aleatoria. Encuentran que la no linealidad sólo es relevante en algunos periodos de la serie, especialmente al inicio y al final de la muestra, que los modelos no lineales se desempeñan mejor solo en los casos en donde la linealidad esta uniformemente distribuida. También que no hay diferencias significativas con respecto a un modelo lineal actual.

Collantes (2001) realiza un estudio para comparar las metodologías Box y Jenkins, ARIMA y función de transferencia en dos aplicaciones, la primera, sobre la serie de tiempo del número de nacimientos mensuales ocurridos en España de enero 1960 a diciembre de 1999 y, la segunda sobre dos series de tiempo, el gasto de publicidad mensual y el número de ventas mensuales, en donde se llegó a la conclusión de que la metodología ARIMA se puede utilizar como herramienta de preprocesamiento de datos, considerando como entradas a los retrasos

53


involucrados en el modelo proporcionado por esa metodología, además de que los resultados de la predicción tanto dentro como fuera de muestra por parte de la red neuronal propuesta resultó ser superior a las otras metodologías.

Haefke y Helmenstein (2002) presentan una estrategia de negocio que explota la diferencia en información que implican los principios de construcción de índices de mercado de diferentes acciones. Esto para ganar ventaja competitiva sobre otros participantes de mercado, empleando redes neuronales para predicciones de un día y generar señales de compra y venta de acuerdo a la regla de negociación. Para ilustrar como trabaja el sistema, se aplica al índice de comercio austriaco (ATX). Sus resultados muestran que las redes seleccionadas se desempeñan bien con respecto a R2, MSE y MAPE. Encuentran una relación positiva y significativa con los datos dentro de muestra, mientras que en algunos casos las correlaciones fuera de muestra son ya sea insignificativas o tienen el signo incorrecto.

García (2003) diseña un modelo no lineal para el análisis y predicción de la serie de tiempo del precio externo del café colombiano utilizando redes neuronales artificiales en donde lo compara con un modelo clásico de predicción lineal ARIMA. La red utilizada utiliza una capa oculta, emplea el algoritmo de retropropagación y una función sigmoidea como función de activación de la red. Los resultados obtenidos indican que la varianza del error del modelo RNA es menor que el del modelo ARIMA aproximadamente en un 22%, por lo que el modelo de redes neuronales se considera mejor.

Stansell y Eakins (2004) proponen usar redes neuronales para predecir la dirección de cambio en índices de acciones de 19 sectores sobre un intervalo de cinco meses en el 2001 y de tres en el 2002. Los resultados fueron evaluados solamente en términos de la dirección de cambio y también en términos del número de puntos ganados en el índice del sector. Concluyen que un inversionista puede obtener ventaja de la habilidad de predicción de las redes neuronales utilizando los datos económicos públicamente disponibles.

54

Capítulo 4: Metodología para pronósticos mediante modelos ARIMA y RNA

Parte II.

Desarrollo y aplicación del modelo propuesto

Comparación con la metodología ARIMA En esta parte se presenta la metodología de la investigación, el desarrollo de los modelos propuestos, las pruebas de hipótesis y los resultados obtenidos, a partir de las cuales se derivan las conclusiones y recomendaciones para futuras investigaciones.

55


Capítulo 4.

Metodología para pronósticos mediante modelos ARIMA y RNA

4.1 Metodología para pronósticos mediante modelos ARIMA Para construir un modelo ARIMA que aproxime aceptablemente las características de una serie de tiempo se hace uso de la metodología de Box-Jenkins, la cual puede ser estructurada en cinco etapas. 4.1.1 Análisis exploratorio de la serie Se grafica la serie a través del tiempo, de manera que se puedan observar a priori sus componentes: tendencia, estacionalidad y ciclos. Podría notarse también la necesidad de aplicar diferencias, en la parte estacional o regular, para hacer que la media sea constante, así como su varianza homogénea. 4.1.2 Identificación del modelo Se debe sugerir un conjunto reducido de posibles modelos:

a) Selección del conjunto de estimación: conjunto de datos que se usará para la estimación y adecuación del modelo y el conjunto de predicción: conjunto de datos para evaluar las predicciones.

b) Determinación de la función de autocorrelación, la función de autocorrelación

parcial y sus correspondientes correlogramas.

c) Determinación del orden del componente autorregresivo p y promedio móvil q del modelo ARMA (p, q), haciendo uso de los patrones que se observan en los correlogramas simple y parcial.

d) Estudio de la estacionariedad. Si la serie no es estacionaria, se debe

convertir en estacionaria antes de aplicar la metodología Box-Jenkins.

e) Especificación del modelo ARIMA identificado. 4.1.3 Estimación de parámetros Una vez identificado el modelo, se obtienen los parámetros mediante la minimización de la suma del cuadrado de los errores. Los parámetros se estimarán siguiendo los pasos descritos en Pulido y López (1999).

56


4.1.4 Verificación de diagnóstico Después de seleccionar un modelo ARIMA particular y de estimar sus parámetros, se trata entonces de ver si el modelo seleccionado se ajusta a los datos en forma razonablemente buena, ya que es posible que exista otro modelo ARIMA que también lo haga. Es por esto que el diseño de modelos ARIMA de Box-Jenkins se ve algunas veces como arte más que como ciencia; se requiere gran habilidad para seleccionar el modelo ARIMA correcto. Una prueba simple del modelo seleccionado es ver si los residuales estimados a partir de este modelo son de ruido blanco, si lo son, puede aceptarse el ajuste particular, si no lo son, debe empezarse nuevamente. Por tanto, la metodología Box-Jenkins es un proceso iterativo. 4.1.5 Pronóstico El pronóstico se basa en el modelo ARIMA seleccionado. Se predicen m periodos correspondientes al tamaño del conjunto de predicción con sus intervalos de confianza.

Se calculan los errores de predicción. Es importante determinar la adecuación del modelo en función de qué tan bien se pronostican los datos no empleados para la estimación del modelo (fuera de muestra). Para evaluar qué tan cercano es el valor pronosticado y el real, se utilizan tres tipos de medición de bondad de ajuste y error de predicción, el error medio absoluto porcentual (MAPE) y la raíz de error cuadrático medio (RMSE), además del coeficiente de desigualdad de Theil.

4.2 Metodología para predicciones mediante RNA

Se seguirá la metodología propuesta por Kaastra y Boyd (1996) en el diseño de modelos de redes neuronales para predicción de series de tiempo financieras y económicas, la cual está compuesta por ocho pasos descritos a continuación.

Aunque existen muchas similitudes entre los modelos de RNA y los modelos estadísticos, la terminología usada en ambos campos son muy diferentes, por lo que en el apéndice A, se proporciona una lista de la terminología estadística y su equivalencia respectiva en la literatura de RNA. 4.2.1 Selección de variables Determinar qué variables de entrada son importantes en el pronóstico de series de tiempo es un asunto crítico. En este caso, el interés en la predicción involucra emplear como entradas datos técnicos en lugar de fundamentales por las

57


características mismas de la investigación. La forma más simple de modelar redes neuronales involucra emplear valores retrasados de la variable dependiente o sus primeras diferencias como entradas. Generalmente, en las aplicaciones en mercados accionarios y de derivados es más probable de usar datos diarios en el diseño de una red neuronal como un componente de todo un sistema completo (Kaastra, op. cit., p. 220). Sin embargo, también es posible emplear datos semanales o mensuales como entradas de la red en el caso de que se requiera formular una estrategia diferente que involucre intervalos de tiempo mayores. 4.2.2 Colección de datos Al seleccionar las variables del paso anterior también se debe considerar su costo y disponibilidad. Típicamente los datos técnicos son más fácilmente disponibles por parte de varios proveedores a cierto costo, mientras que la información fundamental es más difícil de conseguir.

El tiempo dedicado a la recolección de datos no puede ser usado para el pre procesamiento, entrenamiento y la evaluación del desempeño de la red. El vendedor de los datos debe tener la reputación de proporcionar datos de alta calidad, sin embargo, todos los datos debe ser revisados para evitar inconsistencias lógicas y falta de datos. En este caso los datos se obtuvieron por medio de Economática, el cual se considera un proveedor serio.

Es importante también mencionar que se deben calcular los retrasos de los datos apropiadamente de manera que se puedan introducir a la red. 4.2.3 Pre-procesamiento de datos El pre-procesamiento de datos se refiere al hecho de analizar y transformar las variables de entrada y salida para minimizar el ruido, enfatizar relaciones importantes, detectar tendencias, y aplanar la distribución de la variable para ayudar a la red neuronal en el aprendizaje de patrones relevantes. Como las redes neuronales son buscadores de patrones, la representación de los datos es crítica en el diseño de una red exitosa. Las variables de entrada son raramente ingresadas a la red en su forma original. Al menos los datos deben ser escalados entre los límites inferior y superior de la función de transferencia (generalmente entre 0 y 1 ó -1 y 1).

Dos de las transformaciones de datos más comunes tanto en métodos tradicionales como en redes neuronales es tomar las primeras diferencias y calcular el logaritmo natural de la variable independiente.

La primera diferenciación es para quitar tendencias lineales en los datos. La transformación logarítmica es útil para datos que pueden tomar valores muy pequeños o muy grandes y que están caracterizados por una distribución de cola derecha extendida. Las transformaciones logarítmicas también convierten las

58


relaciones multiplicativas o de razones en aditivas lo cual se cree que simplifica y mejora el entrenamiento de la red.

Otra transformación de datos muy popular es la que emplea las razones de las variables de entrada. Tales razones resaltan las relaciones importantes al mismo tiempo que se conservan los grados de libertad debido a que se necesitan menos neuronas para generar las variables independientes. 4.2.4 Conjuntos de entrenamiento y prueba Comúnmente el total de datos de la muestra se divide en dos conjuntos, llamados de entrenamiento y prueba. El conjunto de entrenamiento es el más grande y es utilizado por la red neuronal para aprender los patrones existentes en los datos. El conjunto de prueba, que varía del 10% al 30% del conjunto de entrenamiento se utiliza para evaluar la capacidad de generalización de una red ya entrenada. El investigador selecciona la red que se desempeña mejor de acuerdo al conjunto de prueba. Algunas veces también se incluye un conjunto de validación el cual debe consistir de las observaciones más recientes.

El conjunto de prueba puede ser seleccionado ya sea aleatoriamente del conjunto de entrenamiento o consistir de un conjunto de observaciones ubicadas inmediatamente después del conjunto de entrenamiento. La ventaja de utilizar las observaciones más recientes como hechos de prueba es que dichas observaciones pueden ser más importantes que los datos anteriores. 4.2.5 Paradigmas de las redes neuronales Existe un número infinito de maneras de construir una red neuronal; como ya se mencionó en la Parte I, la neurodinámica y la arquitectura son dos términos usados para describir la forma en que se organiza una red. La combinación de la neurodinámica y la arquitectura define el paradigma de la red neuronal.

De acuerdo a Caudill (1992), la red de retropropagación es la red multicapa más común utilizada casi en el 80% de las aplicaciones. 4.2.5.1 Número de capas ocultas Las capas ocultas dan a la red la habilidad de generalizar, y en la práctica las redes neuronales con una ó dos capas ocultas son las más utilizadas y han tenido un buen desempeño. El incremento en el número de capas también incrementa el tiempo de procesamiento y el peligro de sobreajuste lo que conduce a un pobre desempeño en la predicción fuera de muestra. El sobreajuste ocurre cuando un modelo de predicción tiene muy pocos grados de libertad. En otras palabras, se tienen relativamente pocas observaciones en relación con sus parámetros y por lo

59


tanto es capaz de memorizar datos individuales en lugar de aprender patrones generales.

Por lo tanto, se recomienda que todas las redes neuronales comiencen de preferencia con una o a lo mucho con dos capas. En esta investigación se empleará una sola capa oculta, ya que una capa es suficiente, de acuerdo a lo mencionado en el marco teórico para aproximar cualquier función razonable. 4.2.5.2 Número de neuronas ocultas Se traza una gráfica del criterio de evaluación (v. gr. la suma del cuadrado de los errores) en el conjunto de entrenamiento como una función del número de neuronas ocultas para cada red neuronal. Dicha gráfica produce una forma de tazón, en la cual, la red que genere el menor error en el fondo del tazón será la red que sea capaz de generalizar mejor. Este método consume mucho tiempo pero generalmente da buenos resultados.

Para determinar el número de neuronas en la capa oculta no existen reglas generales o teorías, aunque existen algunas recomendaciones sugeridas por varios investigadores:

- Shih (1994), sugiere que la topología de la red debe tener una forma piramidal, esto es, tener el mayor número de neuronas en la capa de entrada y menos en las posteriores. Recomienda que el número de neuronas en cada capa este más o menos entre la mitad de la capa siguiente y el doble del número de la capa anterior.

- De acuerdo con Azoff (1994), son suficientes 2N+1 neuronas para N

entradas.

- Baum y Haussler (1998) sugieren que el número de neuronas sea calculado

por: zn

mej+

= donde j es el número de neuronas en la capa oculta, m es el

número de datos en el conjunto de entrenamiento, e es la tolerancia al error, n es el número de entradas y z es el número de salidas.

La mayoría de los investigadores no están convencidos de las

recomendaciones anteriores ya que argumentan que no hay forma de determinar una buena topología de la red a partir sólo del número de entradas y salidas.

De acuerdo al Neural Network FAQ (1996), lo recomendable es empezar a probar con un número pequeño de neuronas ocultas e incrementarlo gradualmente sólo si la red neuronal parece no aprender. De esta forma, el problema del sobreajuste que puede ocurrir al existir más pesos (parámetros) que muestras de datos puede ser reducido. Este es el método que se empleará para determinar el

60


número de neuronas en la capa oculta de la red. Sin embargo, Lawrence et. al. (op. cit.) dicen que utilizar redes más grandes ayuda a reducir tanto el error de entrenamiento como el de generalización. 4.2.5.3 Número de neuronas de salida Decidir el número de neuronas de salida es algo más sencillo porque hay muchas razones para emplear sólo una neurona de salida. Las redes neuronales con múltiples salidas, especialmente si éstas salidas están ampliamente espaciadas, producirán resultados inferiores en comparación con una red con una única salida. Lo recomendable es tener una red especializada para cada una de las salidas deseadas en cada predicción. 4.2.5.4 Funciones de transferencia Siempre es recomendable ver los histogramas de las variables escaladas de entrada y salida, de manera que se pueda identificar la necesidad de realizar un escalamiento que produzca una distribución uniforme y poder emplear el número de neuronas disponibles de manera eficiente. 4.2.6 Criterio de evaluación En redes neuronales la función de error más común a minimizar es la suma del cuadrado de los errores. 4.2.7 Entrenamiento de la red Entrenar una red neuronal para aprender patrones involucra el presentarle ejemplos de manera iterativa de las respuestas correctas. El objetivo del entrenamiento es encontrar un conjunto de pesos entre las neuronas que determinan el mínimo global de la función de error. A menos que el modelo esté sobreajustado, el conjunto de pesos debería proporcionar una buena generalización. Un término de momento y de cinco a diez conjuntos aleatorios de pesos iniciales pueden mejorar las oportunidades de alcanzar un mínimo global. 4.2.7.1 Número de iteraciones de entrenamiento Muchas veces el procedimiento de agregar un número mayor de iteraciones en el entrenamiento producirá un menor error en el entrenamiento, pero éste a su vez no garantiza que se obtendrá el menor error en con el conjunto de prueba, tal y como se ilustra en la figura 4.1

61


ErrorDatos de prueba

Datos de entrenamiento

Número de iteraciones de entrenamiento Figura 4.1 Gráficas posibles del comportamiento de los errores en los conjuntos de entrenamiento y

prueba de una RNA.

El objetivo de la convergencia en el entrenamiento es alcanzar un mínimo global. El punto en el cual la red ya no mejora se llama convergencia. Esto requiere entrenamiento para un número suficiente de operaciones utilizando un número razonable de pesos iniciales seleccionados aleatoriamente. Un método para determinar un valor razonable para el máximo número corridas es dibujar la gráfica de la correlación de la media, la suma de los cuadrados de los errores o cualquier otra medida de errores apropiada para cada iteración o en intervalos predeterminados hasta el punto en donde la mejora es imperceptible. Cada iteración se puede dibujar fácilmente si el software crea un archivo de estadísticas o, si la correlación de la media puede ser grabada a intervalos de 100 ó 200. Después de dibujar la correlación de la media para un número valores iniciales de los pesos seleccionados aleatoriamente, se debe escoger el máximo número de corridas basado en el punto donde la correlación de la media deja de incrementar y se estabiliza.

El entrenamiento es afectado por varios factores como la tasa de aprendizaje y los valores de momento, mejoras de los programas comerciales al algoritmo de BP, entre otros, lo cual difiere entre estudios y por lo tanto es difícil determinar un valor general para el máximo número de corridas. También, la precisión numérica del software de la red neuronal puede afectar el entrenamiento debido a que la pendiente de la derivada del error puede llegar a ser muy pequeña provocando que se mueva en una dirección incorrecta y no se alcance el mínimo global. 4.2.7.2 Tasa de aprendizaje y momento La tasa de aprendizaje es una constante de proporcionalidad que determina el tamaño del cambio de los pesos. El cambio de los pesos de una neurona es proporcional al impacto del peso de las neuronas sobre el error. Un método de incrementar la tasa de aprendizaje y por lo tanto agilizar el tiempo de entrenamiento sin caer en oscilaciones, es incluir un término de momento en la regla de

62


aprendizaje de BP. El término de momento determina cómo los cambios pasados de los pesos afectan a los actuales cambios en los pesos. Este término suprime oscilaciones lado a lado filtrando variaciones de alta frecuencia. Cada nueva dirección de búsqueda es una suma ponderada de los gradientes actuales y previos.

La mayoría de los programas de software proporcionan valores por default para la tasa de aprendizaje y términos de momento que generalmente funcionan bien. Las tasas de aprendizaje usadas en los trabajos previos varían de 0.1 a 0.9. Es común empezar el entrenamiento con una tasa de aprendizaje como 0.7 y disminuirla conforme avanza el entrenamiento. Muchos de los programas disminuyen la tasa de aprendizaje y aumentan los valores de momento conforme se alcanza la convergencia. 4.2.8 Implementación La mayoría de los vendedores de software proporcionan los medios para implementar las redes obtenidas ya sea por el programa mismo o como un programa ejecutable. También es posible replicar la respuesta de la red en una hoja de cálculo conociendo su arquitectura, funciones de transferencia y pesos. Así como también es importante tomar en cuenta todas las transformaciones de datos, escalamiento, y otros parámetros empleados en la etapa de pruebas.

En un mercado cambiante, es necesario re-entrenar la red periódicamente para que no pierda su habilidad de adaptación. Una vez implementada, el desempeño de la red se degradará con el tiempo, sin embargo, aún cuando se realice un entrenamiento periódico, no se garantiza el desempeño de la red porque se puede dar el caso de que las variables independientes seleccionadas cambien de importancia.

63

Capítulo 5: Desarrollo y análisis de resultados

Capítulo 5

Desarrollo y análisis de resultados

5.1 Datos Los datos a utilizar pertenecen a la serie de cotizaciones de cierre del Futuro sobre Cetes a 91 días en el Mercado Mexicano de Derivados del 1 de noviembre de 2002 al 12 de abril de 2007 que vencen en diciembre de 2008. Estos futuros tienen como activo subyacente a los Certificados de la Tesorería de la Federación con un plazo de 91 días (en adelante sólo Cetes). Cada contrato de Futuro sobre Cetes a 91 días ampara una cantidad de 10,000 (diez mil) Cetes, equivalente a un valor nominal de 100,000 pesos (cien mil 00/100 pesos). El símbolo o clave de pizarra del Contrato de Futuro es CE91 DC08. La celebración del Contrato de Futuro de Cetes a 91 días en MexDer tendrá como unidad de cotización de la Tasa Futura a la tasa porcentual anualizada, expresada en tantos por ciento, con dos dígitos después del punto decimal26. Los datos de los Cetes de 91 días es empleado en varios estudios como la tasa de referencia, como ejemplo, Guzmán, Leyva y Cárdenas (2007), realizan un estudio del futuro del Índice de Precios y Cotizaciones (IPC) de la Bolsa Mexicana de Valores (BMV) empleando como tasa de largo plazo a los Cetes de 91 días, por lo que se considera un indicador importante dentro del sistema financiero mexicano.

De acuerdo a Kaastra y Boyd (1996, op. cit), suavizar tanto los datos de entrada como los de salida, empleando ya sea promedios móviles simples o exponenciales, puede ser una forma recomendable en el caso de que se intente predecir la tendencia de una serie, en lugar de intentar predecir los cambios en precios alrededor de la tendencia, en cuyo caso, lo mejor es modelar las series de tiempo financieras por medio de modelos ARCH. En este trabajo, se realiza un suavizado exponencial de los datos, de manera que se obtengan pronósticos sobre la tendencia de la serie en lugar de los valores originales, tanto para el modelo ARIMA como para el modelo con RNA. 5.2 Obtención del modelo ARIMA para la serie MexDer Cete Dc08 La muestra usada para ajustar el modelo de la serie de la TIIE contiene el 80% del total de los datos y se usarán los componentes AR y MA como las variables explicativas. Los días en los que no hubo negociación en el mercado no se consideran, de esta manera, se obtienen 1115 datos.

Para poder realizar los análisis de una manera más ágil, se utiliza el software econométrico Eviews27

26 Fuente: MexDer. 27 Eviews versión 4.1 desarrollado por Quantitative Micro Software.

64


5.2.1 Análisis exploratorio de la serie Realizando un suavizamiento exponencial por medio del método Holt-Winters sin estacionalidad con un factor α de 0.3 se obtiene un valor de suma de residuos al cuadrado (SRC ó SSR) de 71.54030 y un valor de la raíz del error cuadrático medio (RMSE) de 0.2832, en comparación con un factor α de 0.64 que es el valor óptimo calculado por el programa, en donde se obtiene un SSR de 58.8 y un RMSE de 0.256750. La gráfica tanto de la serie original como de la suavizada exponencialmente se muestra en la figura 5.1.

Figura 5.1 Gráfica del Cete Dc08 en el MexDer del 1-Nov-02 al 12-Abr-07.

Se puede observar de la gráfica que la serie tiene una cierta tendencia, por lo que será necesario trabajar en diferencias. Tomando logaritmos se reduce, además, la dispersión de la serie. El resultado de la serie así calculada (en lo sucesivo RCT o rendimiento logarítmico) se presenta en la figura 5.2.

65


Figura 5.2 Gráfica de la serie del rendimiento logarítmico (RCT).

La aplicación de modelos ARIMA debe realizarse sobre series estacionarias. La estacionariedad implica que se cumpla con un doble requisito en la práctica: a) una media aproximadamente constante en el tiempo y, b) una varianza o dispersión también constante. Esto implica que si dividimos la serie en sub-periodos arbitrarios, la media y la varianza sean aproximadamente iguales en cada uno de ellos.

De la serie RCT se puede observar que la media de la serie es cero y la varianza en general no sobrepasa el valor del intervalo de ± 0.02.

Será entonces esta serie la que habrá de modelarse con un ARMA(p, q), con d = 1, en el modelo ARIMA correspondiente.

Dado que la metodología de Box-Jenkins requiere que las series sean estacionarias, es importante comprobar esta situación antes de trabajar con ellas. El método formal para analizar si la serie RCT es estacionaria es el empleo de la prueba de raíces unitarias.

La prueba de raíces unitarias más empleada es la prueba de Dickey-Fuller y su variante Dickey-Fuller Aumentada (DFA) que es la considerada en este estudio. También se empleará adicionalmente la prueba de Phillips-Perron.

Tanto la prueba de Dickey-Fuller como la de Phillips-Perron plantean como hipótesis nula la existencia de una raíz unitaria H0 : ρ = 1.

66


Se prueba entonces la existencia de una raíz unitaria mediante el estadístico de Dickey y Fuller. La prueba se especifica con intercepto y tendencia, agregando 20 rezagos (prueba aumentada). Para el caso de la serie en niveles, el valor del estadístico τ es de -3.319381 por lo que no se puede rechazar la hipótesis nula, incluso al 5% de significatividad. Lo anterior dado que la hipótesis nula se acepta si el estadístico τ es menor que los valores críticos de MacKinnon, y tales valores son -3.968406 al 1%, -3.414877 al 5% y -3.129612 al 10%.

Mediante la aplicación de la prueba de Phillips-Perron especificada con intercepto y tendencia a la serie en niveles, el valor del estadístico τ es de -3.070658 por lo que no se puede rechazar la hipótesis nula, incluso al 10% de significatividad. Los valores críticos de MacKinnon son -3.968383 al 1%, -3.414866 al 5% y -3.129605 al 10%.

Otro procedimiento para comprobar la existencia de una raíz unitaria en la serie en niveles consiste en observar el correlograma de la misma. Como se puede apreciar en la figura 5.3, la función de auto correlación decrece exponencialmente y de forma lenta, mientras que la función de auto correlación parcial presenta un valor significativo en el retardo uno, con un coeficiente de auto correlación cercano a la unidad.

67


Figura 5.3 Correlograma de la serie del futuro del Cete suavizada en niveles.

Como la serie en niveles no es estacionaria, se aplican las pruebas anteriores a la serie RCT. La prueba DFA arroja un valor del estadístico τ de -13.68947, no significativo, valor que permite rechazar la hipótesis nula, puesto que el valor del estadístico DFA es superior a los valores críticos de MacKinnon.

Por medio de la prueba Phillips-Perron especificada con intercepto y tendencia a la serie RCT, el valor del estadístico τ es de -20.05657 por lo que se rechaza la hipótesis nula, para todos los niveles de significatividad. Los valores críticos de MacKinnon son -3.968394 al 1%, -3.414872 al 5% y -3.129608 al 10%.

68


5.2.2 Identificación del modelo El siguiente paso consiste en determinar el tipo de modelo más adecuado de la serie RCT. Los valores de p y q se determinan a partir de las funciones de auto correlación y auto correlación parcial.

Mediante la aplicación de intervalos de confianza al 95% y considerando que las funciones de auto correlación siguen una distribución normal, se determinan qué retrasos o rezagos son estadísticamente significativos. Para un intervalo de confianza del 95%, de las tablas de distribución normal se tiene que Z = 1.96. El intervalo de confianza entonces será ±Z/√n = ±0.065625654, donde n es el tamaño de la muestra.

Al observar el correlograma en la figura 5.4 se aprecia que la función de auto correlación disminuye exponencialmente28, mientras que la función de auto correlación parcial tiene los dos primeros coeficientes significativos de acuerdo con los límites del intervalo de confianza, el cual permite identificar un modelo AR de orden 2. Existen también otros rezagos significativos como el 27 pero dada su distancia y debido a que es un coeficiente aislado no se le da ninguna validez.

28 Los correlogramas se obtuvieron con un tercio del total de los datos de la muestra.

69


Figura 5.4 Correlograma de la serie RCT. El modelo AR(2) queda en consecuencia de la siguiente forma:

tttt RCTRCTRCT εααα +++= −− 22110 Se procede entonces a la estimación de los coeficientes α. La ecuación estimada queda:

70


21 160996.0347720.0000393.0 −− ++−= ttt RCTRCTRCT El error estándar de α0 es 0.000509, el de α1 es 0.033146 y el de α2 es 0.033147. 5.2.3 Verificación de diagnóstico Revisando el estadístico τ se puede contrastar la hipótesis básica de que el parámetro teórico sea nulo. Para el número de datos empleado, con dos grados de libertad, el valor de τ es aproximadamente 1.96, por lo que al comparar los estadísticos τ de cada uno de los componentes se rechaza claramente la hipótesis de nulidad del parámetro teórico al ser superiores al valor mínimo, excepto por el término constante. Los valores de τ para cada uno de los parámetros estimados son: -0.771925 para α0, 10.49014 para α1 y 4.857713 para α2. En términos de probabilidad (valor estimado = 0) es prácticamente imposible que con un coeficiente nulo y unos errores estándar como los estimados se obtengan coeficientes tan elevados como los obtenidos.

Otra forma de determinar la validez del modelo estimado es por medio de la matriz de covarianzas y el gráfico de los residuos.

La matriz de covarianzas proporciona un punto de referencia sobre la relación entre parámetros del modelo.

C AR(1) AR(2) C 2.59E-07 -1.43E-08 -8.52E-09

AR(1) -1.43E-08 0.00109866-

0.00045533

AR(2) -8.52E-09 -

0.00045533 0.00109873

Las covarianzas relativamente altas indican parámetros en cierta forma redundantes, algunos de los cuales se podrían eliminar sin disminuir la capacidad predictiva del modelo. En este caso, dado que las covarianzas son reducidas, es conveniente conservar todos los coeficientes del modelo.

Si se revisan los residuos en la figura 5.5, se confirma que, dado que la varianza en el primer cuarto de la muestra fue muy alta, se obtienen residuos que rebasan el intervalo establecido, aunque en general los residuos del modelo pueden considerarse como ruido blanco.

71


Figura 5.5 Gráfico de los residuos de la serie RCT. 5.2.3.1 Contraste de validez del modelo Con base en algunos criterios de análisis se determina la validez del modelo a partir de ciertas medidas de error.

El valor de R2 del modelo calculado es de 0.193335. El valor de R2 ajustado por los grados de libertad es de 0.191514. En cualquier aplicación es importante aclarar si el coeficiente de determinación (o cuadrado del coeficiente de correlación) está referido a la variable original o a la transformada. En este caso R2 se calcula sobre el rendimiento logarítmico de la serie, y esto implica trabajar con unos valores sensiblemente más bajos que si se calcularan en términos de la variable inicial. Como punto de referencia, es bueno tener presente que coeficientes de correlación de 0.5 a 0.7 en una variable en diferencias pueden ser equivalentes a coeficientes frecuentemente superiores a 0.9 en la variable original. Para este modelo en particular la bondad de ajuste puede considerarse baja. El error estándar de la regresión es de 0.007449.

Otro criterio para la validación de un modelo es el contraste del conjunto de nulidad de todos los parámetros del modelo, que se realiza por medio de la prueba F. Sólo se aceptará la hipótesis si el valor calculado de la prueba F es menor que el

72


establecido en las tablas de la distribución F con (k-1) y (n-k) grados de libertad al nivel de confianza del 95%. El estadístico F tiene un valor de 106.1744 que es mucho mayor al valor de 3 para la distribución F del modelo obtenido, en consecuencia se rechaza la hipótesis.

El contraste de Durbin-Watson permite verificar la hipótesis alterna de un proceso autorregresivo de primer orden en los residuos con respecto a la nula. Dado que al elaborar un modelo ARMA se desean obtener residuos que se comporten como ruido blanco y que, por lo tanto, no muestren auto correlación de ningún orden, el valor ideal sería de 2. En la práctica, se consideran como valores aceptables valores relativamente cercanos a 2, por ejemplo, entre 1.5 y 2.5. El valor estimado de este modelo es de 2.001275. 5.2.4 Pronóstico Una vez seleccionado el modelo, se puede pasar a la etapa de predicción, la gráfica de pronóstico se muestra en la figura 5.6

Figura 5.6 Pronóstico realizado mediante el modelo ARIMA sobre la serie RCT.

73


5.3 Obtención del modelo RNA para la serie MexDer Cete Dc08 A continuación se especifican los pasos a seguir para construir, entrenar y probar una red neuronal para predecir valores futuros en el tiempo t+1, basándose únicamente en los valores históricos de la serie correspondiente al futuro sobre el Cete de 91 días en el MexDer. 5.3.1 Selección de variables Los datos a utilizar son los obtenidos por medio del suavizamiento exponencial de la serie de tiempo calculada en el punto 5.2.1.

Se propone utilizar como programa de desarrollo al Neural Network Toolbox de Matlab29, ya que es una herramienta genérica de programación muy potente en la manipulación de matrices, redes neuronales y gran flexibilidad en la manipulación de parámetros. 5.3.2 Colección de datos Para poder introducir la serie de tiempo a la red neuronal es necesario tener los datos de tal forma que se puedan manipular con facilidad en la RNA, es por eso que se propone copiar los datos a un vector columna A como el siguiente:

⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

=

−

−

−

−

t

t

t

t

nt

aaaa

a

A

1

2

3

...

A partir del vector anterior se genera la matriz de retrasos BB

r que contiene los elementos de retraso que serán utilizados como entradas a la red neuronal artificial. La primera columna se considerará como el objetivo, mientras que las demás columnas serán las correspondientes a los retrasos hasta un máximo de r, el cual será fijado de acuerdo a los criterios mencionados en la determinación de las entradas.

29 Matlab versión 6.5 desarrollado por MathWorks Inc.

74


⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

=

−−−

−−−−−

−−−−−

−+−+−

−+−

−

rtttt

rtttt

rtttt

ntntnt

ntnt

nt

r

aaaaaaaaaaaa

aaaaa

a

B

...

...

..................0...0...00...00

21

1321

2432

12

1

donde: n es el número total de elementos de la serie r es el número de retrasos 5.3.3 Pre-procesamiento de datos El entrenamiento de la red neuronal se puede hacer más eficiente si se lleva a cabo un pre procesamiento en las entradas y objetivos de la red, que consiste en reescalar las entradas (Demuth y Beale, 1998).

En este caso, los datos de la serie se normalizan o transforman a valores comprendidos entre -1 y 1 empleando la siguiente ecuación:

( )minmax

minmax2yy

yyyz tt −

+−=

Donde: yt: valores originales de la serie de tiempo ymax: valor máximo de la serie de tiempo ymin: valor mínimo de la serie de tiempo zt: serie de tiempo transformada en valores entre -1 y 1.

Se escalan los datos en el intervalo [-1, 1] para emplear la función tangente hiperbólica cuyo codominio se encuentra en el mismo intervalo, ya que de acuerdo a Kalman y Wasny (1992) es la función de transferencia ideal. Masters (1993), la forma de la función tiene un pequeño efecto en la red aunque tiene un impacto significativo en la rapidez de entrenamiento.

Al terminar de realizar la predicción, los datos obtenidos se re-escalan a su valor original invirtiendo la ecuación anterior.

75


5.3.4 Conjuntos de entrenamiento y prueba Los valores de la serie de tiempo se dividen en dos conjuntos de datos:

1. Conjunto de entrenamiento. Lo constituye el conjunto del 80% de los datos de la serie. Se seleccionan de forma consecutiva y ordenada. Este conjunto de datos es el que se utiliza para el entrenamiento de la RNA.

2. Conjunto de prueba. Esta formado por el conjunto del 20% de los datos de la

serie. Corresponde a los datos restantes, una vez seleccionados los patrones de entrenamiento. Este conjunto de datos se utiliza para evaluar la capacidad de generalización o predicción de la red.

Los conjuntos de entrenamiento y prueba se obtienen a partir de la matriz Br.

Primero se eliminan los primeros r renglones de la matriz. A los elementos que no tienen retrasos se les asigna cero (dado que ya no hay más datos anteriores). Posteriormente, la matriz restante se divide en dos partes, una que contiene el 80% de los renglones y otra con el 20% restante, correspondiente a los conjuntos de entrenamiento y prueba respectivamente.

De esta manera, para seleccionar un retraso específico y considerarlo en el entrenamiento basta con incluir la columna correspondiente a tal retraso. La primera columna será invariablemente el objetivo a perseguir, es decir, lo que la red deberá aprender con base en los retrasos proporcionados. 5.3.5 Paradigma de la red neuronal 5.3.5.1 Topología de la red Se propone una topología de red con las siguientes características:

- Red multicapa unidireccional o perceptrón multicapa (MLP), es decir una red con conexiones que pasan las salidas en una única dirección a neuronas en la siguiente capa.

- Red totalmente interconectada en la que la salida de cada neurona es

conectada a cada una de las otras neuronas de la siguiente capa.

- Número de entradas: p

- Número de capas ocultas: 1

- Número de neuronas en la capa oculta: q

- Función de transferencia o activación de las neuronas de la capa oculta: tangente hiperbólica.

76


- Función de transferencia o activación de la capa de salida: lineal.

5.3.5.2 Determinación de las entradas Como no existe una regla para determinar qué entradas son las mejores para realizar la predicción, se consideran dos opciones para determinar las entradas de la red neuronal:

- Se sugiere emplear 10 retrasos y como lo sugiere Faraway y Chatfield (1998), analizar los pesos correspondientes a cada entrada para seleccionar las entradas con los pesos de mayor magnitud, además de comparar el error generado tanto en el ajuste como en la predicción con las entradas seleccionadas.

- Una vez determinado el modelo ARIMA, se seleccionan como entradas los

retrasos correspondientes de este modelo (coeficientes estadísticamente significativos).

5.3.5.3 Determinación del número de neuronas en la capa oculta y entrenamiento Al igual que en la determinación de las entradas, no existe una regla general para la obtención de los parámetros de la red que se desempeña mejor en cada situación. Se realiza entonces un procedimiento automático de búsqueda, por medio de un "barrido" de los parámetros que determinan el comportamiento de la red, por lo que, para obtener los parámetros de la red neuronal que arroja el menor error tanto en el ajuste como en la predicción, se realizan tres ciclos anidados que evalúan diversas redes en donde se establecen como parámetros de variación, el porcentaje de error máximo permitido de 0.01 a 0.1, con incrementos de 0.01, el número de neuronas en la capa oculta de 1 a 10 con incrementos de 1, así como el número de retrasos también de 1 a 10 con incrementos de 1.

Debido a la gran cantidad de recursos de cómputo requeridos -sobre todo cuando el porcentaje de tolerancia al error es pequeño-, se evalúan 2 redes por cada una de las combinaciones de parámetros cuando el error permitido va de 0.01 a 0.04, 50 redes cuando el error permitido es de 0.05 y 200 redes cuando el error permitido va de 0.06 a 0.1, esto para evitar evaluar sólo una red y evitar obtener una red que quede atrapada en un mínimo local, lo cual no permita decidir si la red es adecuada o no con los parámetros establecidos.

El error permitido determina la posibilidad de sobreentrenamiento y la disminución en la capacidad de generalización, el número de neuronas ocultas establece la capacidad de encontrar relaciones no lineales de más alto orden en los datos conforme el número de neuronas aumenta y, el número de retrasos permite identificar en número de entradas que conducen a la obtención de un menor error.

77


Con base en el ciclo de cálculos mencionado, se escoge la red que presenta

el menor error promedio de la suma del cuadrado de los errores tanto en el ajuste o etapa de entrenamiento (SSE-E) como en la etapa de predicción (SSE-P).

La red obtenida de este modo tiene 6 neuronas ocultas, 6 retrasos y un porcentaje de error permitido de 0.06. Gráficamente la red así obtenida se puede observar en la figura 5.7. 5.3.5.4 Algoritmo de entrenamiento Se propone emplear el algoritmo de retropropagación, el cual es por mucho el algoritmo más popular y más ampliamente usado por los investigadores en redes neuronales artificiales además de estar implementado en casi todos los paquetes de software comercial. Su popularidad se debe a la simplicidad en el diseño e implementación. La red neuronal se entrena en particular con el algoritmo Levenberg-Marquardt de Matlab, que es el método más rápido para entrenar redes de hasta varios cientos de pesos (Qi, 1999). 5.3.5.5 Selección de pesos iniciales La elección de los pesos iniciales es importante y se recomienda probar con diferentes conjuntos de valores iniciales para obtener los mejores resultados. Los pesos iniciales se generan aleatoriamente 50 veces (Faraway y Chatfield, op. cit.) y se selecciona el modelo que tenga menor promedio entre la suma de cuadrados de los errores de ajuste y predicción. 5.3.6 Criterio de evaluación En redes neuronales la función de error más común a minimizar es la suma de los cuadrados de los errores. El error tanto en el ajuste como en la predicción se calcula mediante:

( )∑ −=

ttt xxS 2ˆ

Donde: xt es el valor de la serie original y xt es el valor de la serie ajustada

78


5.3.7 Implementación Por medio de la ecuación de predicción definida por la red neuronal, se obtiene el valor de la predicción en el tiempo t + 1. Se calcula entonces el error de generalización.

A partir de los errores de entrenamiento y generalización se comparan las redes obtenidas y se selecciona aquella en la que ambos valores son mínimos. Como ya se explicó anteriormente, no es conveniente que el error de entrenamiento sea muy pequeño en comparación con el error de generalización, pues esto indica un sobreajuste o memorización. La correlación entre los valores originales de la serie y los estimados por la red neuronal puede usarse como una medida de la exactitud de la predicción. La arquitectura del modelo de red estimada puede observar en la figura 5.7.

x(t)

x(t-1) x(t-2) x(t-3) x(t-6)…

…no1 no2 no6

Figura 5.7 Arquitectura de la RNA que proporciona los mejores resultados.

Los pesos resultantes entre la capa de entrada y la capa oculta del modelo se muestran en la tabla 5.1.

79


Neuronas ocultas no1 no2 no3 no4 no5 no6

t-1 -0.2969 -1.5023 -0.5185 1.7265 -0.1343 -0.5926 t-2 -0.8582 1.0048 0.7723 -0.461 0.8479 0.3574 Entradas t-3 -2.084 0.7195 1.5533 -0.8571 0.647 1.0996 t-4 -0.9691 -0.0573 -1.8619 0.2886 0.6284 -0.5658 t-5 -0.98 0.69 -1.2869 -1.4761 0.6151 0.9811 t-6 -0.5264 -0.5593 -1.1919 0.809 1.3209 -0.6468

Tabla 5.1 Pesos entre la capa de entrada y la capa oculta de la RNA estimada.

Los pesos entre la capa de oculta y la capa de salida se muestran en la tabla 5.2. Neuronas ocultas no1 no2 no3 no4 no5 no6

Salida ns 0.667 0.6094 -0.4595 -0.1782 0.0871 -0.9801

Tabla 5.2 Pesos entre la capa oculta y la capa de salida de la RNA estimada. Una vez seleccionado el modelo, se puede pasar a la etapa de predicción, la gráfica del pronóstico se muestra en la figura 5.8

Figura 5.8 Pronóstico realizado mediante el modelo RNA sobre la serie RCT.

80


5.4 Resultados obtenidos 5.4.1 Resultados obtenidos por medio del modelo ARIMA Para obtener la gráfica de pronóstico de la serie estimada, respecto a niveles en lugar de sus cambios, se “deshace” la transformación de primeras diferencias logarítmicas que se había utilizado para obtener los cambios. La gráfica de la serie pronosticada por el método ARIMA se presenta en la figura 5.9.

Figura 5.9 Pronóstico realizado mediante el modelo ARIMA en niveles.

81


5.4.2 Resultados obtenidos por medio del modelo RNA La gráfica de la serie pronosticada por el método RNA en niveles se presenta en la figura 5.10.

Figura 5.10 Pronóstico realizado mediante el modelo RNA en niveles. 5.4.3 Características de las series pronosticadas por ARIMA y RNA Los pronósticos de la series pronosticadas por ARIMA y RNA en niveles se muestran en la figura 5.11, de la que se puede observar que el modelo obtenido por RNA pronostica mejor los datos en las primeras 60 observaciones, mientras que después, el modelo ARIMA sigue más de cerca la tendencia original, sin embargo, la forma de la serie obtenida por RNA es más parecida a la original, aunque sobrevalúa los datos.

82


Figura 5.11 Comparación entre pronósticos mediante ARIMA y RNA en niveles.

Se evalúa también si los valores generados los ambos modelos son capaces de reproducir los primeros cuatro momentos de la distribución de los valores de la serie suavizada exponencialmente sobre los 223 datos pronosticados.

Cete Cete ARIMA Cete RNA Media 7.686204 7.665720 7.856051 Mediana 7.565988 7.590327 7.788938 Máximo 8.778021 8.337034 8.553452 Mínimo 7.139742 7.322352 7.506110 Desv. est. 0.400236 0.277075 0.249297 Sesgo 1.037646 0.910380 0.952238 Curtosis 3.195469 2.613966 3.275114 Observaciones 223 223 223

Tabla 5.3 Características de las distribuciones de la serie del Cete de 91 días en el MexDer y sus

series pronosticadas por ARIMA y RNA.

De la comparación entre los momentos de la distribución de los valores observados y los correspondientes pronósticos (tabla 5.3), se desprende que la media, la mediana y la desviación estándar de los valores del pronóstico realizado con el modelo ARIMA se encuentran más cerca de los valores correspondientes a la distribución de los valores observados para la serie original, sobre todo por la sobre

83


valuación de los datos a partir del dato pronosticado 60. Sin embargo, el modelo se desempeña mejor para los datos del periodo más cercano de predicción (tabla 5.4).

Cete Cete ARIMA Cete RNA Media 8.256858 8.075380 8.189274 Mediana 8.227721 8.058860 8.177933 Máximo 8.778021 8.337034 8.557499 Mínimo 7.659780 7.748821 7.792983 Desv. est. 0.282291 0.147812 0.200125 Sesgo -0.082628 -0.159937 -0.010964 Curtosis 2.498411 2.579405 2.377994 Observaciones 60 60 60

Tabla 5.4 Características de la serie del Cete de 91 días en el MexDer y sus series pronosticadas

por ARIMA y RNA en los primeros 60 días. 5.5 Pruebas de hipótesis Con el afán de someter a prueba o escrutinio empírico las hipótesis planteadas al inicio y determinar si son apoyadas o refutadas, se calculan algunos estadísticos comúnmente utilizados para determinar la bondad de ajuste y la capacidad de los modelos para efectuar pronósticos. 5.5.1 Descripción de variables Las variables involucradas en la presente tesis son: Y1: Rendimiento logarítmico de la serie de Cetes a 91 días en el MexDer suavizada exponencialmente. Y2: Rendimiento logarítmico ajustado por medio de ARIMA (dentro de muestra). Y3: Rendimiento logarítmico pronosticado por medio de ARIMA (fuera de muestra). Y4: Rendimiento logarítmico ajustado medio de RNA (dentro de muestra). Y5: Rendimiento logarítmico pronosticado por medio de RNA (fuera de muestra). 5.5.2 Pruebas de hipótesis específicas de los modelos dentro de muestra 5.5.2.1 Coeficiente de determinación El coeficiente de determinación se calcula por medio de la siguiente ecuación:

84


∑∑

−−= 2

22

)(ˆ

1YY

uR

i

i

R2 necesariamente está entre 0 y 1. Mientras más cerca esté de 1, mejor será el ajuste. Esta medida proporciona la bondad de ajuste dentro de la muestra, en el sentido de saber qué tan cercano está un valor estimado de Y de su valor real en la muestra dada. La hipótesis de investigación es: A mayor capacidad de identificación de relaciones no lineales proporcionada por las redes neuronales artificiales, el coeficiente de determinación es mayor para datos ajustados medio de RNA que para los datos ajustados por medio de ARIMA (dentro de muestra):

Ha: R2Y4 > R2

Y2 La hipótesis nula es: El coeficiente de determinación es menor o igual para los datos ajustados por RNA que por ARIMA (dentro de muestra).

H0a: R2Y4 ≤ R2

Y2

Dado que los valores calculados son, para R2

Y4 = 0.201745 y para , R2Y2 =

0.193335, se rechaza la hipótesis nula H0a y se acepta la hipótesis de la investigación Ha. 5.5.2.2 Criterio de información de Akaike La función logarítmica de verosimilitud se calcula por medio de:

⎥⎥⎦

⎤

⎢⎢⎣

⎡

⎟⎟⎠

⎞⎜⎜⎝

⎛++−= ∑

nunL i

2ˆln)2ln(1

2π

donde ui

2 son los residuos al cuadrado. En consecuencia el criterio de información de Akaike (CIA) se calcula por medio de la ecuación:

85


nk

nLCIA 22 +−=

donde: n es el número total de datos de la muestra k es el número de variables explicativas incluidas en la estimación el parámetro k se calcula de la siguiente manera:

k = p + 1 + q (p + 2) El término 2k/n es el factor de penalización por añadir regresoras al modelo, por lo que al comparar dos o más modelos, se preferirá el que tenga el menor valor CIA. La hipótesis de investigación es: A mayor capacidad de identificación de relaciones no lineales proporcionada por las redes neuronales artificiales, el CIA es menor para los datos ajustados por medio de RNA que para los datos ajustados medio de ARIMA (dentro de muestra).

Hb: CIAY4 < CIAY2 La hipótesis nula es: El CIA es mayor o igual para los datos ajustados por RNA que por ARIMA (dentro de muestra).

H0b: CIAY4 ≥ CIAY2 Dado que los valores calculados son, para CIAY4 = -6.7772 y para CIAY2 = -6.958082, se rechaza la hipótesis nula H0b y se acepta la hipótesis de la investigación Hb. 5.5.2.3 Criterio de información de Schwarz El criterio de información de Schwarz (CIS) impone una penalización mayor por la incorporación de coeficientes adicionales y se calcula por medio de:

nnk

nLCIS ln2 +−=

El CIS impone una penalización mayor que CIA, y al igual que en CIA, mientras menor sea el valor de CIS, mejor será el modelo.

86


La hipótesis de investigación es: A mayor capacidad de identificación de relaciones no lineales proporcionada por las redes neuronales artificiales, el CIS es menor para los datos ajustados por medio de RNA que para los datos ajustados medio de ARIMA (dentro de muestra).

Hc: CISY4 < CISY2 La hipótesis nula es: El CIS es mayor o igual para los datos ajustados por RNA que por ARIMA (dentro de muestra).

H0c: CISY4 ≥ CISY2 Dado que los valores calculados son, para CISY4 = -6.477920 y para CISY2 = -6.941917, se rechaza la hipótesis nula H0c y se acepta la hipótesis de la investigación Hc. 5.5.3 Pruebas de hipótesis específicas de los modelos fuera de muestra Pueden emplearse varias estadísticas diferentes para medir en forma cuantitativa qué tan cerca está la variable pronosticada de su serie de datos correspondiente. Algunas de las cuales son las que se muestran a continuación. 5.5.3.1 Raíz del Error Cuadrático Medio La raíz del error cuadrático medio (RMSE) se calcula por medio de:

∑ −= 2)ˆ(1ii YY

nRMSE

La RMSE es una medida de la desviación de la variable simulada de su curso en el tiempo. La magnitud de este error sólo puede evaluarse comparándola con el tamaño promedio de la variable en cuestión. La hipótesis de investigación es: A mayor capacidad de identificación de relaciones no lineales proporcionada por las redes neuronales artificiales, la raíz del error cuadrático medio es menor para los datos pronosticados por medio de RNA que para los datos pronosticados por medio de ARIMA (fuera de muestra):

87


Hd: RMSEY5 < RMSEY3 La hipótesis nula es: La RMSE es mayor o igual para los datos pronosticados por RNA que por ARIMA (fuera de muestra).

H0d: RMSEY5 ≥ RMSEY3 Dado que los valores calculados son, para RMSEY5 = 0.004642 y para RMSEY3 = 0.004842, se rechaza la hipótesis nula H0d y se acepta la hipótesis de la investigación Hd. 5.5.3.2 Error Medio Absoluto Porcentual El error medio absoluto porcentual (MAPE) se calcula de la siguiente manera:

∑ −=

i

ii

YYY

nMAPE

ˆ1

El MAPE es el error medio que en su cálculo evita la cancelación de errores positivos y negativos. La hipótesis de investigación es: A mayor capacidad de identificación de relaciones no lineales proporcionada por las redes neuronales artificiales, el error medio absoluto porcentual es menor para los datos pronosticados por medio de RNA que para los datos pronosticados por medio de ARIMA (fuera de muestra):

He: MAPE Y5 < MAPE Y3 La hipótesis nula es: El MAPE es mayor o igual para los datos pronosticados por RNA que por ARIMA (fuera de muestra).

H0e: MAPE Y5 ≥ MAPE Y3 Dado que los valores calculados son, para MAPE Y5 = 204.8512 y para MAPE Y3 = 186.9167, se acepta la hipótesis nula H0e y se rechaza la hipótesis de la investigación He.

88


5.5.3.3 Coeficiente de desigualdad de Theil El coeficiente U de Theil se calcula de la siguiente manera:

∑∑

∑

+

−=

22

2

1ˆ1

)ˆ(1

ii

ii

Yn

Yn

YYnU

El numerador de U es la RMSE del pronóstico, pero la escala del denominador es tal que U siempre caerá entre 0 y 1. Si U = 0, existe un ajuste perfecto. Si U = 1, el desempeño predictivo del modelo es extremadamente malo. La hipótesis de investigación es: A mayor capacidad de identificación de relaciones no lineales proporcionada por las redes neuronales artificiales, el coeficiente de desigualdad de Theil es menor para los datos pronosticados por medio de RNA que para los datos pronosticados por medio de ARIMA (fuera de muestra):

Hf: U Y5 < U Y3 La hipótesis nula es: El U de Theil es mayor o igual para los datos pronosticados por RNA que por ARIMA (fuera de muestra).

H0f: U Y5 ≥ U Y3 Dado que los valores calculados son, para U Y5 = 0.597587 y para U Y3 = 0.675264, se rechaza la hipótesis nula H0f y se acepta la hipótesis de la investigación Hf.

89

Capítulo 6: Conclusiones y propuestas para futuras investigaciones

Capítulo 6

Conclusiones y propuestas para futuras investigaciones A partir del desarrollo de ambos modelos, de los resultados obtenidos y de las pruebas de hipótesis es posible concluir lo siguiente:

Existen varios modelos de predicción de series de tiempo, algunos más sofisticados que los desarrollados en esta tesis como la familia de modelos ARCH, sin embargo, para poder realizar un estudio comparativo entre distintas técnicas, es necesario hacerlo sobre las mismas bases, es decir, en este estudio se empleó una configuración de red neuronal equivalente a un modelo autorregresivo (AR) no lineal, razón por la cual se utilizó un modelo ARIMA como referencia.

Siempre es bueno contar con un modelo que realice predicciones más precisas, como lo es el modelo propuesto, ya que conocer el comportamiento futuro, o al menos contar con una aproximación más cercana a la real, nos brinda la posibilidad de tomar mejores decisiones en un ambiente incierto como lo es el financiero.

Los resultados y las pruebas de hipótesis, tanto de la bondad de ajuste representada por R2, y los estadísticos de Akaike y Schwarz indican que el modelo basado en RNA es mejor que el modelo ARIMA calculado y empleado como referencia para dentro de muestra.

Para fuera de la muestra, también se logró una ligera mejora expresada por los estadísticos RMSE y U de Theil, sin embargo, el error medio absoluto porcentual MAPE resultó mayor al planteado en la hipótesis, por lo que se considera que es mejor modelo para pronósticos aunque no absolutamente.

Se puede decir entonces que el método cumple su objetivo de generar mejores pronósticos de la tendencia del futuro del Cete de 91 días con vencimiento en diciembre de 2008 en comparación con el modelo ARIMA usado como referencia, pero sólo en la primeros datos del intervalo de predicción (60 días) ya que posteriormente el modelo arroja valores que sobrevalúan a los originales e incluso el ARIMA proporciona mejores resultados.

El modelo propuesto puede ser empleado como una herramienta adicional a las ya disponibles, más no como sustituto, pues el modelo lineal es más sencillo de generar y eventualmente genera buenas aproximaciones.

También, con base en los resultados obtenidos y a que es un modelo autorregresivo capaz de identificar relaciones no lineales en los datos de la serie, se puede decir que la serie del futuro del Cete de 91 días con fecha de vencimiento en

90

Capítulo 6: Conclusiones y propuestas para futuras investigaciones

diciembre de 2008 presenta relaciones no lineales identificadas por el modelo propuesto, sin embargo, no son de gran magnitud, puesto que la red no fue capaz de superar de manera muy significativa a los resultados del modelo lineal, en cuyo caso se esperarían resultados mucho mejores a los obtenidos.

En general, el proceso de encontrar un modelo basado en redes neuronales es más complejo y delicado que el desarrollo de un modelo ARIMA ya que implica la estimación de muchos más parámetros y a que la estabilización de la red requiere de mayores recursos de cómputo y tiempo, pues la forma de estimación de sus parámetros es inherentemente a prueba y error.

El modelo propuesto es importante porque se puede utilizar también como parte integral de la operación financiera de las empresas, ya que sus aplicaciones son amplias, desde la planeación y administración de la tesorería, los pronósticos de ventas hasta la identificación de problemas financieros, y por supuesto, la valuación de instrumentos derivados en la cobertura de riesgos.

Como trabajo futuro se puede recomendar el empleo de un modelo de redes neuronales que tenga la configuración de un modelo ARCH de manera que pueda captar de mejor manera la volatilidad existente en las series financieras, y aunque el modelo propuesto también es capaz de ser comparado de esta forma, no se efectuaría bajo las mismas consideraciones.

Dado que el modelo de RNA diseñado es puramente no lineal, sería

conveniente utilizar un modelo mixto que incluya la parte lineal de manera simultánea, para aprovechar las ventajas de ambos enfoques en un mismo modelo.

Otra aplicación interesante sería la evaluación de varias RNA aplicadas a otros mercados financieros como el de divisas, de capitales, además de otros instrumentos dentro del mercado de derivados para determinar su utilidad y conveniencia.

91

Referencias

Referencias Alkon, D. L. (1989), “Almacenamiento de memoria y sistemas neurales”. Investigación y ciencia, septiembre, pp. 14-23. Altman, E. I., Marco, G. y Varetto, F. (1994), “Corporate Distress Diagnosis: Comparisons Using Discriminant Analysis and Neural Networks”, Journal of Banking and Finance, Vol. 18, pp. 505-529. Anderson, J. y Rosenfeld, E. (1998). Neurocomputing: Foundations of Research. USA: MIT Press. p. 176. Anthony, M. y Biggs, N. L., (1995), “A computacional learning theory view of economic forecasting with neural nets”, Neural Networks in the Capital Markets, USA: Jhon Wiley & Sons. Azoff, E. M., (1994), Neural Network Time Series Forecasting of Financial Markets, Inglaterra: John Wiley & Sons, pp. 50-51. Baum, E. B. y Haussler, D., (1988), Neural Computation 1, pp. 151-160. Bell, T., Ribar, G. y Verchio, J. (1990), “Neural Nets vs. Logistic regression”. USA: Proceedings of the 1993 Deloitte Touche/University of Kansas Symposium on Auditing Problems, pp. 29-53. Berumen, G. (1998), “La teoría del caos y las redes neuronales aplicadas a las finanzas”, Tesis de maestría en ingeniería económica y financiera, México: Universidad La Salle. Bodie, Z. y Merton, R. (2003), Finanzas, México: Pearson, p. 343. Bollerslev, T., et. al. (1992), “ARCH Modelling in Finance: A Review of Theory and Empirical Evidence”, Journal of Economics, vol. 52. pp. 5-59. Bosarge, W. (1989), A Non Random Walk Down Wall Street. USA: Princeton University Press, p. 45. Bowerman, B. y O’Connel, R. (1993), Forecasting and time series: an applied approach (3ª. Ed.), California: Duxbury Press. Box, G. P. E. y Jenkins, G. M. (1978), Time Series Analysis: Forecasting and Control, edición revisada, San Francisco: Holden Day.

92

Referencias

Broomhead, D. S. y Lowe, D. (1988), “Multivariable Functional Interpolation and Adaptive Networks”, Complex Systems 2, pp. 321-355. Bruck, J. (1990), “On the convergence properties of the Hopfield model”, Proceedings of the IEEE, octubre, pp. 1579-1585. Caudill, M. (1992), “The view from now”, AI Expert, junio, pp. 24-31. Chatfield, C. (1978), The analysis of time series: theory and practice, Londres: Chapman and Hall. Chatterjee, A. et al. (2000). “Artificial neural network and the financial markets: A survey”. Managerial Finance, p. 38. Coakley, J. y Brown, C. (2000), “Artificial neural networks in accounting and finance: modeling issues”, International Journal on Intelligent Systems in Accounting, Finance and Management. p. 122. Collantes, J. V. (2001), “Predicción con redes neuronales: Comparación con las metodologías de Box y Jenkins”, Tesis de maestría. Universidad de los Andes. Cybenko, G. (1988). “Continuos valued neural networks with two hidden layers are sufficient”, Technical Report, Department of Computer Science, Tufts University, p. 56. Cybenko, G. (1989), “Approximation by Superpositions of a Sigmoidal Function”, Math. Control Signals Syst, 2, pp. 303-314. Demuth, H. y Beale, M. (1998), Neural Network Toolbox User’s Guide, The Mathworks, Inc. Dickey, D. A. y Fuller W. A., (1979), “Distribution of the Estimators for Autorregresive Time Series with a Unit Root”, Journal of the American Statistical Association, vol. 74, pp. 427-431 Dorffner, G. (1996), “Neural Networks for Time Series Processing”, Neural Network World 4/96, pp. 447-468. Dutta, S. y Shekbar, S. (1988), “Bond Rating: A Non-conservative Application of Neural Networks”, Proceedings of the IEEE International Conference on Neural Networks, pp. II443-II450. Fama, E. F. (1965), “The behavior of stock market prices”, Journal of Business, enero, pp. 34-105. Faraway, J. y Chatfielf, C. (1998), “Time series forecasting with neural networks: a comparative study using the airline data”, Applied Statistic, vol. 47 (2), pp. 231-250.

93

Referencias

Feldman, J. A. y Ballard, D. H. (1982), “Connectionist Models and Their Properties”, Cognitive Science, vol. 6, pp. 205-254. Garcia, I. (2003), “Análisis y predicción de la serie de tiempo del precio externo del café colombiano utilizando redes neuronales artificiales”, Revista de la facultad de ciencias, Pontificia Universidad Javeriana, vol. 8, pp. 45-50. Girosi, F. y Poggio, T. (1990), “Networks and the Best Approximation Property”, Biological Cybernetics 63, pp. 169-176. Grossberg, S. (1986), “The adaptive Brain I. Cognition, Learning, Reinforcement, and Rhythm”, and “The Adaptive Brain II: Vision, Speech, Language, and Motor Control”. Elsevier/North-Holland, Amsterdam. Grudnitski, G., y L. Osburn. (1993), “Forecasting S&P and Gold Futures Prices: An Application of Neural Networks”, The Journal of Futures Markets 13, pp. 631-643. Gujarati, D. N. (2004), Econometría, (4ª. Ed.), México: Mc Graw-Hill, pp. 771-780. Guzmán, M, Leyva, S. y Cárdenas, A. (2007), “El futuro del Índice de Precios y Cotizaciones de la Bolsa Mexicana de Valores”, Análisis Económico, Num. 49, vol. XXII, UAM, pp. 53-83. Haefke, C. y Helmenstein, C. (2002), “Index Forecasting and Model Selection”, International Journal of Intelligent Systems in Accounting, Finance and Management, Abr/Jun, 11, 2, ABI/INFORM Global, pp. 119-135. Hawley, D. et al. (1990). “Artificial Neural Systems. A new Tool for Financial Decision-Making”, Financial Analysts Journal, pp. 90-113. Hebb, D.O. (1949), The Organization of Behavior, Nueva York: John Wiley & Sons. Hectch-Nielsen, R. (1990). Neurocomputing, USA: Addison-Wesley. p. 126. Hertz, J., et al. (1991), Introduction to the Theory of Neural Computation, USA: Addison-Wesley, p. 234. Hellström, T. y Holmström, K. (1998), “Predicting the Stock Market”, Technical Report IMa-TOM-1197-07, Center of Mathematical Modeling, Suiza: Mälardalen University. Hill, T., O’Connor, M. y Remus, W. (1996), “Neural Network Models for Time Series Forecasts”, Management Science, 42, 7, pp. 1082-1092. Hinton, G. E. y Sejnowski, T. J. (1986), “Learning and relearning in Boltzmann machines”, en (Rumelhart, 1986), pp. 282-317.

94

Referencias

Hopfielfd, J. J. (1982), “Neural Networks and Physical Systems with Emergent Collective Computational Abilities”, Proc. Natl. Acad. Sci, USA, vol. 79, abril. pp. 2554-2558. Hopfielfd, J. J. (1984), “Neurons with Graded Response Have Collective Computational Properties Like Those of Two-State Neurons”, Proc. Natl. Acad. Sci., USA, vol. 81, mayo, pp. 3088-3092. Hopfielfd, J. J. and Tank, D. W. (1986), “Computing with Neural Circuits: A Model”, Science, vol. 233, agosto, pp. 625-633. Hornik, K., Stinchcombe, M. y White, H. (1989), “Multi-layer Feedforward Networks are Universal Approximators”, Neural Networks 2, pp. 359-366. Huang C., Dorsey R., y Boose, M. (1994), “Life insurer financial distress prediction: a neural network model”, Journal of Insurance Regulation, pp. 131-167. Jordan, M. I. (1986), “Serial Order: A Parallel Distributed Processing Approach”, ICS-UCSSD, Report No. 8604. Kaastra, I. y Boyd, M. (1996), “Designing a neural network for forecasting financial and economic time series”, Neurocomputing, 10, Elsevier Science, pp. 215-236. Kalman, B. L. y Kwasny, S. C. (1992), “Why Tanh? Choosing a Sigmoidal Function”, International Joint Conference on Neural Networks, Baltimore, MD, USA. Kandel, E. R. y Hawkins, R. D., “Bases biológicas del aprendizaje y de la individualidad”, Investigación y ciencia, noviembre, p. 58. Kao, G. W. y Ma, C. K. (1992), “Memories, heteroscedasticity and prices limit in currency futures markets”, J. Futures Markets, 12, pp. 672-692. Kohonen, T. (1982), “Self-organized formation of topology correct feature maps”, Biological Cybernetics, 43, pp. 59-69. Kohonen, T. (1998), An Introduction to Neural Computing, USA: Neural Networks 1, pp. 3-16. Kurkova, V. (1992), “Universal Approximation Using Feedforward Networks with Gaussian Bar Units”, en Neumann B. (ed.): Proceedings of the Teenth European Conference on Artificial Intelligence (ECAI92), UK: Wiley, Chichester, pp. 193-197. Levich, R. M. y Thomas, L. R. (1993), “The significance of technical trading rule profits in the foreign exchange market: A bootstap approach”, en Strategic Currency Investing – Trading and Hedging in the Foreign Exchange Market, Chicago: Probus, pp. 336-365.

95

Referencias

Lawrence, S., Tsoi, A. C. y Giles, C. L. (1996), “Noisy time series prediction using symbolic representation and recurrent neural network grammatical inference”, Technical Report UMIACS-TR-96-27 y CS-TR-3625, USA: University of Maryland. Lowe, D. y Webb, R. (1991), Time series prediction by adaptive networks: A dynamical systems perspectives, USA: IEEE Computer Society Press. Magdon-Ismail M., Nicholson A. y Abu-Mustafa Y. S., (1998). “Financial Markets: Very Noisy Information Processing”, Proceedings of the IEEE, noviembre, 86(11). Makridakis, S., (1982), et. al., “The Accuracy of Extrapolation (Time Series) Methods: Results of a Forecasting Competition”, Journal of Forecasting, 1, pp. 111-153. Malkiel, B. G., (1996), Efficient Market Hipothesis, Londres: Macmillan. Masters, T., (1993), Practical Neural Network Recipes in C++, USA: Academic Press Inc., p 6. Marques, L. et al. (1991), “Neural networks models as an alternative to regression”, Proceedings of the 24th Annual Hawaii International Conference on Systems Sciences, pp. 129-146. Martín del Brío, B y Sanz, A. (2002), Redes Neuronales y Sistemas Difusos, (2ª. Ed.), México: Alfaomega, pp. 10-32. McCulloch, W. S. y Pitts, W. (1943), “A Logical Calculus of the Ideas Imminent in Nervous activity”, Bulletin of Mathematical Biophysics, vol. 5, 1943, pp. 115-133. McClelland, J. L. y Rumelhart, D. E. (1986), “Parallel Distrubuted Processing”, vol 2: Psychological and biological models. USA: MIT press. Mead, C. A. (1986), “Analog VLSI and Neural Systems”, Course Notes. Computer Science Dept., California Institute of Technology. Medeiros, M., Veiga, A. y Pedreira, C. (2001), “Modeling Exchange rates: Smooth Transitions, Neural Networks, and Linear Models”, IEEE Transactions on Neural Networks, vol. 12, no. 4, julio, pp. 755-764. Medsker, L. Trippi, R. R. y Turban, E. (1996), “Neural Network fundamentals for Financial Analysts”. Neural Networks in Finance and Investing, eds. R. R. Trippi and E. Turban. Chicago, IL: Irwin Professional Publishing. Müller, B y Reinhardt, J. (1990), Neural Networks. An Intoduction, Springer-Verlag.

96

Referencias

Nelson, M. N. e Illingworth, W. T., (1991), A Practical Guide to Neural Nets, USA: Addison-Wesley. Neural Network FAQ, Maintainer: Sarle, W. S., “How Many Hidden Units Should I Use?”, Julio 27, 1996, Neural Network FAQ Part 1-7, Disponible en: ftp://ftp.sas.com/pub/neural/FAQ3.html, [1996, agosto 30]. Nieto, S. (1989), “Plasticidad sináptica”, Investigación y ciencia, febrero, pp. 40-49. Olmedo, I. (1996). Avances Recientes en Predicción Bursátil, España: Ed. Universidad de Alcalá, pp. 212-215. Peel, M. y Wilson, N. (1996), “Neural network simulation: A new approach to risk assessment and business forecasting”. Management Research News, vol. 19, 6, ABI/INFORM Global, pp. 50-54. Pérez, G. (1998), Las redes neuronales artificiales: una herramienta cibernética para la estimación de precios en el mercado mexicano de productos derivados. (Tesis de licenciatura), Ingeniería en cibernética y ciencias de la computación, México: Universidad la Salle. Pindick, R. S. y Rubinfeld, D. L. (2001), Econometría: Modelos y pronósticos, (4ª. Ed.), México: Mc Graw-Hill, pp. 515. Posch, T. E. (1968), “Models of the Generation and Processing of Signals by Nerve Cells: A Categorically Indexed Abridged Bibliography”, USCEE Report 290, agosto. Pulido, A. y López, A. (1999), Predicción y simulación aplicada a la economía y gestión de empresas, Madrid: Pirámide, pp. 259-37. Qi, M. (1999), “Nonlinear Predictability of Stock Returns Using Financial and Economic Variables”, Journal of Business & Economic Statistics, octubre, 17, 4, pp. 419-429. Ramon y Cajal, S. (1899), Textura del Sistema Nervioso del Hombre y de los vertebrados, Madrid: N. Moya. Rosenblatt, R. (1959), Principles of Neurodynamics, Nueva York: Spartan Books. Rumelhart, D. E., Hinton, G. E. y Williams, R. J. (1986). “Learning representation by Back-Propagating Errors”, Nature, pp. 533-536. Rumelhart, D. E. y McClelland J. L. (1986), Parallel Distributed Processing: Explorations in the Microstructure of Cognition, USA: MIT Press. Salchenberger L., Cinar E., y Lash. (1992). “Neural Networks: a new tool for predicting thrift failures”, Decision Sciences, vol 23. pp. 899-916.

97

Referencias

Sejnowski, T. y Rosenberg, C. R. (1986), “NETtalk: A Parallel Network That Learns to Read Aloud”. Technical Report JHU/EECS-86/01, Johns Hopkins Univ. Shang-Wu, Y. (1999), “Forecasting and Arbitrage of the Nikkei Stock Index Futures: An Application of backpropagation Networks”, Asia-Pacific Financial Markets, diciembre, 6, pp. 341-354. Shih, Y., (1994), Neural User’s Guide, Cheshire Engineering Corporation, USA, p. 21. Simpson, P. K. (1989), Artificial Neural Systems, USA: Pergamon press. Stansell, S. y Eakins, S. (2004), “Forecasting the direction of change in sector stock indexes: An application of neural networks”, Journal of Asset Management, jun, 5, 1. ABI/INFORM Global, pp. 37-48. Tam, K. Y. y Kiang, M. Y. (1992), ”Predicting Bank Failures: A Neural Network Approach”. Management Science, vol. 38, No. 7, pp. 926-947. Tino, P., Schittenkopf, C. y Dorffner, G., (2000), “Temporal Pattern Recognition in Noisy Non-stationary Time Series Based on Quantization into Symbolic Streams: Lessons Learned from Financial Volatility Trading”, Austria: Austrian Research Institute for Artificial Intelligence. Tompkins, R., (1994), Options Explained, USA: Macmillan Press. Trippi, R. (1990), Intelligent Systems for Investment Decision Making. Managing Institutional Assets, USA: Fabozzi, p. 251. Tsibouris, G. y Zeidenberg, M. (1996), “Testing the efficient market hypothesis with gradient descent algorithms”, Neural Networks in the Capital Markets, USA: Jhon Wiley & Sons. Ulbritch, C. (1995), “State Formation in Neural Networks for Handling Temporal Information”, Disertation, Institute fuer Med. Kybernetik u. AI, Univeristy of Vienna. White, H. (1988), “Economic prediction using neural networks: The case of IBM daily stock returns”, IEEE International Conference on Neural Networks, USA, pp. 451-459. Widrow, B. y Hoff, M. E. (1960), Adaptive Switching Circuits. IRE WESCON Conv. Record, Part 4, agosto, pp. 96-104. Wong, F. (1991), “A 3D neural network for business forecasting”, Proceedings of the 24th Annual Hawaii International Conference on Systems Sciences, pp. 113-123.

98

Referencias

Zhang, G. P. y Berardi, V. L. (2001), “Time series forecasting with neural network ensambles: an application for exchange rate prediction”, Journal of the operational research society, 52, pp. 652-664.

99

Apéndices

Apéndices Apéndice A Tabla A.1 Equivalencias entre la terminología estadística y la literatura RNA.

Terminología estadística Terminología de RNA Variables Características Variables independientes Entradas Valores de predicción Salidas Variables dependientes Objetivos o variables de

entrenamiento Residuos Errores Estimación

Entrenamiento, aprendizaje, adaptación o auto-organización

Criterio de estimación Función de error, función de costo o función Lyapunov

Observaciones Patrones o pares de entrenamiento Parámetros estimados Pesos (sinápticos) Regresión y análisis por discriminantes

Aprendizaje supervisado

Análisis por cúmulos o reducción de datos

Aprendizaje no supervisado, auto-organización o aprendizaje competitivo

Interpolación y extrapolación Generalización Intercepto Sesgo Término de error Ruido Pronóstico Predicción

100

Apéndices

101

Apéndice B Tabla B.1 Datos de cierre del futuro del Cete de 91 días con vencimiento en diciembre de 2008 en el MexDer.

Fecha Cierre 11/1/2002 11.2 11/4/2002 11.41 11/5/2002 11.58 11/6/2002 11.55 11/7/2002 10.83 11/8/2002 11.53

11/11/2002 11.5 11/12/2002 11.83 11/13/2002 11.02 11/14/2002 11.56 11/15/2002 11.3 11/18/2002 11.57 11/19/2002 11.47 11/21/2002 11.3 11/22/2002 11.69 11/25/2002 11.08 11/26/2002 11.4 11/27/2002 11.29 11/28/2002 11.29 11/29/2002 10.87 12/2/2002 10.87 12/3/2002 10.71 12/4/2002 10.29 12/5/2002 10.32 12/6/2002 10.13 12/9/2002 10.48

12/10/2002 10.22 12/11/2002 10.42 12/13/2002 10.18 12/16/2002 9.59 12/17/2002 10.05 12/18/2002 10.55 12/19/2002 9.92 12/20/2002 10.18 12/23/2002 9.03 12/24/2002 9.55 12/26/2002 9.39 12/27/2002 9.38 12/30/2002 9.63

12/31/2002 9.311/2/2003 9.641/3/2003 9.771/6/2003 10.011/7/2003 9.91/8/2003 10.141/9/2003 10.17

1/10/2003 10.091/13/2003 10.241/14/2003 10.31/15/2003 10.391/16/2003 9.861/17/2003 9.921/20/2003 9.991/21/2003 10.611/22/2003 10.441/23/2003 10.491/24/2003 9.941/27/2003 10.381/28/2003 10.561/29/2003 10.831/30/2003 10.791/31/2003 11.052/3/2003 10.732/4/2003 10.762/6/2003 10.782/7/2003 10.66

2/10/2003 10.732/11/2003 11.182/12/2003 11.132/13/2003 10.92/14/2003 10.722/17/2003 10.392/18/2003 10.092/19/2003 10.52/20/2003 10.512/21/2003 10.982/24/2003 10.932/25/2003 11.32/26/2003 11.47

2/27/2003 11.522/28/2003 10.693/3/2003 11.473/4/2003 12.063/5/2003 13.023/6/2003 12.873/7/2003 12.72

3/10/2003 12.673/11/2003 12.483/12/2003 11.853/13/2003 12.313/14/2003 12.963/17/2003 11.53/18/2003 11.233/19/2003 11.43/20/2003 11.283/24/2003 11.223/25/2003 10.943/26/2003 113/27/2003 10.43/28/2003 9.983/31/2003 9.824/1/2003 10.054/2/2003 10.564/3/2003 10.314/4/2003 10.274/7/2003 10.324/8/2003 10.14/9/2003 10.59

4/10/2003 10.384/11/2003 10.644/14/2003 10.554/15/2003 10.444/16/2003 10.414/21/2003 10.464/22/2003 10.44/23/2003 10.834/24/2003 10.724/25/2003 10.654/28/2003 10.63

Apéndices

102

4/29/2003 9.9 4/30/2003 10.87 5/2/2003 10.95 5/5/2003 11.07 5/6/2003 10.87 5/7/2003 11.3 5/8/2003 11 5/9/2003 10.97

5/12/2003 11.62 5/13/2003 11.46 5/14/2003 11.62 5/15/2003 10.93 5/16/2003 11.41 5/19/2003 11.05 5/20/2003 11.57 5/21/2003 10.97 5/22/2003 11.1 5/23/2003 11.9 5/26/2003 10.01 5/27/2003 11.45 5/28/2003 10.4 5/29/2003 10.35 5/30/2003 10.54 6/2/2003 10.43 6/3/2003 10.21 6/5/2003 11.01 6/6/2003 11.14 6/9/2003 10.17

6/10/2003 10.17 6/11/2003 11.09 6/12/2003 10.09 6/13/2003 9.83 6/16/2003 10.2 6/17/2003 10.49 6/18/2003 10.26 6/19/2003 11.08 6/20/2003 10.22 6/23/2003 10.1 6/24/2003 10.19 6/25/2003 10.7 6/26/2003 10.7 6/27/2003 10.4 6/30/2003 10.62 7/1/2003 11.03 7/2/2003 9.53 7/3/2003 10.72 7/4/2003 10.57 7/7/2003 10.18 7/8/2003 11.69

7/9/2003 10.97/10/2003 11.757/11/2003 11.497/14/2003 11.537/15/2003 11.537/16/2003 11.957/17/2003 10.597/18/2003 11.487/21/2003 10.977/22/2003 11.257/23/2003 11.017/24/2003 11.247/25/2003 11.537/28/2003 11.517/29/2003 11.487/30/2003 10.687/31/2003 10.968/1/2003 10.948/4/2003 11.248/5/2003 11.268/6/2003 11.28/7/2003 11.258/8/2003 11.06

8/11/2003 11.118/12/2003 11.398/13/2003 11.138/14/2003 11.188/15/2003 11.188/18/2003 11.058/19/2003 11.058/20/2003 11.288/21/2003 11.438/22/2003 11.258/25/2003 11.338/26/2003 10.988/27/2003 10.718/28/2003 10.758/29/2003 10.899/1/2003 10.639/2/2003 10.629/3/2003 10.589/4/2003 10.399/5/2003 10.449/8/2003 10.359/9/2003 10.42

9/10/2003 10.329/11/2003 10.059/12/2003 10.269/15/2003 10.12

9/17/2003 10.329/18/2003 10.059/19/2003 10.089/22/2003 9.79/23/2003 9.649/24/2003 9.759/25/2003 9.889/26/2003 9.99/29/2003 10.299/30/2003 9.9410/1/2003 9.7310/2/2003 1010/3/2003 10.5510/6/2003 10.4110/7/2003 10.4710/8/2003 10.3610/9/2003 10.13

10/10/2003 10.3210/13/2003 10.0810/14/2003 10.3910/15/2003 10.0210/16/2003 10.2510/17/2003 9.9110/20/2003 9.8710/21/2003 9.7810/22/2003 9.4710/23/2003 9.4210/24/2003 9.5810/27/2003 9.6110/28/2003 9.3510/29/2003 9.4610/30/2003 9.3210/31/2003 9.5311/3/2003 9.2611/4/2003 9.3811/5/2003 9.5911/6/2003 9.7811/7/2003 9.81

11/10/2003 9.8911/11/2003 10.0111/12/2003 10.1411/13/2003 10.211/14/2003 9.8211/17/2003 9.8911/18/2003 9.7111/19/2003 9.5911/21/2003 9.7611/24/2003 1011/25/2003 10.54

Apéndices

103

11/26/2003 10.41 11/27/2003 10.47 11/28/2003 10.48 12/1/2003 10.5 12/2/2003 10.62 12/3/2003 10.42 12/4/2003 10.41 12/5/2003 10.43 12/8/2003 10.29 12/9/2003 10.22

12/10/2003 10.15 12/11/2003 10.31 12/15/2003 10.07 12/16/2003 10.34 12/17/2003 10.17 12/18/2003 10.03 12/19/2003 10.27 12/22/2003 10.09 12/23/2003 9.94 12/24/2003 10.09 12/26/2003 10.04 12/29/2003 10.06 12/30/2003 9.99 12/31/2003 10.02

1/2/2004 10.12 1/5/2004 9.91 1/6/2004 9.6 1/7/2004 9.48 1/8/2004 9.48 1/9/2004 9.74

1/12/2004 9.68 1/13/2004 9.29 1/14/2004 9.31 1/15/2004 9.33 1/16/2004 9.3 1/19/2004 9.42 1/20/2004 9.37 1/21/2004 9.43 1/22/2004 9.62 1/23/2004 9.55 1/26/2004 9.27 1/27/2004 9.48 1/28/2004 9.09 1/29/2004 9.14 1/30/2004 9.17 2/2/2004 9.19 2/3/2004 9.35 2/4/2004 9.69 2/6/2004 9.65

2/9/2004 9.452/10/2004 9.412/11/2004 9.562/13/2004 9.452/16/2004 9.442/17/2004 9.412/18/2004 9.462/19/2004 9.442/20/2004 9.382/23/2004 9.512/24/2004 9.722/25/2004 9.652/26/2004 9.852/27/2004 9.733/1/2004 9.713/2/2004 9.83/3/2004 9.763/4/2004 9.53/5/2004 9.513/8/2004 9.583/9/2004 9.77

3/10/2004 9.743/11/2004 9.73/12/2004 9.593/15/2004 9.553/16/2004 9.373/17/2004 9.413/18/2004 9.573/19/2004 9.183/22/2004 8.873/23/2004 8.953/24/2004 8.853/25/2004 8.873/26/2004 8.933/29/2004 9.053/30/2004 8.993/31/2004 9.364/1/2004 9.34/2/2004 9.014/5/2004 9.054/6/2004 9.524/7/2004 9.48

4/12/2004 9.544/13/2004 9.594/14/2004 9.454/15/2004 9.644/16/2004 9.624/19/2004 9.724/20/2004 9.75

4/21/2004 9.964/22/2004 9.94/23/2004 10.034/26/2004 10.364/27/2004 10.494/28/2004 10.164/29/2004 10.214/30/2004 10.175/3/2004 9.645/4/2004 9.985/5/2004 10.36

5/11/2004 10.45/12/2004 10.375/13/2004 10.355/14/2004 11.055/17/2004 11.035/18/2004 10.875/19/2004 10.885/20/2004 10.575/21/2004 10.615/24/2004 10.085/25/2004 10.495/26/2004 10.845/27/2004 11.165/28/2004 11.125/31/2004 11.276/1/2004 11.326/2/2004 11.126/3/2004 11.186/4/2004 11.226/8/2004 10.976/9/2004 10.77

6/10/2004 10.416/11/2004 10.366/14/2004 10.536/15/2004 10.486/16/2004 10.446/17/2004 10.386/18/2004 10.526/21/2004 10.486/22/2004 10.636/23/2004 10.86/24/2004 11.126/25/2004 10.846/28/2004 11.286/29/2004 11.386/30/2004 11.077/1/2004 11.017/2/2004 10.94

Apéndices

104

7/5/2004 10.84 7/6/2004 10.86 7/7/2004 10.7 7/8/2004 10.62 7/9/2004 10.66

7/12/2004 10.58 7/13/2004 10.35 7/14/2004 10.27 7/15/2004 10.11 7/16/2004 10.35 7/19/2004 10.16 7/20/2004 10.15 7/21/2004 10.55 7/22/2004 10.58 7/23/2004 10.62 7/26/2004 10.68 7/27/2004 10.77 7/28/2004 10.73 7/29/2004 10.62 7/30/2004 10.59 8/2/2004 10.38 8/3/2004 10.47 8/4/2004 10.51 8/5/2004 10.62 8/6/2004 10.7 8/9/2004 10.48

8/10/2004 10.46 8/11/2004 10.34 8/12/2004 10.54 8/13/2004 10.54 8/16/2004 10.69 8/17/2004 10.73 8/18/2004 10.54 8/19/2004 10.63 8/20/2004 10.75 8/23/2004 10.86 8/24/2004 10.84 8/25/2004 10.64 8/26/2004 10.75 8/27/2004 10.94 8/30/2004 10.96 8/31/2004 11.05 9/1/2004 10.72 9/2/2004 10.97 9/3/2004 10.74 9/6/2004 11.09 9/7/2004 11.09 9/8/2004 11.52 9/9/2004 11.19

9/10/2004 11.219/13/2004 11.29/14/2004 10.969/15/2004 10.899/17/2004 10.889/20/2004 10.739/21/2004 10.579/22/2004 10.629/23/2004 10.49/24/2004 10.449/27/2004 10.519/28/2004 10.519/29/2004 10.279/30/2004 10.510/1/2004 10.4810/4/2004 10.3810/5/2004 10.2410/6/2004 10.3510/7/2004 10.210/8/2004 10.03

10/11/2004 9.9310/12/2004 9.7310/13/2004 9.5210/14/2004 9.5810/15/2004 9.6610/18/2004 9.710/19/2004 9.7710/20/2004 9.8410/21/2004 9.810/22/2004 9.8610/25/2004 9.9710/26/2004 9.8410/27/2004 10.1910/28/2004 10.7510/29/2004 10.7111/1/2004 10.6411/2/2004 10.6911/3/2004 10.611/4/2004 10.6411/5/2004 10.7411/8/2004 10.6411/9/2004 10.66

11/10/2004 10.8811/11/2004 10.8711/12/2004 10.9211/15/2004 10.5911/16/2004 10.7311/17/2004 10.9711/18/2004 10.93

11/19/2004 11.0111/22/2004 11.3911/23/2004 11.2211/24/2004 11.2611/25/2004 10.9911/26/2004 10.811/29/2004 10.811/30/2004 10.8712/1/2004 11.0612/2/2004 10.9312/3/2004 10.9812/6/2004 10.9112/7/2004 10.3112/8/2004 10.2312/9/2004 10.4

12/10/2004 10.5612/13/2004 10.5112/14/2004 10.3412/15/2004 10.312/16/2004 10.3112/17/2004 10.1612/20/2004 10.2612/21/2004 10.0512/22/2004 9.912/23/2004 1012/24/2004 1012/27/2004 10.0112/28/2004 10.0312/29/2004 10.4412/30/2004 10.4312/31/2004 10.43

1/3/2005 10.431/4/2005 10.571/5/2005 10.471/6/2005 10.561/7/2005 10.61

1/10/2005 10.331/11/2005 101/12/2005 9.881/13/2005 9.71/14/2005 9.381/17/2005 9.491/18/2005 9.491/19/2005 9.461/20/2005 9.491/21/2005 9.321/24/2005 9.361/25/2005 9.351/26/2005 9.52

Apéndices

105

1/27/2005 9.35 1/28/2005 9.46 1/31/2005 9.3 2/1/2005 9.37 2/2/2005 9.57 2/3/2005 9.63 2/4/2005 9.74 2/7/2005 9.77 2/8/2005 9.71 2/9/2005 9.76

2/10/2005 9.48 2/11/2005 9.71 2/14/2005 9.48 2/15/2005 9.56 2/16/2005 9.61 2/17/2005 9.28 2/18/2005 9.38 2/21/2005 9.55 2/22/2005 10.11 2/23/2005 9.92 2/24/2005 9.78 2/25/2005 9.88 2/28/2005 9.93 3/1/2005 9.66 3/2/2005 9.69 3/3/2005 9.98 3/4/2005 9.87 3/7/2005 9.61 3/8/2005 9.58 3/9/2005 9.77

3/10/2005 9.71 3/11/2005 10.01 3/14/2005 10.09 3/15/2005 10.21 3/16/2005 10.24 3/17/2005 10.05 3/18/2005 9.94 3/22/2005 9.95 3/23/2005 9.91 3/28/2005 10.23 3/29/2005 10.2 3/30/2005 10.2 3/31/2005 10.35 4/1/2005 10.45 4/4/2005 10.63 4/5/2005 10.85 4/6/2005 10.78 4/7/2005 10.74 4/8/2005 10.65

4/11/2005 10.574/12/2005 10.434/13/2005 10.824/14/2005 10.744/15/2005 10.74/18/2005 10.774/19/2005 11.014/20/2005 10.64/21/2005 10.474/22/2005 10.584/25/2005 10.484/26/2005 10.184/27/2005 10.264/28/2005 10.194/29/2005 10.495/2/2005 10.555/3/2005 10.585/4/2005 10.255/5/2005 10.285/6/2005 10.265/9/2005 10.3

5/10/2005 10.275/11/2005 10.285/12/2005 10.145/13/2005 10.075/16/2005 10.015/17/2005 9.965/18/2005 9.785/19/2005 9.735/20/2005 9.655/23/2005 9.635/24/2005 9.75/25/2005 9.775/26/2005 9.585/27/2005 9.475/30/2005 9.425/31/2005 9.456/1/2005 9.426/2/2005 9.546/3/2005 9.56/6/2005 9.66/7/2005 9.486/8/2005 9.386/9/2005 9.3

6/10/2005 9.256/13/2005 9.256/14/2005 9.266/15/2005 9.156/16/2005 9.24

6/17/2005 9.26/20/2005 9.376/21/2005 9.326/22/2005 9.326/23/2005 9.256/24/2005 9.186/27/2005 9.176/28/2005 9.026/29/2005 9.146/30/2005 9.227/1/2005 9.387/4/2005 9.347/5/2005 9.387/6/2005 9.247/7/2005 9.257/8/2005 9.2

7/11/2005 9.097/12/2005 9.087/13/2005 8.877/14/2005 8.917/15/2005 8.937/18/2005 8.947/19/2005 8.987/20/2005 9.27/21/2005 9.527/22/2005 9.297/25/2005 9.467/26/2005 9.437/27/2005 9.437/28/2005 9.487/29/2005 9.398/1/2005 9.388/2/2005 9.228/3/2005 9.128/4/2005 9.278/5/2005 9.358/8/2005 9.448/9/2005 9.46

8/10/2005 9.598/11/2005 9.288/12/2005 9.398/15/2005 9.378/16/2005 9.348/17/2005 9.158/18/2005 9.298/19/2005 9.098/22/2005 8.958/23/2005 9.258/24/2005 9.21

Apéndices

106

8/25/2005 9.04 8/26/2005 8.71 8/29/2005 8.73 8/30/2005 8.71 8/31/2005 8.65 9/1/2005 8.58 9/2/2005 8.53 9/5/2005 8.53 9/6/2005 8.43 9/7/2005 8.68 9/8/2005 8.48 9/9/2005 8.31

9/12/2005 8.31 9/13/2005 8.09 9/14/2005 8.09 9/15/2005 8.37 9/19/2005 8.53 9/20/2005 8.22 9/21/2005 8.22 9/22/2005 8.27 9/23/2005 8.31 9/26/2005 8.47 9/27/2005 8.28 9/28/2005 8.24 9/29/2005 8.16 9/30/2005 8.31 10/3/2005 8.25 10/4/2005 8.18 10/5/2005 8.12 10/6/2005 8.25 10/7/2005 8.16

10/10/2005 8.16 10/11/2005 8.26 10/12/2005 8.44 10/13/2005 8.55 10/14/2005 8.55 10/17/2005 8.52 10/18/2005 8.33 10/19/2005 8.4 10/20/2005 8.42 10/21/2005 8.46 10/24/2005 8.41 10/25/2005 8.44 10/26/2005 8.41 10/27/2005 8.39 10/28/2005 8.41 10/31/2005 8.35 11/1/2005 8.34 11/2/2005 8.32

11/3/2005 8.3111/4/2005 8.3811/7/2005 8.4111/8/2005 8.3211/9/2005 8.43

11/10/2005 8.4311/11/2005 8.4111/14/2005 8.4311/15/2005 8.4311/16/2005 8.4911/17/2005 8.4511/18/2005 8.3711/21/2005 8.3311/22/2005 8.1611/23/2005 8.1111/24/2005 8.1311/25/2005 8.1311/28/2005 8.1111/29/2005 8.1611/30/2005 8.1212/1/2005 8.0912/2/2005 8.1412/5/2005 8.112/6/2005 7.9812/7/2005 7.9412/8/2005 7.9412/9/2005 7.8

12/13/2005 7.7112/14/2005 7.8812/15/2005 7.8412/16/2005 7.9812/19/2005 7.9112/20/2005 7.8612/21/2005 7.8812/22/2005 7.8112/23/2005 7.8212/26/2005 7.8212/27/2005 7.8512/28/2005 7.8112/29/2005 7.8112/30/2005 7.75

1/2/2006 7.761/3/2006 7.711/4/2006 7.641/5/2006 7.671/6/2006 7.781/9/2006 7.64

1/10/2006 7.721/11/2006 7.7

1/12/2006 7.671/13/2006 7.721/16/2006 7.651/17/2006 7.721/18/2006 7.611/19/2006 7.611/23/2006 7.491/24/2006 7.511/25/2006 7.561/26/2006 7.561/27/2006 7.491/30/2006 7.561/31/2006 7.552/1/2006 7.572/2/2006 7.732/3/2006 7.82/7/2006 7.742/8/2006 7.642/9/2006 7.66

2/10/2006 7.562/13/2006 7.772/14/2006 7.762/15/2006 7.652/16/2006 82/17/2006 8.332/20/2006 8.392/21/2006 8.362/22/2006 8.042/23/2006 7.982/24/2006 8.092/27/2006 8.062/28/2006 7.973/1/2006 7.93/2/2006 7.93/3/2006 7.863/6/2006 8.263/7/2006 7.973/8/2006 8.323/9/2006 8.27

3/10/2006 8.143/13/2006 8.433/14/2006 8.123/15/2006 7.673/16/2006 7.593/17/2006 7.593/20/2006 7.683/22/2006 7.793/23/2006 7.733/24/2006 7.88

Apéndices

107

3/27/2006 7.83 3/28/2006 8.05 3/29/2006 8.08 3/30/2006 8.03 3/31/2006 7.85 4/3/2006 8.08 4/4/2006 8.13 4/5/2006 8.11 4/6/2006 8.45 4/7/2006 8.32

4/10/2006 8.32 4/11/2006 8.21 4/12/2006 8.17 4/17/2006 8.2 4/18/2006 8.23 4/19/2006 8.26 4/20/2006 8.26 4/21/2006 8.26 4/24/2006 8.28 4/25/2006 8.28 4/26/2006 9.18 4/27/2006 9.28 4/28/2006 9.14 5/2/2006 9.1 5/3/2006 8.07 5/4/2006 8.06 5/5/2006 8.04 5/8/2006 7.95 5/9/2006 7.86

5/10/2006 7.8 5/11/2006 7.85 5/12/2006 8.07 5/15/2006 7.86 5/16/2006 7.86 5/17/2006 8.03 5/18/2006 8 5/19/2006 8 5/22/2006 8 5/23/2006 8 5/24/2006 8.41 5/25/2006 8.27 5/26/2006 8.16 5/29/2006 8.18 5/30/2006 8.23 5/31/2006 8.6 6/1/2006 8.43 6/2/2006 8.46 6/5/2006 8.42 6/6/2006 8.63

6/7/2006 8.396/8/2006 8.656/9/2006 8.46

6/12/2006 8.516/13/2006 8.856/14/2006 8.876/15/2006 8.746/16/2006 8.826/19/2006 8.846/20/2006 8.846/21/2006 8.676/22/2006 8.676/23/2006 8.386/26/2006 8.536/27/2006 8.216/28/2006 8.456/29/2006 8.426/30/2006 8.387/3/2006 8.097/4/2006 7.977/5/2006 8.427/6/2006 7.917/7/2006 7.98

7/10/2006 8.17/11/2006 87/12/2006 8.227/13/2006 8.37/14/2006 8.287/17/2006 8.177/18/2006 8.067/19/2006 9.087/20/2006 7.867/21/2006 8.47/24/2006 8.197/25/2006 8.187/26/2006 8.227/27/2006 8.197/28/2006 7.887/31/2006 7.928/1/2006 7.898/2/2006 7.848/3/2006 7.748/4/2006 7.758/7/2006 7.78/8/2006 7.638/9/2006 7.63

8/10/2006 7.718/11/2006 7.578/14/2006 7.63

8/15/2006 7.598/16/2006 7.618/17/2006 7.558/18/2006 7.518/21/2006 7.578/22/2006 7.518/23/2006 7.568/24/2006 7.528/25/2006 7.598/28/2006 7.498/29/2006 7.58/30/2006 7.458/31/2006 7.549/1/2006 7.549/4/2006 7.549/5/2006 7.539/6/2006 7.59/7/2006 7.549/8/2006 7.56

9/11/2006 7.579/12/2006 7.579/13/2006 7.459/14/2006 7.469/15/2006 7.449/18/2006 7.439/19/2006 7.439/20/2006 7.429/21/2006 7.539/22/2006 7.599/25/2006 7.669/26/2006 7.669/27/2006 7.659/28/2006 7.619/29/2006 7.5810/2/2006 7.5310/3/2006 7.5510/4/2006 7.5610/5/2006 7.5610/6/2006 7.5510/9/2006 7.61

10/10/2006 7.6610/11/2006 7.6310/12/2006 7.5810/13/2006 7.610/16/2006 7.610/17/2006 7.6310/18/2006 7.5910/19/2006 7.5610/20/2006 7.56

Apéndices

108

10/23/2006 7.54 10/24/2006 7.51 10/25/2006 7.51 10/26/2006 7.51 10/27/2006 7.41 10/30/2006 7.46 10/31/2006 7.37 11/1/2006 7.36 11/3/2006 7.33 11/6/2006 7.39 11/7/2006 7.34 11/8/2006 7.41 11/9/2006 7.36

11/10/2006 7.38 11/13/2006 7.31 11/14/2006 7.23 11/15/2006 7.23 11/16/2006 7.2 11/17/2006 7.23 11/21/2006 7.29 11/22/2006 7.27 11/23/2006 7.3 11/24/2006 7.38 11/27/2006 7.4 11/28/2006 7.47 11/29/2006 7.37 11/30/2006 7.34 12/4/2006 7.29 12/5/2006 7.16 12/6/2006 7.2 12/7/2006 7.19 12/8/2006 7.19

12/11/2006 7.16 12/13/2006 7.17 12/14/2006 7.2 12/15/2006 7.19 12/18/2006 7.2 12/19/2006 7.18 12/20/2006 7.11 12/21/2006 7.13

12/22/2006 7.1412/26/2006 7.1512/27/2006 7.2512/28/2006 7.2312/29/2006 7.24

1/2/2007 7.251/3/2007 7.181/4/2007 7.171/5/2007 7.31/8/2007 7.351/9/2007 7.39

1/10/2007 7.391/11/2007 7.431/12/2007 7.491/15/2007 7.541/16/2007 7.641/17/2007 7.661/18/2007 7.721/19/2007 7.71/22/2007 7.661/23/2007 7.761/24/2007 7.831/25/2007 7.751/26/2007 7.741/29/2007 7.871/30/2007 7.841/31/2007 7.732/1/2007 7.632/2/2007 7.662/6/2007 7.622/7/2007 7.592/8/2007 7.552/9/2007 7.59

2/12/2007 7.62/13/2007 7.532/14/2007 7.452/15/2007 7.532/16/2007 7.542/19/2007 7.512/20/2007 7.52

2/21/2007 7.522/22/2007 7.562/23/2007 7.692/26/2007 7.642/27/2007 7.742/28/2007 7.783/1/2007 7.753/2/2007 7.613/5/2007 7.593/6/2007 7.553/7/2007 7.483/8/2007 7.53/9/2007 7.54

3/12/2007 7.663/13/2007 7.623/14/2007 7.63/15/2007 7.533/16/2007 7.663/20/2007 7.533/21/2007 7.553/22/2007 7.483/23/2007 7.53/26/2007 7.553/27/2007 7.493/28/2007 7.443/29/2007 7.43/30/2007 7.354/2/2007 7.354/3/2007 7.364/4/2007 7.354/9/2007 7.35

4/10/2007 7.364/11/2007 7.364/12/2007 7.4

Documents

Pronosticos en el mercado de derivados utilizando redes ...€¦ · Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de