View
4
Download
0
Category
Preview:
Citation preview
Trabajo Final de Maestría
Pronóstico de series de tiempo con ciclo y tendencia usando redes
neuronales artificiales
Jenny Elizabeth Valencia Carmona
Ingeniera de Sistemas
Director de Tesis
Prof. Juan David Velásquez Henao, M.Sc., Ph.D.
Universidad Nacional de Colombia
Facultad Nacional de Minas
Ingeniería de Sistemas e Informática
Programa de Maestría en Ingeniería – Ingeniería de Sistemas
2016
Agradecimientos
Agradezco al profesor Juan David Velásquez por su apoyo, paciencia y valiosa
orientación durante la ejecución de este trabajo.
Resumen
El pronóstico de series de tiempo con ciclo y tendencia ha sido un problema vigente
durante las últimas décadas en la literatura, este usualmente ha sido abordado mediante
métodos clásicos como los modelos SARIMA y métodos más novedosos como las redes
neuronales artificiales. Una decisión a tomar al momento de entrenar la red es si la red
debe ser construida con los datos originales o que por el contrario, la tendencia y el ciclo
deben ser removidos previamente, por lo que el objetivo de este trabajo fue determinar
cuál de las aproximaciones es más adecuada para el pronóstico de series de tiempo con
ciclo y tendencia en términos de precisión del modelo y adicionalmente, explorar la
reproducción de las características de la serie en largo plazo en cada caso.
Para esto, se utilizaron 3 series benchmark y se encontró que el modelo con los datos
originales es capaz de pronosticar la serie de tiempo mejor que las redes a las cuales se les
ha removido el ciclo y tendencia cuando se busca pronosticar el próximo periodo. Sin
embargo, para los resultados en el largo plazo, la red con los datos originales pierde su
capacidad de continuar con los patrones que originalmente mostraban la serie y se
estabiliza, mientras que las redes sin ciclo y tendencia, aunque muestran un desempeño
inferior a corto plazo, en el largo plazo, tienen un comportamiento más cercano a los
resultados obtenidos por el modelo SARIMA que convergen al valor esperado.
Palabras claves: predicción, SARIMA, redes neuronales, series de tiempo con ciclo y
tendencia.
Contenido
1. INTRODUCCIÓN .......................................................................................................1
1.1 EL MODELO SARIMA ............................................................................................4
1.2 REDES NEURONALES ...........................................................................................5
1.3 PRONÓSTICO MÚLTIPLES PASOS ADELANTE. ............................................11
1.4 DEFINICIÓN DEL PROBLEMA ...........................................................................12
1.5 OBJETIVOS ............................................................................................................13
2. DATOS ..........................................................................................................................13
2.1 SERIE AIRLINE PASSENGER .............................................................................14
2.2 SERIE COMPANY’X SALES ...............................................................................15
2.3. SERIE JOHNSON & JOHNSON QUARTERLY EARNINGS ............................15
3. METODOLOGÍA ..........................................................................................................16
4. RESULTADOS .............................................................................................................19
4.1 SERIE AIRLINE PASSENGER .............................................................................19
4.2 SERIE COMPANY’X SALES ................................................................................23
4.3 SERIE JOHNSON & JOHNSON QUARTERLY EARNINGS .............................26
5. DISCUSIÓN ..................................................................................................................29
6. CONCLUSIONES .........................................................................................................30
6.1 EVALUACIÓN DE OBJETIVOS PROPUESTOS ................................................30
6.1.1 OBJETIVO ESPECÍFICO 1 ............................................................................30
6.1.2 OBJETIVO ESPECÍFICO 2 ............................................................................30
6.1.3 OBJETIVO ESPECÍFICO 3 .............................................................................30
6.2 APORTES ADICIONALES ...................................................................................31
BIBLIOGRAFÍA ...............................................................................................................33
Lista de tablas
Pág.
Tabla 1: Resumen de los estadísticos de ajuste para la serie Airline Passenger ............................. 20
Tabla 2: Resumen de los estadísticos de ajuste para la serie Company’X sales ........................... 23
Tabla 3: Resumen de los estadísticos de ajuste para la serie J&J Quarterly Earnings .................... 26
Lista de figuras
Pág.
FIGURA 1: Red Neuronal. ............................................................................................................... 6
FIGURA 2: Pronóstico usando el modelo SARIMA. Serie Airline ............................................... 14
FIGURA 3: Pronóstico usando el modelo SARIMA. Serie Company’X ....................................... 15
FIGURA 4: Pronóstico usando el modelo SARIMA. Serie J&J Quarterly Earnings ..................... 16
FIGURA 5: Pronóstico usando el modelo RN-O. Serie Airline Passenger .................................... 20
FIGURA 6: Pronóstico usando el modelo RN-DSDT Serie Airline Passenger .............................. 21
FIGURA 7: Pronóstico usando el modelo RN-DSDTR Serie Airline Passenger ........................... 21
FIGURA 8: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal. Serie
Airline Passenger ............................................................................................................................ 22
FIGURA 9: Pronóstico usando el modelo RN-O Serie Company’X sales. .................................... 24
FIGURA 10: Pronóstico usando el modelo RN-DSDT. Serie Company’X sales. .......................... 24
FIGURA 11 Pronóstico usando el modelo RN-DSDTR. Serie Company’X sales. ........................ 25
FIGURA 12: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal. Serie
Company’X sales. ........................................................................................................................... 26
FIGURA 13: Pronóstico usando el modelo RN-O Serie J&J Quarterly Earnings .......................... 27
FIGURA 14: Pronóstico usando el modelo RN-DSDT Serie J&J Quarterly Earnings .................. 27
FIGURA 15: Pronóstico usando el modelo RN-DSDTR. Serie J&J Quarterly Earnings. .............. 28
FIGURA 16: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal. Serie J&J
Quarterly Earnings .......................................................................................................................... 28
1
1. INTRODUCCIÓN
Decisiones tales como conocer si el mercado de acciones estará al alza o a la baja el día
de mañana, o como hacer un mejor control de los inventarios, incluso decisiones a nivel
de política social y económica, son ejemplos claros de cómo nos vemos enfrentados
diariamente a la necesidad de tomar decisiones de corto, mediano y largo plazo, teniendo
como base los datos del comportamiento que ha tenido el fenómeno en su pasado el
fenómeno que deseamos pronosticar. Este tipo de datos son conocidos como series
temporales, las cuales pueden ser definidas como una secuencia de datos medidos en un
intervalo uniforme de tiempo.
Lo anterior ha generado un amplio esfuerzo por parte de investigadores para desarrollar
cada vez modelos de pronóstico de series de tiempo más eficientes y precisos tanto en su
ajuste como en el pronóstico de valores futuros [1]. Usualmente, este tema ha sido
abordado mediante numerosas técnicas estadísticas, incluyendo media móvil,
suavizamiento exponencial y ARIMA, los cuales pronostican los valores futuros como
funciones lineales de las observaciones pasadas. Dada la gran cantidad de técnicas, se
debe contar con la capacidad y experticia del modelador para seleccionar cual es el
método más adecuado.
Muchas series de tiempo presentan variaciones estacionales y de tendencia. Existen
muchos métodos usados para analizar y pronosticar series de tiempo con estas
características; uno de los más populares es el método SARIMA (Seasonal
Autoregressive Integrated Moving Average) el cual proporciona una colección extensa de
modelos de predicción, además de ser un procedimiento más sistemático comparado con
sus predecesores. El éxito de este modelo consiste en que se dispone de varios modelos
pueden ajustar el comportamiento de diferentes tipos de series y es necesario estimar
pocos parámetros. Este análisis se basa en la suposición de que los valores que toma la
variable de observación puede ser dividida en cuatro componentes, cada uno
2
independiente de los demás: una componente irregular, una componente estacional, la
componente cíclica y la componente de tendencia.
La componente de estacionalidad se refiere a un patrón periódico y recurrente causado,
por ejemplo, por el clima o las vacaciones. La tendencia en cambio, se refiere a la
evolución de largo plazo de la serie. La descomposición de una serie en su parte de ciclo
y tendencia ha sido fundamental en los análisis y toma de decisiones, por ejemplo en el
sector económico, el proceso de descomposición ha ayudado a analizar el desempeño de
la economía, conocer cuál es el estado actual y cuál es el potencial de crecimiento
basados en la tendencia de la serie. Los ciclos, por su parte, puede ayudar a conocer los
picos y los valles, o para determinar dónde y el por qué se presentan las contracciones.
Para ampliar la información sobre los modelos más populares para predecir series con
ciclo y tendencia desde el enfoque clásico [2].
Aunque el enfoque clásico ha sido ampliamente aceptado, los modelos SARIMA
requieren cumplir con algunos supuestos que están basados en las condiciones de
estacionariedad lo que implica que, en caso de no cumplirlos, que las series deben tener
un tratamiento previo para evitar posibles resultados erróneos. Pero en el mundo real, el
comportamiento de muchas de las series de tiempo va en contraposición de estos
supuestos: una serie de tiempo con tendencia es considerada no-estacionaria, por lo que el
análisis clásico recomienda primero estacionarizar la serie para remover la tendencia y
estabilizar la varianza [3][4].
Otro problema de trabajar con esta metodología es que parte del supuesto de linealidad, a
pesar de que muchas veces los comportamientos irregulares del sistema no se ajustan a
este tipo de relación, por lo que no pueden ser modelados adecuadamente y se puede
perder información que serviría para descifrar la complejidad de las relaciones entre los
datos. Aunque durante muchos años las series de tiempo han sido un tema central de la
investigación estadística, el tema de series de tiempo no lineales es todavía un área en
desarrollo y durante las últimas décadas, un número significativo de modelos de series de
tiempo no lineales se han venido desarrollando como respuesta a los inconvenientes que
este tipo de aproximaciones lineales han dado cuando se aplican a situaciones reales [5].
3
Por ejemplo, los métodos lineales de descomposición ignoran la interacción entre los
componentes de ciclo y tendencia, pero existen series de tiempo complejas que pueden
incluir tendencias estocásticas y determinísticas, aunque hay una gran variedad de
métodos estadísticos desarrollados para identificar dependencias lineales, no ha pasado
así con las tendencias no lineales. Una discusión más general sobre la problemática
vigente en la predicción con modelos no lineales es presentada por [1][5][6]
Un tipo de modelo no lineal usado para pronóstico de series de tiempo son las redes
neuronales, estas están caracterizadas por su gran versatilidad y flexibilidad, por lo que
han surgido como alternativa en numerosos escenarios. Las redes neuronales tienen la
capacidad para representar tanto funciones lineales como funciones no-lineales
complejas, de aprender, re-aprender y de generalizar el conocimiento adquirido. Entre
estas, la más populares son las redes perceptrón multicapa, las cuales son conocidas por
ser “aproximadores universales”.
Dada su naturaleza de aproximador universal, se esperaría que pudieran ser usadas
directamente para modelar las variaciones de ciclo y tendencia en las series de tiempo. A
pesar de esto, no existe un acuerdo de como modelar series con ciclo y tendencia con
redes neuronales [7]. Las investigaciones sobre el tema usualmente se han centrado en 3
estrategias: usar los datos originales antes de entrenar la red, preprocesar los datos
eliminando ciclo y tendencia, o usar modelos híbridos en los cuales se aproveche lo mejor
de cada modelo.
En comparación con el estudio de series de tiempo lineal, el desarrollo del análisis de
series de tiempo no lineal con redes neuronales está en sus inicios. Aunque las
propiedades de estos modelos han sido ampliamente estudiadas, existen problemas como
la selección de las entradas, la estimación de los parámetros, la interpretación de los
resultados, lo que ha llevado a resultados mixtos, por lo que no existe un consenso de
cuál es el método más apropiado[8].
4
1.1 EL MODELO SARIMA
Box y Jenkins desarrollaron un práctico acercamiento para los modelos SARIMA que
tuvo un impacto dominante durante mucho tiempo en el análisis de series de tiempo y su
aplicación en la predicción. En una serie estacional existen 2 tipos de variaciones: La
primera es entre observaciones consecutivas, la segunda, son las variaciones entre
observaciones de la misma estación que pueden estar altamente correlacionadas, lo cual
es la principal propiedad de las series de tiempo que se usa en la identificación del
modelo [9]. Box y Jenkins propusieron utilizar la función de autocorrelación (ACF) y la
función autocorrelación parcial (FAP) de los datos de la muestra como las herramientas
básicas para identificar el orden del modelo.
En los modelos SARIMA (p, d, q) (P, D, Q) s, los parametros p, d, q indica las órdenes
del modelo para las componentes de corto plazo, y P, D, Q indica el modelo para las
componentes estacionales. Los modelos ARIMA estacionales requieren que los datos
sean diferenciados estacionalmente para alcanzar la condición de estacionariedad [10]. La
práctica de este ajuste estacional se hace debido a que se cree que las fluctuaciones
estacionales pueden dominar las demás variaciones en la serie de tiempo causando
dificultad en medir efectivamente las otras componentes de la serie de tiempo.
La ecuación del modelo SARIMA está dada por:
𝝓𝒑(𝑩)𝚽𝑷(𝑩𝒔 )(𝟏 − 𝑩)𝒅(𝟏 − 𝑩𝒔)𝑫𝒚 𝒕 = 𝜽𝒒 (𝑩)𝚯𝑸 (𝑩𝒔)𝜺𝒕
Con
𝝓𝒑(𝑩) = 𝟏 − 𝝓𝟏𝑩 − 𝝓𝟐𝑩𝟐 − ⋯ − 𝝓𝒑𝑩𝒑,
𝚽𝑷(𝑩) = 𝟏 − 𝚽𝒔𝑩𝒔 − 𝚽𝟐𝒔𝑩𝟐𝒔 − ⋯ − 𝚽𝑷𝒔𝑩𝑷𝒔,
𝞠𝒒(𝑩) = 𝟏 − 𝞠𝟏𝑩 − 𝞠𝟐𝑩𝟐 − ⋯ − 𝞠𝒒𝑩𝒒,
𝚯𝑸(𝑩) = 𝟏 − 𝚯𝒔𝑩𝒔 − 𝚯𝟐𝒔𝑩𝟐𝒔 − ⋯ − 𝚯𝑸𝒔𝑩𝑸𝒔,
Los coeficientes 1, Ф1, θ1, and 1 deben ser estimados a partir de los datos, y luego la
ecuación puede ser usada para pronósticos. Luego de estimar los parametros, se debe
hacer pruebas de bondad de ajuste sobre los residuales estimados: los errores aleatorios
deben estar distribuidos idéntica e independientemente con media cero y varianza
5
constante. Finalmente se debe hacer la predicción de salidas futuras basados en datos
conocidos [11].
Los pasos anteriores son repetidos varias veces hasta que un modelo satisfactorio es
seleccionado. En la actualidad, la mayoría de los paquetes de software estadísticos usan
los algoritmos para seleccionar automáticamente la forma apropiada de un modelo
SARIMA. Este enfoque automático ha mostrado mejores resultados comparado con la
identificación manual de los modelos dado que la identificación manual requiere
experiencia por lo que anteriormente, la selección del modelo dependía en gran parte del
juicio del investigador.
1.2 REDES NEURONALES
Las redes neuronales han sido usadas ampliamente durante las dos últimas décadas,
prueba de ello es el creciente número de artículos publicados sobre el tema. Tkáč y
Verner [12], hacen un revisión de un total de 412 artículos publicados entre 1994 y 2015
sobre el uso de las redes neuronales en los negocios y concluye que hace falta el
desarrollo de bases formales y habilidades explicativas en las redes neuronales, por lo que
recomienda centrarse en desarrollar pautas universales y metodologías generales para
temas como: selección de las variables, número de capas ocultas y el diseño en general de
la topología. Pero a pesar de estos inconvenientes, reconoce que el potencial de este tema
continuará, dada la mayor disponibilidad de los datos y el aumento del software
especializado.
El modelo más usado para pronóstico de series de tiempo con redes neuronales es el
Perceptrón Multicapa. Las redes neuronales basadas en el Perceptrón multicapa han sido
capaces de demostrar que se comportan como un aproximador universal de funciones
[13] y de ser un buen competidor frente a los métodos tradicionales de series de tiempo
[14][15].
Un perceptrón está compuesto por 3 capas, una de entrada, que contiene las
observaciones pasadas, la de salida que tiene los valores pronosticados. Los nodos
6
ocultos contienen funciones de transferencia no lineales y son usados para procesar la
información que recibe de los nodos de entrada.
FIGURA 1: Red Neuronal.
El modelo de redes neuronales para series de tiempo tiene la siguiente forma general.
𝑌𝑡 = 𝑓(𝑌𝑡−1, 𝑌𝑡−2 , … 𝑌𝑡−𝑝) + 𝑒𝑡 (1.1)
𝑦𝑡 = 𝑤0 + ∑ 𝑤𝑗𝑄𝑗=1 𝑔(𝑤0𝑗 + ∑ 𝑤𝑖,𝑗
𝑃𝑗=1 𝑦𝑡−𝑖) + 𝑒𝑡 (1.2)
Dentro de las dificultades presentes al hacer pronoscitcos con series de tiempo se
encuentran la selección las entradas y los rezagos que harán parte de las entradas. Este
es un reto en especial cuando no se tiene un conocimiento sobre el tema. La mayoría
de métodos establecidos se concentran en métodos lineales. El objetivo es seleccionar
las variables que si sean relevantes logrando un modelo simple. Esto es especial en las
series de tiempo con ciclo y tendencia dado que es necesario que la red capture, el
ciclo, la tendencia y el comportamiento determinístico en los rezagos de las variables.
Existen técnicas de análisis visual, pero estás pueden fallar cuando hay interacciones
complejas [16].
7
Otro de los inconvenientes en la utilización de redes neuronales es la elección de cada
elemento de la arquitectura de red [17]. Aunque en la teoría, las redes neuronales
deberían ser capaces de aproximar cualquier función continua, el diseño de la red implica
seleccionar una gran cantidad de parametros, lo cual hace de esto una tarea no trivial y se
vuelve un proceso de prueba y error, para lo que es fundamental: tiempo, paciencia y
recursos para experimentar [18][19].
Existen múltiples sugerencias establecidas en la literatura para seleccionar estos
elementos basados principalmente en el análisis de cada serie de tiempo, obteniéndose
buenos resultados. En general, se reconocen tres perspectivas para modelos de redes
neuronales que busquen pronosticar series de tiempo que tengan ciclo y tendencia [20]:
La primera perspectiva hace referencia a pronosticar usando la serie original sin ningún
tipo de transformación. Aunque la serie igualmente puede ser transformada, no se
eliminan ni el ciclo, ni la tendencia. Básicamente el argumento de estos autores es que
las redes neuronales debido a sus características, son capaces de capturar los efectos de
ciclo y tendencia de los datos sin necesidad de que estos sean removidos previamente.
Sharda y Patil [21] presentan un análisis comparativo entre una red neuronal y un modelo
de Box-Jenkins. Los resultados encontrados muestran que una red neuronal puede
predecir tan bien como el sistema Box-Jenkins y no encuentra diferencias significativas
entre ambos. También encontró que la periodicidad de la serie no afecta el desempeño de
la técnica usada y que la red es capaz de incorporar la estacionalidad de manera
automática al modelo.
Alon, Qi, y Sadowski [22] demuestran las ventajas del uso de redes neuronales sobre
métodos estadísticos tradicionales (suavizamiento exponencial, Box-Jenkins, Regresión
Multivariada), llegando a la conclusión que las redes son capaces de capturar tendencias
no lineales y patrones estacionales así como las interacciones entre ellas; los resultados
encontrados fueron que en promedio, las redes neuronales son mejores en relación a los
otros modelos y que la red está en capacidad de capturar los patrones de estacionalidad y
tendencia de dinámica no lineal.
8
Hamzaçebi [23] propone un modelo SANN, que busca mejorar el desempeño de
predicción de series de tiempo del modelo ANN; los resultados del autor sugieren que el
entrenamiento de la estructura estacional en series de tiempo con redes neuronales puede
ser exitoso sin remover los efectos estacionales de los datos y que este modelo debe ser
usado en series de tiempo que incluyan fuerte estacionalidad y en caso que sea débil,
otros tipos de estructura podrían ser más adecuados.
Franses y Draisma [24] argumentan no solo que las redes están en capacidad de trabajar
directamente con datos con ciclo y tendencia, sino que, incluso las redes son capaces de
detectar posibles cambios en el patrón estacional.
Benkachcha, Benhra y El [25] llegan a la conclusión que las redes neuronales llevan a
resultados casi similares con o sin descomposición de la serie original y sugieren que
teniendo en cuenta el factor costo y eficiencia, dado que solo se necesitaría el valor
histórico de la variable a predecir, debería preferirse este último.
Wang,Yu, Tang y Wang [26] descomponen la serie de tiempo y usan una red neuronal
para predecir sus componentes, ciclo, tendencia, y error, de manera independiente, el
resultado final de predicción es la combinación de los tres componentes.
Ansuj, Camargoy y Radharamanan [27] compara un modelo de redes neuronales con un
modelo ARIMA con intervenciones, encontrando que el pronóstico realizado con la red
neuronal es más preciso que el modelo ARIMA. Dado que la serie presentaba una alta
estacionalidad, en lugar de eliminar los componentes de ciclo y tendencia, utilizan 12
unidades binarias para determinar el peso relativo de cada mes en la red dejando que sea
la red la que reconozca el patrón.
Alon, Qi y Sadowski [28] comparan las redes neuronales con modelos tradicionales
obteniendo como resultado que las redes pronostican mejor que los métodos tradicionales
ya que capturan la tendencia no lineal y los patrones estacionales, así como las
interacciones entre ellos, esto último no sería posible si se usará Box-Jenkins debido a su
naturaleza lineal y su metodología basada en la descomposición. Recomienda que el uso
de las redes pueden ser mejores cuando las condiciones económicas son relativamente
9
volátiles, si por el contrario, las condiciones son estables, Box y Jenkins o Winters
podrían ser una mejor opción.
Adhikari y Agrawal [29], concluyen que los ajustes de ciclo y tendencia no solo no son
necesarios, sino que pueden ser inconvenientes dado que pueden provocar propiedades no
lineales en la serie si originalmente era lineal e incrementar la complejidad del modelo. El
autor encuentra que las redes ofrecen buenos resultados y que mejoran significativamente
los resultados de los métodos estadísticos tradicionales sin necesidad de
preprocesamiento.
En la segunda perspectiva, otros autores, por el contrario, argumentan que las redes
neuronales son incapaces de manejar efectos estacionales y de tendencia en la estructura
de los datos porque se cree que estas fluctuaciones podrían hacer que la red se concentre
en dichos componentes, en lugar de otras variaciones determinísticas de la serie, lo que
causaría dificultades en su entrenamiento y en la calidad del pronóstico [30]. Por lo tanto
sugieren remover explícitamente el ciclo y la tendencia encontrando así mejores
resultados. Esta perspectiva es similar al enfoque tradicional de la diferenciación simple
y estacional que se hace con los modelos SARIMA.
Chu y Zhang [30] analizan los resultados de modelos de pronóstico lineales y no lineales
para series con fuertes fluctuaciones estacionales encontrando que un ajuste a priori de la
estacionalidad de los datos puede mejorar significativamente el desempeño de la red
neuronal.
Nelson y Hill [31] [32] encuentran que cuando hay estacionalidad en la serie, la
predicción con redes con datos desestacionalizados son significativamente mas precisas
que cuando no.
M. Zhang y Qi [33] investigan como modelar series con patrones de ciclo y tendencia
estudiando la efectividad de hacer un preprocesamiento a los datos, quitando ciclo y
tendencia, Luego los compara con los resultados obtenidos por el modelo estacional de
Box-Jenkins y encuentra que las redes no están en capacidad por si solas de capturar los
10
cambios en la tendencia y el ciclo efectivamente y que una combinación de preprocesar
los datos puede reducir significativamente el error.
Zhang y Kline [34] realizan preprocesado de datos como desestacionalización y
eliminación de tendencia buscando modelos más simples, y más útiles para mejorar el
desempeño de una red.
La tercera perspectiva es la de proponer la modelos híbridos entre modelos ARIMA y
redes neuronales. Con esto se busca combinar lo mejor de ambos enfoques.
Khashei y Bijari [35] encuentran resultados empíricos que sugieren que la combinación
de diferentes modelos puede ser una forma eficaz de mejorar el rendimiento predictivo de
cada modelo individual. Recomiendan el uso de modelos con marcadas diferencias para
crear técnicas híbridas que sean capaces de capturar las componentes lineales y las
componentes no lineales. Varias investigaciones en la literatura han demostrado que estos
modelos pueden superar a los modelos individuales.
Zhang [36] da tres razones por las cuales recomienda usar modelos híbridos: La primera,
es que es difícil determinar si la serie es generada por una relación lineal o no. La
segunda razón es que raramente una serie es puramente lineal o no lineal y la tercera es
que los diferentes análisis han demostrado que no existe un método que por sí solo sea
adecuado a todas las situaciones y en varios casos los resultados híbridos han mostrado
mejores resultados que los que usan un método único.
Zhang [37] da un ejemplo de un modelo híbrido que consta de un modelo ARIMA para
analizar la parte lineal del problema, luego, usa una red neuronal para modelar los
residuales del modelo ARIMA, los cuales pueden contener información de no linealidad
y servirán para ser usados como predictores del termino de error del modelo ARIMA.
Aladag, Egrioglu, y Kadilar [38] combinan redes neuronales recurrentes de Elman
(ERNN) y modelos ARIMA. Pai y Lin [39] utiliza un modelo ARIMA y un modelo de
máquinas de vectores de soporte (SVMS) para el caso particular de precios de acciones.
Tseng [40] proponen una metodología basada en la combinación de la predicción de un
11
modelo lineal autorregresivo generalizado SARIMA que captura la componente lineal de
los datos y luego, aplican una red neuronal artificial tipo perceptrón multicapa que recibe
como entradas los pronósticos y los residuos del modelo SARIMA logrando combinar la
capacidad del modelo SARIMA y la de las redes de reducir los residuales.
Zou, Xia, Yang y Wang [41] proponen el uso de la técnica de combinación de
pronósticos, la cual es usada para la predicción de una red neuronal artificial y un
modelo ARIMA.
Štěpnička, Cortez, Donate y Štěpničková,[42] introduce una nueva combinación híbrida
durante 3 horizontes de tiempo y la compara con el popular método ARIMA.
Ruiz, Turias, y Jimenez[43] combina SARIMA y redes neuronales. El modelo SARIMA
es usado para capturar los patrones estacionales y lineales, luego la red es usada para
reconocer los patrones no lineales ocultos en la serie de tiempo usando los datos
preprocesados de SARIMA. El modelo hibrido es llamado ARIMA–ANN. También
permite combinar estimaciones que vengan de diferentes horizontes de tiempo.
1.3 PRONÓSTICO MÚLTIPLES PASOS ADELANTE.
Adicional al problema de cómo debe ser manejado el ciclo y la tendencia en el proceso de
entrenamiento de la red, existe otra inquietud cuando se trata de hacer pronósticos de
series de tiempo con redes neuronales. Usualmente, los estudios sobre este tema se han
desarrollado pronosticando uno o pocos pasos adelante, pero en el mundo real, la
necesidad de pronóstico puede ser tanto de corto como de mediano y largo plazo. En el
caso del corto y mediano plazo, los datos pueden mostrar una inercia que permite
extrapolar el comportamiento pasado del fenómeno hacia el futuro cercano asumiendo
que no existirá ningún cambio externo dramático y lograr un pronóstico aceptable, pero
pronosticar muchos pasos adelantes incremente el nivel de incertidumbre.
El pronóstico de múltiples pasos adelantes o múltiperiodo es una de las cuestiones
metodológicas que ha recibido poca atención en el pronóstico de series de tiempo debido
12
a las dificultades y desafíos que representan. Este tipo de pronósticos presentan además el
problema de la elección entre el método iterado: usar un modelo general de un paso, para
generar de forma iterativa los pronósticos o el usar un método directo en el cual se calcula
directamente el valor futuro para cada horizonte de proyección [44] . En la literatura de la
redes neuronales, se han reportado resultados mixtos: Zhang recomienda el uso del
método directo [20]; igualmente, para Nguyen & Chan [45] la exactitud de un modelo de
red neural puede verse comprometida cuando se utiliza de forma recursiva para hacer
predicciones de varios pasos a largo plazo por lo que recomienda también el uso de un
método directo.
1.4 DEFINICIÓN DEL PROBLEMA
Como se puede apreciar en el estado del arte, no existe una metodología aceptada de
manera general por los investigadores cuando se trabaja con series de tiempo con ciclo y
tendencia, sino que la elección de esta depende del conocimiento y la experticia que el
pronosticador tenga sobre los datos. Analizando los diferentes acercamientos que se han
dado el tema se encuentran que usualmente se emplean diferentes tipos de datos y
diferente número de corridas y adicionalmente, hasta el momento no se ha analizado
cuales son los resultados de los modelos cuando se pronostica a largo plazo, en el cual el
nivel de incertidumbre crece.
Esto tópico resulta interesante de analizar dado que, aunque la estimación de las variables
a corto plazo puede ser satisfactoria, a largo plazo estos resultados pueden ser menos
precisos. Esto puede deberse a varias razones, una de ellas son los posibles cambios
externos al modelo que pueden darse con el tiempo, la otra es que el modelo como tal no
sea el más adecuado para manejar los cambios debidos a los ciclos o tendencia y la otra
puede deberse a la propagación de los errores a través de los periodos analizados.
Se sabe que a largo plazo, los modelos SARIMA convergen al valor esperado pero no es
tan claro a que comportamiento convergerá una red neuronal y surge adicionalmente la
inquietud de cuál sería el comportamiento deseado. Dado que el modelo SARIMA
considera como entradas los errores pasados y las versiones no lineales en cambio,
13
consideran como entradas las observaciones pasadas, no es posible usar las herramientas
estadísticas tradicionales de manera equivalente cuando se trabajan con redes neuronales
y no se encuentra en la literatura el análisis equivalente de cómo calcular la parte del
estado estable en el caso de una red neuronal.
1.5 OBJETIVOS
El objetivo general de este trabajo es:
Determinar cuál de las aproximaciones presentadas en la literatura es más adecuada para
el pronóstico de series de tiempo que presentan tendencia y ciclo en términos de precisión
del modelo y de reproducción de las características de largo plazo de la serie estudiada.
Los objetivos específicos son los siguientes:
Aplicar los tres tipos de metodologías al pronóstico de, al menos, tres series de
tiempo con ciclo y patrón estacional.
Comparar la precisión de los pronósticos un paso adelante y varios pasos adelante.
Determinar si el comportamiento de largo plazo de los modelos utilizados
reproduce las características de las series de tiempo pronosticadas.
2. DATOS
En este trabajo se analizará el comportamiento de largo plazo de pronóstico de las redes
neuronales artificiales usando series de tiempo con y sin la remoción de ciclo y
tendencia.
Para dar solución a esto, se seleccionaron 3 series de datos: Airline, Company’X sales y
J&J; cada una con ciclo y tendencia. Las implementaciones fueron realizadas en
Matlab®.
A continuación se listan los detalles de las series seleccionadas:
14
2.1 SERIE AIRLINE PASSENGER
Esta serie ha sido ampliamente analizada por varios investigadores. [47] [52], [53], [54].
Cuenta claramente con tendencia creciente y un ciclo estacional, en total son 144
observaciones mensuales a partir de Enero de 1949 a Diciembre de 1960. Se utilizaron las
primeras 132 observaciones para la estimación del modelo y las siguientes 12 para validar
el pronóstico. La serie es transformada usando logaritmo natural con el fin de disminuir el
efecto que tienen los valores extremos.
FIGURA 2: Pronóstico usando el modelo SARIMA. Serie Airline
Ecuación: (0, 1, 1) × (0, 1,1)12 (2.4)
El modelo identificado por Box y Jenkins corresponde a:
(1-B12)(1-B) yt= (1-θ1B) (1-θ1,12B12)et,
con los parámetros: θ1= 0,5777 y θ1, 12= 0,3266
4,0
4,5
5,0
5,5
6,0
6,5
7,0
7,5
ene.-49 sep.-51 jun.-54 mar.-57 dic.-59 sep.-62 jun.-65 mar.-68
LN(y) Pronóstico
15
2.2 SERIE COMPANY’X SALES
Esta serie corresponde a las ventas de un producto no identificado, está tomado de
Chatfield and Prothero[53]. En total son 272 datos de 1965-1 a 1971-5. Se usan 260 datos
para entrenar la red y el resto es usado para validar el modelo. Como en la serie anterior,
la serie es transformada previamente usando la función logaritmo.
FIGURA 3: Pronóstico usando el modelo SARIMA. Serie Company’X
2.3. SERIE JOHNSON & JOHNSON QUARTERLY EARNINGS
Esta serie corresponde a las ganancias trimestrales por acciones para la compañía
estadounidense Johnson & Johnson, proporcionada por el profesor Paul Griffin [55] [56].
Son 84 trimestres (21 años) medidos desde el primer trimestre de 1960 al último trimestre
de 1980, de las cuales las últimas doce se usaron para la validación del modelo.
3,5
4,5
5,5
6,5
7,5
8,5
9,5
10,5
11,5
ene.-65 sep.-67 jun.-70 mar.-73 dic.-75 sep.-78
LN(y) Pronóstico
16
FIGURA 4: Pronóstico usando el modelo SARIMA. Serie J&J Quarterly Earnings
La ecuación del modelo ajustado es:
(1-B)(1-B4) yt = (1-0,678B) (1-0,314B4) at, (2.5)
3. METODOLOGÍA
En este trabajo se desea comparar el pronóstico de largo plazo de un modelo SARIMA
con el pronóstico de largo plazo de redes neuronales. Para alcanzar este objetivo, en
general, se seguirán los siguientes pasos:
1. Se construirán pronósticos con el modelo SARIMA, este modelo ha sido ampliamente
usado en la literatura en los casos en que las series tengan ciclo y tendencia.
2. Se construirán pronósticos con el modelo de red neuronal sin remover el ciclo y la
tendencia.
3. Se construirán pronósticos removiendo el ciclo y tendencia. En este paso se tendrán en
cuenta tanto redes neuronales regularizadas como no regularizadas para comparar los
resultados.
-1,5
-0,5
0,5
1,5
2,5
3,5
4,5
ene.-49 may.-50 sep.-51 feb.-53 jun.-54 nov.-55 mar.-57 ago.-58
LN(y) Pronóstico
17
Para los pasos 2 y 3 será necesario entonces el entrenamiento de redes neuronales. Tao, y
Chew [46] considera el entrenamiento de una red neuronal como un arte. Esto significa
que no hay un procedimiento específicos para conseguir la mejor red, se parte de una red
inicial, y probando diversas arquitecturas, es que puede obtenerse una red que cumpla las
expectativas del modelador.
El primer paso que sugiere Tao, y Chew [46] es preprocesar los datos, esto puede incluir
en los casos que fuera necesario, utilizar la normalización de los datos ([0,1]):
𝑥𝑡∗ = (𝑥𝑡 − 𝑥𝑚𝑖𝑛)/(𝑥𝑚𝑎𝑥 − 𝑚𝑖𝑛) (2.1)
También en este paso se harán transformaciones, aplicando logaritmo natural sobre los
datos, esto con el fin de estabilizar la variación, dado que por ejemplo, en muchas series
económicas, la variabilidad de las observaciones puede cambiar a través del tiempo. Este
tipo de transformaciones también suelen usarse en general para minimizar los efectos que
tienen los valores extremos. Se ha demostrado que esto logra una más rápida conversión
y por lo tanto un mejor entrenamiento [47].
Se dividirá la información de entrada y salida en base al número de observaciones, para
determinar qué porción de la misma se utiliza para entrenar y validar la red. Los rezagos
escogidos serán los mismos seleccionados en el modelo SARIMA para cada serie
benchmark seleccionada, debido a que se quiere aprovechar la naturaleza auto
correlacionada de los datos de las series de tiempo.
La arquitectura de red seleccionada será la red NAR, esta red, es una de los más usadas
dentro del módulo de redes neuronales de Matlab® para el pronóstico de series de tiempo
univariante. Es un tipo de perceptrón multicapa, con una capa oculta y una capa de salida,
para la cual es necesario definir los parámetros de rezagos, el número de capas ocultas y
la función de entrenamiento. El enfoque más usado para seleccionar el número óptimo de
nodos ocultos es vía ensayo y error [20]. En nuestro trabajo se realizarán entrenamientos
con 1, 2 y 3 neuronas ocultas para cada tipo de red.
18
La función de entrenamiento elegida será la función: trainlm, esta es la función de
retropropagación de Levenberg-Marquardt. El término retropropagación se refiere a la
forma en que el gradiente de la función de transferencia es calculado para redes
neuronales feedforward[48]. Este algoritmo se considera el más eficiente para redes de
tamaño moderado: el algoritmo Levenberg-Marquardt entrena una red neuronal de 10 a
100 veces más rápido que el usual método de gradiente descendente [49]. En particular
este algoritmo estima una taza de aprendizaje en cada dirección del gradiente usando la
matriz Hussian[50]. El entrenamiento de la red involucra un ajuste de los pesos
comparando la salida deseada con la respuesta de la red, de manera que se minimice el
error. La función de transferencia utilizada en la capa oculta de este tipo de red será la
sigmoidal, pues al ser un modelo no lineal, esta debe ser estrictamente monótona, acotada
y diferenciable. Para el caso de la capa de salida, la función de transferencia usada será
lineal.
El indicador de desempeño elegido para esta red será medido por la función por defecto
MSE, o error cuadrático medio.
𝑀𝑆𝐸 = 1
𝑁 ∑(𝑒𝑖)
2 (2.2)
Los otros elementos manipulables para la modelación como lo son los pesos de conexión
entre las neuronas no serán definidos ya que al depender de la interconexión entre ellas,
esto se puede volver muy complejo y dada la capacidad de aprendizaje de las redes, es
mejor dejar que los pesos de conexión se calculen por sí mismos.
Una tercera red, en la cual, al igual que la anterior, se le remueve ciclo y tendencia
previamente, pero en este caso es ajustada usando regularización, esto con el fin de
mejorar la generalización. La regularización consiste en modificar la función de
desempeño (MSE), que es la suma de los cuadrados de la media. Se añade un término que
consiste en la suma de la media de los cuadrados de los pesos de la red y bias [51].
19
msereg = γmse + (1 − γ) msw, (2.3)
donde γ es el radio.
Con el uso de esta función se logra tener pesos y bias más pequeños y obliga a la red a
tener respuestas más suaves lo que evita el sobreajuste. Matlab® cuenta con una función
de regularización automática: trainbr con la que se logra ajustar un valor al parámetro
radio óptimo.
Una vez entrenada, validada y comprobada cada una de las redes, se analizarán los
resultados para obtener un mejor resultado. Finalmente, los resultados de los modelos de
redes neuronales se compararan con el modelo SARIMA según la predicción realizada
con las ecuaciones ajustadas.
4. RESULTADOS
En esta sección se presentan las predicciones logradas mediante el modelo SARIMA y el
modelo de redes neuronales según la metodología explicada en el capítulo anterior.
4.1 SERIE AIRLINE PASSENGER
Los resultados de los ajustes de los diferentes modelos para la serie Airline son resumidos
en la Tabla 1. Nótese que cuando la red fue entrenada se logra un mejor resultado sobre el
estadístico de ajuste elegido (MSE) sobre los datos de entrenamiento con la red RNDSDT
H2 superando el modelo SARIMA. En el caso de la validación, RNO H2 es el modelo con
mejor desempeño, aunque en este caso, el mejor modelo corresponde a un modelo
entrenado con los datos originales.
20
Tabla 1: Resumen de los estadísticos de ajuste para la serie Airline Passenger
Modelo Entrenamiento (MSE) Validación(MSE)
SARIMA 0,00135 0,00176
RN Datos Originales
RNO H1 0,00169 0,00245
RNO H2 0,00173 0,00152*
RNO H3 0,00167 0,00219
RN Datos sin ciclo ni tendencia
RNDSDT H1 0,00151 0,00278
RNDSDT H2 0,00133* 0,00258
RNDSDT H3 0,00156 0,00264
Datos sin ciclo ni tendencia-Regularizada
RNDSDTR H1 0,00144 0,00230
RNDSDTR H2 0,00137 0,00218
RNDSDTR H3 0,00137 0,00243
Otro aspecto a considerar, son los resultados del pronóstico de la serie en el largo plazo,
presentados en la FIGURA 5, en el caso de la serie entrenada con los datos originales, en
el largo plazo la serie tiende a tomar un comportamiento asintótico, perdiendo el patrón
de ciclo y tendencia original.
FIGURA 5: Pronóstico usando el modelo RN-O. Serie Airline Passenger
4,0
4,5
5,0
5,5
6,0
6,5
7,0
7,5
ene.-49 sep.-51 jun.-54 mar.-57 dic.-59 sep.-62 jun.-65 mar.-68
LN(y) Pronóstico
21
En el caso de la red ajustada eliminando el ciclo y la tendencia, a largo plazo el patrón de
ciclo continúa, sin embargo, la tendencia cambia y comienza a presentar una forma
cóncava.
FIGURA 6: Pronóstico usando el modelo RN-DSDT Serie Airline Passenger
Debido a los resultados anteriores, se optó por proponer un cambio en el algoritmo de la
red, utilizando redes regularizadas. Con la aplicación de este cambio, el pronóstico de la
red en el largo plazo parece conservar mejor el patrón de tendencia, que se perdía cuando
la red no era regularizada.
FIGURA 7: Pronóstico usando el modelo RN-DSDTR Serie Airline Passenger
4,0
4,5
5,0
5,5
6,0
6,5
7,0
7,5
ene.-49 sep.-51 jun.-54 mar.-57 dic.-59 sep.-62 jun.-65 mar.-68
LN(y) Pronóstico
4,0
4,5
5,0
5,5
6,0
6,5
7,0
7,5
ene.-49 sep.-51 jun.-54 mar.-57 dic.-59 sep.-62 jun.-65 mar.-68
LN(y) Pronóstico
22
Para un mejor análisis de los resultados obtenidos con cada uno de los modelos
mencionados, se generó una gráfica que está compuesta, en el eje x, por los pronósticos
en el largo plazo para el modelo SARIMA, y en el eje y, correspondiente a los
pronósticos realizados con los tres modelos de redes propuestos. Se grafica
adicionalmente una línea de 45 ° que permita visualizar la diferencia en los pronósticos
del modelo SARIMA con los modelos de redes neuronales.
El análisis grafico de comparar el primero modelo de red, sin eliminar ciclo y tendencia,
muestra que a medida que se hace mayor t deja de seguir el patrón que originalmente
compartía con el pronóstico de la serie hecho por el modelo SARIMA teniendo una clara
separación de la línea de 45°. El segundo modelo, para el cual el ciclo y la tendencia fue
eliminado, se ubica en la parte superior de la línea de 45°, pero igualmente conserva la
tendencia de dicha línea así como el tercer modelo de red regularizado, ubicado en la
parte inferior de la línea.
FIGURA 8: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal.
Serie Airline Passenger
6,0
6,2
6,4
6,6
6,8
7,0
7,2
7,4
6,0 6,2 6,4 6,6 6,8 7,0 7,2
RNO RNDSDT RNDSDTR
23
4.2 SERIE COMPANY’X SALES
Para la serie correspondiente a las ventas de la compañía X, los resultados son resumidos
en la Tabla 2. A diferencia de la serie airline, cuando la red fue entrenada se logra un
mejor resultado sobre el estadístico de ajuste elegido (MSE) sobre los datos de
entrenamiento originales: la red RNO H2, superando ampliamente al modelo SARIMA. En
el caso de la validación, RNO H2 es el modelo con mejor desempeño, también con los
datos originales, tal y como sucedió con los resultados de los estadísticos de ajustes para
la serie Airline.
Tabla 2: Resumen de los estadísticos de ajuste para la serie Company’X sales
Modelo Entrenamiento (MSE) Validación(MSE)
SARIMA 0,05239 0,02549
Datos Originales
RNO H1 0,04970 0,07197
RNO H2 0,00146* 0,00213*
RNO H3 0,08800 0,04990
Datos sin ciclo ni tendencia
RNDSDT H1 0,06636 0,08261
RNDSDT H2 0,05578 0,07813
RNDSDT H3 0,06474 0,08673
Datos sin ciclo ni tendencia-Regularizada
RNDSDTR H1 0,04381 0,04512
RNDSDTR H2 0,04709 0,05140
RNDSDTR H3 0,05091 0,05331
Nuevamente, la FIGURA 8 nos muestra un comportamiento, del pronóstico realizado con
la red neuronal con los datos originales, en el cual en el largo plazo, la serie pierde su
forma, pese a ser esta la red que mejor desempeño tuvo en el corto plazo.
24
FIGURA 9: Pronóstico usando el modelo RN-O Serie Company’X sales.
La FIGURA 9, en la cual se usaron los datos sin ciclo y tendencia, muestra un cambio en
el patrón de la tendencia, tomando una forma cóncava, tal y como se vio con la serie
airline.
FIGURA 10: Pronóstico usando el modelo RN-DSDT. Serie Company’X sales.
3,5
4,5
5,5
6,5
7,5
8,5
9,5
10,5
ene.-65 sep.-67 jun.-70 mar.-73 dic.-75 sep.-78
LN(y) Pronóstico
3,5
4,5
5,5
6,5
7,5
8,5
9,5
10,5
ene.-65 sep.-67 jun.-70 mar.-73 dic.-75 sep.-78
LN(y) Pronóstico
25
La FIGURA 10, muestra el pronóstico de largo plazo de la serie de las ventas de la
compañía X, cuando los pesos de la red son regularizados. Los resultados siguen
mostrando que la tendencia se memoriza mejor cuando se usa este método.
FIGURA 11 Pronóstico usando el modelo RN-DSDTR. Serie Company’X sales.
Para la serie Company’X sales, el análisis grafico de comparar el primero modelo de red,
sin eliminar ciclo y tendencia, muestra, tal como en el caso de la serie Airline, que a
medida que se hace mayor t deja de seguir el patrón que originalmente compartía con el
pronóstico de la serie hecho por el modelo SARIMA. Los pronósticos de los modelos de
red, sin ciclo y tendencia, tanto el regularizado como el que no, aparecen en la parte
superior de la línea de 45°, mostrando una separación de esta, pero menos marcada que
los pronósticos de la serie pronosticada con la red con sus datos originales .
3,5
4,5
5,5
6,5
7,5
8,5
9,5
10,5
ene.-65 sep.-67 jun.-70 mar.-73 dic.-75 sep.-78
ln(y) Pronóstico
26
FIGURA 12: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal.
Serie Company’X sales.
4.3 SERIE JOHNSON & JOHNSON QUARTERLY EARNINGS
Finalmente, en el análisis de la tercera encontramos nuevamente que el mejor desempeño
de la serie en la etapa de validación se sigue dando con la serie ajustada con los datos
originales. El resumen de los resultados se encuentra en la Tabla 3.
Tabla 3: Resumen de los estadísticos de ajuste para la serie J&J Quarterly Earnings
Modelo Entrenamiento (MSE) Validación(MSE)
SARIMA 0,00987 0,00495
Datos Originales
RNO H1 0,00682 0,00651
RNO H2 0,00611 0,01255
RNO H3 0,00607 * 0,00172 *
Datos sin ciclo ni tendencia
RNDSDT H1 0,01008 0,01000*
RNDSDT H2 0,01002 0,01037
RNDSDT H3 0,01124 0,01009
Datos sin ciclo ni tendencia-Regularizada
RNDSDTR H1 0,01297 0,00969
RNDSDTR H2 0,01727 0,01273
RDSDTR H3 0,01727 0,01273
5,6
6,1
6,6
7,1
7,6
8,1
5,6 6,1 6,6 7,1 7,6 8,1
RNO RNDSDT RNDSDTR
27
Como con la serie airline y Company’X sales, en el largo plazo, la red con datos
originales y las redes con los datos transformados tienen resultados claramente diferentes.
FIGURA 13: Pronóstico usando el modelo RN-O Serie J&J Quarterly Earnings
FIGURA 14: Pronóstico usando el modelo RN-DSDT Serie J&J Quarterly Earnings
-1,0
0,0
1,0
2,0
3,0
4,0
5,0
ene.-49 may.-50 sep.-51 feb.-53 jun.-54 nov.-55 mar.-57 ago.-58
LN(y) Pronóstico
-2,0
-1,0
0,0
1,0
2,0
3,0
4,0
5,0
ene.-49 may.-50 sep.-51 feb.-53 jun.-54 nov.-55 mar.-57 ago.-58
LN(y) Pronóstico
28
FIGURA 15: Pronóstico usando el modelo RN-DSDTR. Serie J&J Quarterly Earnings.
En el caso de la serie J&J, nuevamente se puede visualizar la diferencia entre los
resultados obtenidos entre el modelo SARIMA y los resultados obtenidos mediante el uso
de redes neuronales. Tanto para la primera red, en la cual se hizo uso de los datos
originales, como para las redes preprocesadas, los pronósticos son significativamente
diferentes a los resultados presentados por el modelo SARIMA.
FIGURA 16: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal.
Serie J&J Quarterly Earnings
-1,00
0,00
1,00
2,00
3,00
4,00
5,00
ene.-49 may.-50 sep.-51 feb.-53 jun.-54 nov.-55 mar.-57 ago.-58
LN(y) Pronóstico
2,4
2,9
3,4
3,9
4,4
4,9
2,4 2,9 3,4 3,9 4,4 4,9
RNO RNDSDT RNDSDTR
29
5. DISCUSIÓN
En el capítulo anterior se mostró el resultado de la aplicación de 4 métodos diferentes
para el pronóstico a corto y largo plazo de series de tiempo con ciclo y tendencia: El
modelo SARIMA, un modelo de red neuronal que usa los datos originales sin ningún pre
procesamiento previo, un segundo modelo para el cual ha sido removido el ciclo y la
tendencia, y finalmente, un cuarto modelo similar al tercero, excepto que se optó por
regularizar los pesos de la función de desempeño. En los cuatro casos, a corto plazo, fue
posible obtener resultados aceptables y ligeramente similares en los pronósticos.
En este caso, el modelo de red que mejor desempeño presenta es el modelo para el cual ni
el ciclo ni la tendencia son removidos. En los casos en que si lo son, la red regularizada
presenta un mejor desempeño.
En el largo plazo, por el contrario, la respuesta de una red neuronal comparada con el
modelo tradicional SARIMA, comienzan a presentar mayores diferencias a medida que
mayor se hace el horizonte de tiempo. Los pronósticos de las series realizados con los
datos originales, aunque a corto plazo mostraron los mejores resultados de los errores de
ajuste y pronósticos, comparándolos con las otras dos redes, a medida que la variable t
crecía, perdían completamente la información correspondiente a la tendencia y ciclos de
la serie original. Gráficamente se puede observar, como la primera red pierde al poco
tiempo su memoria y converge a un valor fijo, mientras que la tercera y cuarta red se
asemejan más al pronóstico SARIMA y siguen mostrando los patrones de ciclo y
tendencia que presentaban las series originales.
La elección del modelo a utilizar entonces, dependerá de la necesidad del modelador y
del horizonte de tiempo que esté considerando, este último determinaría el
preprocesamiento o no que se deba hacer de los datos si se busca utilizar redes neuronales
para pronóstico en el largo plazo, dado que aunque las redes son conocidas por su buen
desempeño y su capacidad de generalización, esta misma puede hacer que no se tenga un
buen comportamiento a medida que se incrementa el número de pronósticos a realizar si
los datos de entrada al modelo no se manejan de manera adecuada.
30
6. CONCLUSIONES
6.1 EVALUACIÓN DE OBJETIVOS PROPUESTOS
6.1.1 OBJETIVO ESPECÍFICO 1
“Aplicar los tres tipos de metodologías al pronóstico de, al menos, tres series de tiempo
con ciclo y patrón estacional”
Se utilizaron 3 series con ciclo y tendencia a los cuales se les aplicó 4 metodologías: Se
implementó el tradicional modelo SARIMA, luego se implementó una red neuronal
usando los datos con el ciclo y la tendencia original, el tercer caso es la serie con los
datos sin ciclo ni tendencia y un cuarto caso donde se utilizó regularización a los datos de
la metodología 3. En los tres casos, las redes neuronales entrenadas con los datos
originales, mostraron mejores resultados en el corto plazo en comparación del modelo
benchmark SARIMA.
6.1.2 OBJETIVO ESPECÍFICO 2
“Comparar la precisión de los pronósticos un paso adelante y varios pasos adelante”
La precisión de un paso adelante comparada con la predicción varios pasos adelante varía
según la metodología previamente escogida para pronosticar la serie. En el corto plazo, la
serie con los datos originales presenta mayor precisión, en el caso del largo plazo, la red
que se acerca mas al patrón original es la red sin ciclo y tendencia regularizada.
6.1.3 OBJETIVO ESPECÍFICO 3
31
“Determinar si el comportamiento de largo plazo de los modelos utilizados
reproduce las características de las series de tiempo pronosticadas”
Cuando se trabaja con los datos originales, la red pierde su capacidad de recordar el ciclo
y la tendencia a largo plazo y no reproduce las características de las series de tiempo
pronosticadas. En los casos en que ciclo y tendencia son removidos, la red parece
concentrarse mejor en hacer su pronóstico tal y como los autores a favor de preprocesar
enuncian. Por su parte, el modelo SARIMA, con varios pasos adelante, tiende a continuar
la tendencia a largo plazo y converge al valor esperado. Sin embargo, este modelo no es
necesariamente lo mejor para usos futuros, debido a muchos factores como la
incertidumbre pueden afectar las tendencias futuras.
6.2 APORTES ADICIONALES
En este trabajo se presentaron los resultados del pronóstico de series de tiempo con redes
neuronales con ciclo y tendencia. La metodología empleada fue comparar el desempeño
de hacer los pronósticos en primer lugar con los datos originales, luego un segundo
modelo donde el ciclo y la tendencia son eliminados, y un tercer modelo, donde al igual
que el modelo anterior, los datos son divididos en componentes, pero se usa un algoritmo
regularizado. Estos resultados son comparados con el modela SARIMA, el cual es un
modelo ampliamente utilizado como benchmark para este tipo de problemas.
Aunque los resultados presentados no corresponden a una respuesta general, bajo las
condiciones que fueron establecidas las conclusiones obtenidas a través de las 3 series
analizadas fueron:
Eliminar el ciclo y la tendencia no mejora el desempeño, en las 3 series elegidas, los
modelos que mostraron mejor ajuste fueron los modelos en los cuales el ciclo y la
tendencia no fue removidos. Con esto las redes confirman su habilidad para aprender
y adaptarse a la forma de los datos, lo que implicaría una ventaja en comparación de
los métodos convencionales de selección de pronóstico estadístico.
Pese a que los datos originales funcionan mejor para el pronóstico un paso adelante,
eliminar algunas componentes puede ser beneficioso en el largo plazo. Aunque las
32
series pueden tener un mejor desempeño sin necesidad de eliminar el ciclo y la
tendencia, en el largo plazo, conduce a que el pronóstico de la serie pierda su
capacidad de recordar la tendencia y estacionalidades presenten en la serie original.
Esto aporta un nuevo enfoque cuando se considera el pronóstico a largo plazo, tema
que no ha sido hasta el momento ampliamente analizado con modelos no lineales.
A pesar de su popularidad no hay una guía clara de cómo construir una red neuronal
para series de tiempo, por lo que la definición de la arquitectura (número de entradas
y rezagos, nodos ocultos) no es una tarea trivial. Según la literatura revisada, el
número de nodos de entrada, el algoritmo seleccionado, entre otros aspectos del
diseño de la red tienen una alta influencia en los resultados que se obtienen de la red,
por lo que no es tan fácil elegir de manera única cuál metodología es la más adecuada
para tal fin. Se recomienda entonces, que las conclusiones que son encontradas en
este y otros trabajos sobre el tema deben tomarse de manera limitada debido a la gran
cantidad de parametros y estructuras de redes que pueden ser evaluadas y enfocar
futuros trabajos de investigación en determinar cómo se debe desarrollan los modelos
con otro tipo de arquitecturas y otros métodos de selección de entradas al modelo.
33
BIBLIOGRAFÍA
[1] J. De Gooijer and R. Hyndman, “25 years of time series forecasting,” Int. J.
Forecast., vol. 22, no. 3, pp. 443–473, Jan. 2006.
[2] E. Ghylsels and D. R. Osborn, The Econometric Analysis of Seasonal Time Series.
New York, NY, USA: Cambridge University Press, 2001.
[3] K. Gebhard and J. Wolters, Introduction to Modern Time Series Analysis. Berlin,
Heidelberg: Springer Berlin Heidelberg, 2007.
[4] E. S. Gardner, “Exponential smoothing: The state of the art-Part II,” Int. J.
Forecast., vol. 22, no. 4, pp. 637–666, 2006.
[5] W. Bell and S. Hillmer, “Issues involved with the seasonal adjustment of economic
time series,” J. Bus. Econ. Stat., 1984.
[6] P. H. Franses and D. van Dijk, “The forecasting performance of various models for
seasonality and nonlinearity for quarterly industrial production,” Int. J. Forecast.,
vol. 21, no. 1, pp. 87–102, 2005.
[7] M. Qi and G. P. Zhang, “Trend time-series modeling and forecasting with neural
networks,” IEEE Trans. Neural Networks, vol. 19, no. 5, pp. 808–816, 2008.
[8] L. Wang, H. Zou, and J. Su, “An ARIMA‐ANN Hybrid Model for Time Series
Forecasting,” Syst. Res. …, vol. 259, no. May, pp. 244–259, 2013.
[9] J. Faraway and C. Chatfield, “Time series forecasting with neural networks: a
comparative study using the air line data,” … R. Stat. Soc. Ser. …, 1998.
[10] S. Ho, M. Xie, and T. Goh, “A comparative study of neural network and Box-
Jenkins ARIMA modeling in time series prediction,” Comput. Ind. Eng., vol. 42,
pp. 371–375, 2002.
[11] M. Khashei, M. Bijari, and S. R. Hejazi, “Combining seasonal ARIMA models
with computational intelligence techniques for time series forecasting,” Soft
Comput., vol. 16, no. 6, pp. 1091–1105, 2012.
[12] M. Tkáč and R. Verner, “Artificial neural networks in business: Two decades of
research,” Appl. Soft Comput., 2015.
[13] M. Khashei and M. Bijari, “A novel hybridization of artificial neural networks and
ARIMA models for time series forecasting,” Appl. Soft Comput., vol. 11, no. 2, pp.
2664–2675, Mar. 2011.
[14] C. A., C. K. M. Lee, and Z. Wu, “A Comparison between Neural Networks and
Traditional Forecasting Methods: A Case Study,” Int. J. Eng. Bus. Manag., vol. 1,
no. 2, p. 1, 2009.
[15] M. Adya and F. Collopy, “How effective are neural networks at forecasting and
prediction? A review and evaluation,” J. Forecast., vol. 17, no. 56, pp. 481–495,
1998.
34
[16] S. F. Crone and N. Kourentzes, “Input Variable Selection for Time Series
Prediction with Neural Networks-An Evaluation of Visual, Autocorrelation and
Spectral Analysis for varying Seasonality,” Eur. Symp. Time Ser. Predict., pp. 1–
11, 2007.
[17] L. Escobar R, J. Valdes H, and S. Zapata, “Redes Neuronales Artificiales en
predicción de Series de Tiempo . Una aplicación a la Industria,” Univ. Palermo,
pp. 33–48.
[18] I. Kaastra and M. Boyd, “Designing a neural network for forecasting financial and
economic time series,” Neurocomputing, vol. 10, no. 3, pp. 215–236, Apr. 1996.
[19] S. F. Crone and R. Dhawan, “Forecasting seasonal time series with neural
networks: A sensitivity analysis of architecture parameters,” IEEE Int. Conf.
Neural Networks - Conf. Proc., no. September, pp. 2099–2104, 2007.
[20] G. Zhang, B. E. Patuwo, and M. Hu, “Forecasting with artificial neural networks::
The state of the art,” Int. J. Forecast., vol. 14, pp. 35–62, 1998.
[21] R. Sharda and R. Patil, “Connectionist approach to time series prediction: an
empirical test,” J. Intell. Manuf., pp. 317–323, 1992.
[22] I. Alon, M. Qi, and R. Sadowski, “Forecasting aggregate retail sales:: a
comparison of artificial neural networks and traditional methods,” J. Retail.
Consum. Serv., vol. 8, pp. 147–156, 2001.
[23] C. Hamzaçebi, “Improving artificial neural networks’ performance in seasonal
time series forecasting,” Inf. Sci. (Ny)., vol. 178, no. 23, pp. 4550–4559, Dec.
2008.
[24] P. Franses and G. Draisma, “Recognizing changing seasonal patterns using
artificial neural networks,” J. Econom., vol. 81, no. December 1994, pp. 273–280,
1997.
[25] S. Benkachcha, E. H. H, P. Km, and R. El, “Seasonal Time Series Forecasting
Models based on Artificial Neural Network,” Int. J. Comput. Appl., vol. 116, no.
20, pp. 9–14, 2015.
[26] S. Wang, L. Yu, L. Tang, and S. Wang, “A novel seasonal decomposition based
least squares support vector regression ensemble learning approach for
hydropower consumption forecasting in China,” Energy, vol. 36, no. 11, pp. 6542–
6554, 2011.
[27] A. P. Ansuj, M. E. Camargo, R. Radharamanan, and D. G. Petry, “Sales
forecasting using time series and neural networks,” Comput. Ind. Eng., vol. 31, no.
1–2, pp. 421–424, 1996.
[28] I. Alon, M. Qi, and R. J. Sadowski, “Forecasting aggregate retail sales:,” J. Retail.
Consum. Serv., vol. 8, no. 3, pp. 147–156, 2001.
[29] R. Adhikari and R. K. Agrawal, “Forecasting strong seasonal time series with
artificial neural networks,” J. Sci. Ind. Res. (India)., vol. 71, no. 10, pp. 657–666,
2012.
[30] C. Chu and G. Zhang, “A comparative study of linear and nonlinear models for
35
aggregate retail sales forecasting,” Int. J. Prod. Econ., vol. 86, pp. 217–231, 2003.
[31] M. Nelson and T. Hill, “Time series forecasting using neural networks: Should the
data be deseasonalized first?,” J. Forecast., vol. 367, no. June 1997, pp. 359–367,
1999.
[32] M. Nelson, T. Hill, B. Remus, and M. O’Connor, “Can neural networks applied to
time series forecasting learn seasonal patterns: an empirical investigation,” Syst.
Sci. 1994. Proc. Twenty-Seventh Hawaii Int. Conf., vol. 3, pp. 649–655, 1994.
[33] G. Zhang and M. Qi, “Neural network forecasting for seasonal and trend time
series,” Eur. J. Oper. Res., vol. 160, no. 2, pp. 501–514, Jan. 2005.
[34] G. P. Zhang and D. M. Kline, “Quarterly time-series forecasting with neural
networks,” IEEE Trans. Neural Networks, vol. 18, no. 6, pp. 1800–1814, 2007.
[35] M. Khashei and M. Bijari, “Which Methodology is Better for Combining Linear
and Nonlinear Models for Time Series Forecasting ?,” vol. 4, no. 4, pp. 265–285,
2011.
[36] G. P. Zhang, “Time series forecasting using a hybrid ARIMA and neural network
model,” Neurocomputing, vol. 50, pp. 159–175, Jan. 2003.
[37] G. P. Zhang, “An investigation of neural networks for linear time-series
forecasting,” Comput. Oper. Res., vol. 28, no. 12, pp. 1183–1202, Oct. 2001.
[38] C. H. Aladag, E. Egrioglu, and C. Kadilar, “Forecasting nonlinear time series with
a hybrid methodology,” Appl. Math. Lett., vol. 22, no. 9, pp. 1467–1470, Sep.
2009.
[39] P.-F. Pai and C.-S. Lin, “A hybrid ARIMA and support vector machines model in
stock price forecasting,” Omega, vol. 33, no. 6, pp. 497–505, Dec. 2005.
[40] F. Tseng, H. Yu, and G. Tzeng, “Combining neural network model with seasonal
time series ARIMA model,” Technol. Forecast. Soc. …, vol. 69, no. 12, pp. 71–87,
2002.
[41] H. F. Zou, G. P. Xia, F. T. Yang, and H. Y. Wang, “An investigation and
comparison of artificial neural network and time series models for Chinese food
grain price forecasting,” Neurocomputing, vol. 70, no. 16–18, pp. 2913–2923, Oct.
2007.
[42] M. Štěpnička, P. Cortez, J. P. Donate, and L. Štěpničková, “Forecasting seasonal
time series with computational intelligence: On recent methods and the potential of
their combinations,” Expert Syst. Appl., vol. 40, no. 6, pp. 1981–1992, May 2013.
[43] J. J. Ruiz-Aguilar, I. J. Turias, and M. J. Jiménez-Come, “Hybrid approaches based
on SARIMA and artificial neural networks for inspection time series forecasting,”
Transp. Res. Part E Logist. Transp. Rev., vol. 67, pp. 1–13, 2014.
[44] G. Chevillon and D. F. Hendry, “Non-parametric direct multi-step estimation for
forecasting economic processes,” Int. J. Forecast., vol. 21, no. 2, pp. 201–218,
2005.
[45] H. H. Nguyen and C. W. Chan, “Multiple neural networks for a long term time
36
series forecast,” Neural Comput. Appl., vol. 13, pp. 90–98, 2004.
[46] Y. JingTao and L. T. Chew, “Guidelines for financial forecasting with neural
networks,” . Neural Inf. Process. Shanghai, 2001.
[47] G. E. P. Box, G. M. Jenkins, and G. C. Reinsel, Time series analysis. 2011.
[48] G. P. Zhang and M. Qi, “Neural network forecasting for seasonal and trend time
series,” Eur. J. Oper. Res., vol. 160, no. 2, pp. 501–514, Jan. 2005.
[49] M. T. Hagan and M. B. Menhaj, “Training Feedforward Networks with the
Marquardt Algorithm,” IEEE Trans. Neural Networks, vol. 5, no. 6, pp. 989–993,
1994.
[50] B. M. Wilamowski and H. Yu, “Improved computation for Levenberg-Marquardt
training.,” IEEE Trans. Neural Netw., vol. 21, no. 6, pp. 930–7, 2010.
[51] M. H. B. M. T. H. H. B. Demuth, “Neural Network Toolbox User ’ s Guide How
to Contact MathWorks,” MathWorks, 2015.
[52] J. Faraway and C. Chatfield, “Time series forecasting with neural networks: A case
study,” Univ. Bath, Bath (United Kingdom), …, pp. 1–21, 1995.
[53] S. Bisgaard and M. Kulahci, Time Series Analysis and Forecasting by Example.
2011.
[54] M. Ghiassi, H. Saidane, and D. K. Zimbra, “A dynamic artificial neural network
model for forecasting time series events,” Int. J. Forecast., vol. 21, no. 2, pp. 341–
362, Apr. 2005.
[55] R. H. Shumway, Time Series Analysis and Its Applications with R examples. 2006.
[56] S. Ruey, Analysis of Financial Time Series .
Recommended