SERIES DE TIEMPO.pdf

Embed Size (px)

Citation preview

  • 7/25/2019 SERIES DE TIEMPO.pdf

    1/52

    Universidad de ChileFacultad de Ciencias Fsicas y MatemticasDepartamento de Ciencias de la Computacin

    Semestre Primavera 2008Tpicos en Minera de Datos

    Series de Tiempo

    Nombre: Gonzalo Ros

    Profesor: Carlos Hurtado

    Fecha: 14 de Noviembre de 200 8

  • 7/25/2019 SERIES DE TIEMPO.pdf

    2/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    ndice de Contenidos

    1 Denicin Bsica de Serie de Tiempo 4

    2 Aplicaciones de Series de Tiempo 5

    3 Componentes de una serie de tiempo: Enfoque clsico 6

    4 Aspectos Importantes en Series de Tiempo 74.1 Pronsticos dentro y fuera de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.2 Pronsticos estticos y dinmicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.3 Alcance de los pronsticos y toma de decisiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.4 Conjuntos de entrenamiento y evaluacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.5 Origen jo versos origen mvil de los pronsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84.6 Conjunto de entrenamiento de tamao creciente versus conjunto de entrenamiento de tamao constante 84.7 Metodologa de Box-Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94.8 Estimacin de parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    5 Evaluacin de Modelos de Series de Tiempo 105.1 Evalucin del desempeo predectivo: Medicin del error . . . . . . . . . . . . . . . . . . . . . . . . . 10

    6 Estimacin de la Tendencia 116.1 Promedio Mvil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116.2 Suavizamiento exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    7 Transformada Discreta de Fourier: Enfoque Espectral 127.1 Denicion Matemtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    7.1.1 Calculando los Coecientes de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127.2 Algunas Propiedades deFN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137.3 Relacin entre los coecientes de Fourier exactos y aproximados . . . . . . . . . . . . . . . . . . . . . 137.4 Aplicacin a Series de Tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    8 Modelos ARIMA: Enfoque Moderno 168.1 Modelamiento de series no estacionarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    8.1.1 Caminata aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168.2 Modelamiento de series estacionarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    8.2.1 Modelos de Media Mvil, MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178.2.2 Modelos Autorregresivos, AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178.2.3 Modelos Mixtos Autorregresivos Media Mvil, ARMA(p,q) . . . . . . . . . . . . . . . . . . 178.2.4 Modelos Autorregresivos Integrados de Promedio Mvil, ARIMA(p,d,q) . . . . . . . . . . . . 17

    8.3 Modelos ARIMA con variables de intervencin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188.4 Modelos Autorregresivos con Promedio Mvil y Entradas Exgenas, ARMAX(p,q,n) . . . . . . . . . 198.5 Modelos con varianza cambiante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    8.5.1 Modelos de Heterocedasticidad Condicional Autorregresiva, ARCH(p) . . . . . . . . . . . . . 19

    8.5.2 Modelos de Heterocedasticidad Condicional Autorregresiva Generalizado, GARCH(p,q) . . . 198.6 Vericacin en el modelo ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    9 Autocorrelacin 219.1 Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219.2 Criterios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    2

  • 7/25/2019 SERIES DE TIEMPO.pdf

    3/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    10 Ejemplos de series de tiempo 2310.1 Funcin sinusoidal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2310.2 Funcin sinusoidal con tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2510.3 Funcin multisinusoidal con tendencia y componente aleatoria . . . . . . . . . . . . . . . . . . . . . . 3010.4 Ventas mensuales de una empresa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    11 Tcnicas de Inteligencia Computacional en Series de Tiempo 3811.1 R edes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    11.1.1 Aplicacin de redes neuronales en series de tiempo . . . . . . . . . . . . . . . . . . . . . . . . 4011.1.2 Redes ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    11.2 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4511.2.1 Deniciones del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4611.2.2 Algoritmo de Regresin SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    12 Modelo para un conjunto de series de tiempo 4712.1 D enicin del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4712.2 Algunos principios claves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    12.2.1 Concepto de dato "normal" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    12.2.2 Concepto de "distancia" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4812.3 Caractersticas fundamentales del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    12.3.1 Normalizando los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4812.3.2 Funcin de distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4912.3.3 Caractersticas de la vecindad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4912.3.4 Independencia de los datos con el tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4912.3.5 Principio fundamental del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5012.3.6 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    12.4 Explicacin matemtica del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5012.5 R esultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    3

  • 7/25/2019 SERIES DE TIEMPO.pdf

    4/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    1 Denicin Bsica de Serie de Tiempo

    Se llama Series de Tiempo a un conjunto de observaciones sobre valores que toma una variable (cuantitativa) endiferentes momentos del tiempo. Los datos se pueden comportar de diferentes formas a travs del tiempo, puedeque se presente una tendencia, un ciclo; no tener una forma denida o aleatoria, variaciones estacionales (anual,

    semestral, etc) [2]. Las observaciones de una serie de tiempo sern denotadas por Y1;Y2,...,YT , donde Yt es elvalor tomado por el proceso en el instante t. [3]

    Los modelos de series de tiempo tienen un enfoque netamente predictivo y en ellos los pronsticos se elaborarnslo con base al comportamiento pasado de la variable de inters. Podemos distinguir dos tipos de modelos deseries de tiempo [1]:

    Modelos deterministas: se trata de mtodos de extrapolacin sencillos en los que no se hace referencia alas fuentes o naturaleza de la aleatoriedad subyacente en la serie. Su simplicidad relativa generalmente vaacompaada de menor precisin. Ejemplo de modelos deterministas son los modelos de promedio mvil enlos que se calcula el pronstico de la variable a partir de un promedio de los n valores inmediatamenteanteriores.

    Modelos estocsticos: se basan en la descripcin simplicada del proceso aleatorio subyacente en la serie.

    En trmino sencillos, se asume que la serie observada Y1,Y2,...,YTse extrae de un grupo de variables aleatoriascon una cierta distribucin conjunta difcil de determinar, por lo que se construyen modelos aproximados quesean tiles para la generacin de pronsticos.

    La serie {YtgTt=1 podr ser estacionaria o no estacionaria [1]:

    Serie no estacionaria: es aquella cuyas caractersticas de media, varianza y covarianza cambian a travsdel tiempo lo que diculta su modelamiento. Sin embargo, en muchas ocasiones, si dicha serie es diferenciadauna o ms veces la serie resultante ser estacionaria (procesos no estacionarios homogneos).

    Serie estacionaria: es aquella cuya media y varianza no cambian a travs del tiempo y cuya covarianzaslo es funcin del rezago. Gracias a estas caractersticas podremos modelar el proceso subyacente a travsde una ecuacin con coecientes jos estimados a partir de los datos pasados.

    Media:E(Yt) = E(Yt+m)para todo t; mVarianza: (Yt) = (Yt+m) para todo t; m

    Covarianza: cov(Yt; Yt+k) = cov(Yt+m; Yt+m+k) para todo t ;m;k

    4

  • 7/25/2019 SERIES DE TIEMPO.pdf

    5/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    2 Aplicaciones de Series de Tiempo

    Hoy en da diversas organizaciones requieren conocer el comportamiento futuro de ciertos fenmenos con el nde planicar, prevenir,es decir, se utilizan para predecir lo que ocurrir con una variable en el futuro a partir delcomportamiento de esa variable en el pasado. En las organizaciones es de mucha utilidad en predicciones a corto y

    mediano plazo, por ejemplo ver que ocurrira con la demanda de un cierto producto, las ventas a futuro, decisionessobre inventario, insumos, etc [2].

    Algunas de las reas de aplicacin de Series de Tiempo son [3]:

    Economa: Precios de un articulo, tasas de desempleo, tasa de inacin, ndice de precios, precio del dlar,precio del cobre, precios de acciones, ingreso nacional bruto, etc.

    Meteorologa: Cantidad de agua cada, temperatura mxima diaria, Velocidad del viento (energa elica),energa solar, etc.

    Geofsica: Series sismolgicas.

    Qumica: Viscosidad de un proceso, temperatura de un proceso.

    Demografa: Tasas de natalidad, tasas de mortalidad.

    Medicina: Electrocardiograma, electroencfalograma.

    Marketing: Series de demanda, gastos, utilidades, ventas, ofertas.

    Telecomunicaciones: Anlisis de seales.

    Transporte: Series de trco.

    5

  • 7/25/2019 SERIES DE TIEMPO.pdf

    6/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    3 Componentes de una serie de tiempo: Enfoque clsico

    Se dice que una serie de tiempo puede descomponerse en cuatro componentes (cinco si se considera una constantellamada nivel) que no son directamente observables, de los cuales nicamente se pueden obtener estimaciones. Estoscuatro componentes son [3,5]:

    Tendencia (T): representa el comportamiento predominante de la serie. Esta puede ser denida vagamentecomo el cambio de la media a lo largo de un extenso perodo de tiempo

    Ciclo (C): caracterizado por oscilaciones alrededor de la tendencia con una larga duracin, y sus factores noson claros. Por ejemplo, fenmenos climticos, que tienen ciclos que duran varios aos.

    Estacionalidad (E): es un movimiento peridico que se producen dentro de un periodo corto y conocido.Este componente est determinado, por ejemplo, por factores institucionales y climticos.

    Aleatorio (A): son movimientos errticos que no siguen un patrn especco y que obedecen a causasdiversas. Este componente es prcticamente impredecible. Este comportamiento representan todos los tiposde movimientos de una serie de tiempo que no son tendencia, variaciones estacionales ni uctuaciones cclicas.

    Un modelo clsico de series de tiempo, supone que la serie Y1,...,YTpuede ser expresada como suma o productode sus componentes [3]:

    Modelo aditivo: Y(t) = T(t)+E(t)+C(t)+A(t)

    Modelo multiplicativo: Y(t) = T(t)E(t)C(t)A(t)

    6

  • 7/25/2019 SERIES DE TIEMPO.pdf

    7/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    4 Aspectos Importantes en Series de Tiempo

    4.1 Pronsticos dentro y fuera de la muestra

    Al hablar de pronsticos, se distingue entre proyecciones dentro y fuera de muestra. En las primeras, las proyecciones

    realizadas se reeren a los mismos datos que se emplearon para la construccin y calibracin del modelo (lamuestra), mientras que en las segundas las proyecciones se reeren a datos ajenos a dicha muestra. En la bsquedade metodologas que generen pronsticos precisos de los valores futuros de una variable, slo son relevantes lasproyecciones fuera de muestra por las siguientes razones:

    Las proyecciones fuera de muestra replican el funcionamiento de la herramienta de pronsticos en la prctica,por lo que la evaluacin de su desempeo predictivo ser un referente vlido para los futuros errores depronstico.

    Los modelos de pronstico se construyen minimizando los errores dentro de muestra por lo que los errores depronsticos intramuestrales sobrestiman el potencial predictivo de las herramientas.

    Un modelo con buen desempeo intramuestral podra tener un muy mal desempeo en proyecciones fuera demuestra. Esto se debe a un sobreajuste (overtting) o memorizacin de los datos muestrales, con lo que el

    modelo resultante ser incapaz de responder de buena manera a nuevos valores. [1]

    4.2 Pronsticos estticos y dinmicos

    Los pronsticos estticos son aquellos que estn basados en la ltima informacin efectiva disponible, por lo queestn limitados a las proyecciones a un periodo hacia adelante. Los pronsticos dinmicos son caracterizadospor utilizar el ltimo pronstico disponible como dato para el siguiente pronstico, permitiendo la realizacin deproyecciones a dos y ms periodos hacia delante. [1]

    4.3 Alcance de los pronsticos y toma de decisiones

    Todo pronstico tiene asociado un alcance, pudiendo ser ste de corto, mediano o largo plazo. Los horizontes detiempo correspondientes a dichos alcances dependern de la industria bajo estudio. En cuanto al atractivo de uno

    u otro pronstico, ste estar sujeto al tipo de decisin que se desea tomar o de accin en desarrollo. A modo deejemplo, en la industria del cobre, alcances convencionales y decisiones comunes en el mercado y la industria son:

    Tipo de pronstico Alcance DecisionesCortsimo Plazo Minutos, horas Operaciones especulativasCorto Plazo Das, semanas, meses, un ao Operaciones especulativas, de cobertura y de

    gestin comercialMediano Plazo Uno a seis aos Evaluacin y control de los resultados de la gestin

    y de los negocios de una empresaLargo Plazo 6 a 50 aos Planicacin de la produccin y evaluacin de

    proyectosRelacionado con el alcance de un pronstico est su nivel de incertidumbre. A mayor alcance del pronstico,

    mayor es el nivel de incertidumbre que se debe enfrentar. Esta consideracin no debe olvidarse al momento detomar decisiones basadas en datos proyectados.[1]

    4.4 Conjuntos de entrenamiento y evaluacin

    Existen dos formas de evaluar la precisin de los pronsticos fuera de muestra:

    Esperar hasta que se cuente con los valores reales para los periodos pronosticados. Por ejemplo: si, duranteel ao 2006, se pronostica el precio del ao siguiente, esperar hasta conocer el valor efectivo del ao 2007.

    Evaluar la precisin sobre la base de un conjunto de datos que previamente se separ de la muestra disponibley que no particip de la construccin del modelo. Al conjunto de datos empleados para la construccin del

    7

  • 7/25/2019 SERIES DE TIEMPO.pdf

    8/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    modelo se le denomina conjunto de entrenamiento, mientras que el resto de los datos conforma el conjuntode evaluacin.

    La divisin de los datos muestrales es una decisin trascendental en la generacin de pronsticos ya que determinala cantidad de datos para la construccin del modelo y la

    cantidad de pronsticos fuera de muestra que se podrn evaluar.La denicin del tamao y composicin de los conjuntos de entrenamiento y evaluacin deber considerar

    factores tales como:

    Tamao total de la muestra: en muestras pequeas, grandes conjuntos de evaluacin podran comprometerla calidad del modelo construido, si es que el conjunto de entrenamiento no consigue un tamao que lo hagarepresentativo.

    Tipo de metodologa de pronstico a emplear: distintas metodologas demandan conjuntos de entrenamientoms o menos numerosos.

    Representatividad: los componentes del conjunto de entrenamiento deben ser diversos para asegurar que elmodelo pueda captar los diversos patrones de comportamiento de la serie bajo estudio (por ejemplo: preciosen fases depresivas, precios en fases expansivas) [1]

    4.5 Origen jo versos origen mvil de los pronsticos

    Dados los conjuntos de entrenamiento y evaluacin, se dene como el origen de los pronsticos al ndice T corre-spondiente al ltimo dato del conjunto de entrenamiento y se dene como N al tamao del conjunto de evaluacin.

    Los pronsticos de origen jo, predicen la variable de inters a partir del dato T, esto es para los periodosT+ 1; T+ 2;:::;T+ N. De este modo, para un origen jo slo se calcularn N pronsticos y slo un pronstico paracada alcance (un pronstico a un periodo, un pronstico a dos periodos, etc.), lo que es insuciente para evaluar eldesempeo de una metodologa.

    Por el contrario, en los pronsticos de origen mvil, se actualiza sucesivamente el origen de los pronsticos, loque incrementa el nmero de proyecciones para cada alcance. As en la situacin recin descrita, una vez que seproyectaron los valores a partir de T, se calculan los pronsticos a partir de T+ 1(T+ 2; T+ 3;:::;T+ N), a partir

    deT+ 2(T+ 3; T+ 4;:::;T+ N) y as sucesivamente. El total de pronsticos calculados ser:

    N (N+ 1)=2

    Alcance del pronstico: H =) Nmero de evaluaciones: N H+ 1Esta ltima relacin entre el alcance de los pronsticos y el nmero de evaluaciones, nos permite dimensionar el

    tamao absoluto del conjunto de evaluacin. Sea H el mximo alcance de los pronsticos que se desea evaluar y seaM el nmero mnimo de evaluaciones que se desea realizar a dicho alcance, el tamao del conjunto de evaluacinestar dado por:

    NM+ H 1

    Por otra parte, el uso de origen mvil disminuye la inuencia de un determinado origen en los resultados (porejemplo, fase depresiva de un ciclo econmico). Las ventajas del origen mvil por sobre el origen jo hacen que el

    origen mvil sea la tcnica preferida en evaluaciones fuera de muestra.El empleo de origen mvil plantea la posibilidad de reestimar el modelo de pronstico en cada actualizacin.

    Este procedimiento es el ms usado ya que disminuye la inuencia del conjunto de entrenamiento original, aunqueesto signique un aumento de los clculos necesarios.[1]

    4.6 Conjunto de entrenamiento de tamao creciente versus conjunto de entrenamientode tamao constante

    Al utilizar la tcnica de origen mvil, cada nueva evaluacin signica la adicin de un nuevo dato al conjuntode entrenamiento, por lo que se puede optar entre la realizacin de proyecciones sobre la base de un conjunto de

    8

  • 7/25/2019 SERIES DE TIEMPO.pdf

    9/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    entrenamiento de tamao creciente o de tamao constante (xed size rolling window). El uso de un conjunto deentrenamiento de tamao constante implicara que al agregar un nuevo dato, se descarte la observacin ms antigua(pruning), lo que parece recomendable si la trayectoria de precios a travs del tiempo sigue un patrn notoriamentedistinto al del pasado, situacin que parece no aplicar al caso del cobre. [1]

    4.7 Metodologa de Box-Jenkins

    El enfoque de Box-Jenkins es una de las metodologas de uso ms amplio para el modelamiento estocstico deseries de tiempo. Es popular debido a su generalidad, ya que puede manejar cualquier serie, estacionaria o noestacionaria, y por haber sido implementado en numerosos programas computacionales.

    Los pasos bsicos de la metodologa de Box-Jenkins son [1]:

    1. Vericar la estacionariedad de la serie. Si sta no es estacionaria, diferenciarla hasta alcanzar estacionariedad.

    2. Identicar un modelo tentativo.

    3. Estimar el modelo.

    4. Vericar el diagnstico (si este no es adecuado, volver al paso 2).

    5. Usar el modelo para pronosticar.

    Lo que se trata es de identicar el proceso estocstico que ha generado los datos, estimar los parmetrosque caracterizan dicho proceso, vericar que se cumplan las hiptesis que han permitido la estimacin de dichosparmetros. Si dichos supuestos no se cumplieran, la fase de vericacin sirve como retroalimentacin para unanueva fase de identicacin. Cuando se satisfagan las condiciones de partida, se puede utilizar el modelo parapronosticar.[5]

    4.8 Estimacin de parmetros

    Para estimar los parmetros del modelo se utiliza un algoritmo de mnimos cuadrados de Gauss Marquatt paraminimizar la suma de cuadrados de los residuos. Este algoritmo trata de minimizar la suma de cuadrados de los

    residuos, comenzando con algn valor de los parmetros del modelo. El algoritmo busca si otro vector de parmetrosmejora el valor de la funcin objetivo y se produce un proceso de iteracin hasta que se alcanza u cierto criterio deconvergencia. [5]

    9

  • 7/25/2019 SERIES DE TIEMPO.pdf

    10/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    5 Evaluacin de Modelos de Series de Tiempo

    5.1 Evalucin del desempeo predectivo: Medicin del error

    Para la evaluacin del desempeo predictivo se emplean diferentes indicadores que cuantican qu tan cerca est

    la variable pronosticada de su serie de datos correspondiente. Una de las medidas ms utilizadas es el Promediodel Error Porcentual Absoluto (MAPE)

    MAPE= 1

    T

    TXt=1

    AP Et

    !=

    1

    T

    TXt=1

    jYst Ya

    t j

    Yat

    ! 100

    dondeAP E:error porcentual absoluto.Yat :valor pronosticado de Yt.Yst :valor real de Yt.T: nmero de periodos.El MAPE mide el valor medio del error absoluto en trminos porcentuales al valor real de la variable[1].En lugar de considerar el promedio de error porcentual absoluto, MAX_MAPE indica el valor mximo del error

    del modelo respecto a la serie real, en trminos porcentuales y absolutos [6] :

    MAX_MAPE= M AXtjYst Y

    at j

    Yat 100

    Para evaluar la dispersin de los errores se puede calcular el Desvo Estndar del Error porcentual absoluto(APE).

    Desv{o Estandar APE=

    vuut 1T

    TXt=1

    (AP Et MAPE)2

    Otra medida del error de pronstico comnmente empleada es la Raz Cuadrtica Media del Error (RMSE):

    RMSE=vuut 1

    T

    TXt=1

    (Yst Ya

    t )2

    dondeYat :valor pronosticado de Yt.Yst :valor real de Yt.T: nmero de periodos.El RMSE mide la dispersin de la variable simulada en el curso del tiempo, penalizando fuertemente los errores

    grandes al elevarlos al cuadrado. Esta caracterstica hace que el RMSE se recomiende cuando el costo de cometerun error es aproximadamente proporcional al cuadrado de dicho error.

    No siempre el modelo que genere pronsticos con un menor MAPE generar los pronsticos con el menor RMSEy viceversa, por lo que en la seleccin de los mejores modelos de pronstico se hace necesario establecer la medidade error a utilizar para la elaboracin del ranking de desempeo.

    Dado que una mala estimacin del precio fututo del cobre se traduce en una prdida de ingresos proporcional altamao del error, el MAPE, y no el RMSE, parece ser la medida de desempeo ms adecuada. A esto se suma laventaja prctica del MAPE de no requerir ser acompaado por la media para dimensionar la magnitud del error.Luego, la medida de error que se emplear para identicar los modelos de mejor desempeo ser el MAPE.[1]

    10

  • 7/25/2019 SERIES DE TIEMPO.pdf

    11/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    6 Estimacin de la Tendencia

    Hay varios mtodos para estimar la tendencia T(t), uno de ellos es utilizar un modelo de regresin lineal. Se puedenutilizar otros tipos de regresiones, como regresin cuadrtica, logstica, exponencial, entre otros.

    Una forma de visualizar la tendencia, es mediante suavizamiento de la serie. La idea central es denir a partir

    de la serie observada una nueva serie que ltra o suaviza los efectos ajenos a la tendencia (estacionalidad, efectosaleatorios), de manera que podamos visualizar la tendencia. [3]

    6.1 Promedio Mvil

    Este mtodo de suavizamiento es uno de los ms usados para describir la tendencia. Consiste en jar un nmero k,preferentemente impar, como 3, 5, 7, etc., y calcular los promedios de todos los grupos de k trminos consecutivosde la serie. Se obtiene una nueva serie suavizada por promedios mviles de orden k. De este modo se tienden aanular las variaciones aleatorias. La formula est dada por

    Z(t) =Y(t k) + Y(t k+ 1) + ::: + Y(t) + Y(t + 1) + ::: + Y(t + k)

    2 k+ 1

    El suavizamiento de media mvil es muy fcil de aplicar, permite visualizar la tendencia de la serie. Pero tiene

    dos inconvenientes: No es posible obtener estimaciones de la tendencia en extremos y no entrega un medio parahacer predicciones. Si la serie presenta un efecto estacional de perodo k, es conveniente aplicar un suavizamientode media mvil de orden k. En tal caso se elimina el efecto estacional, junto con la variacin aleatoria, observndosesolamente la tendencia.[3]

    6.2 Suavizamiento exponencial

    Este modelo se basa en que una observacin suavizada, en tiempo t, es un promedio ponderado entre el valor actualde la serie original y el valor de la serie suavizada, en el tiempo inmediatamente anterior. Si Y(t) representa laserie de tiempo original, y Z(t) la serie de tiempo suavizada, entonces lo anterior se puede escribir

    Z(t) = Y(t) + (1 )Z(t 1)

    en donde es un nmero entre 0 y 1.Si es cercano a 1, la serie suavizada pondera ms fuertemente el valor original, luego ambas se parecen, y en

    consecuencia, el suavizamiento es poco.Si se acerca a 1/2, se ponderan moderadamente la serie original y la suavizada, por lo que el suavizamiento

    es moderado.Si es cercano a cero, (1-) es cercano a 1, y la serie suavizada pondera ms fuertemente el valor suavizado

    inmediatamente anterior, por lo que el suavizado es importante.Consecuencia de la frmula anterior es que la serie suavizada se puede expresar como

    Z(t) = Y(t) + (1 )Y(t 1) + (1 )2Y(t 2) + ::: + (1 )t1Y(1)

    Es decir, cada trmino suavizado es un promedio ponderado de todos los trminos histricos de la serie original.Como est entre 0 y 1, estos nmeros se van achicando a medida que avanzan. Eso signica que a medida

    que nos alejamos hacia el pasado, los trmino van inuyendo cada vez menos en el trmino presente. La rapidezcon que disminuye la inuencia es mayor mientras ms grande (cercano a 1) es .Si la serie vara lentamente, por lo general se eligen valores de cercanos a 0 (valor tpico = 0.3). En cambio,

    si vara bruscamente, se eligen valores de cercanos a 1 (valor tpico = 0.7). [3]

    11

  • 7/25/2019 SERIES DE TIEMPO.pdf

    12/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    7 Transformada Discreta de Fourier: Enfoque Espectral

    La mayora de los mtodos en series de tiempo se basan en el espacio del tiempo. Otro enfoque muy poderoso esen el espacio de frecuencia, en donde la transformada discreta de fourier tiene un papel primordial.

    7.1 Denicion MatemticaSeaL2p(a) = ff : R ! C j f esa periodicay

    Ra0

    jf(t)j2dt < 1g. Seaf2L2p(a) y denotamos por S[f] a su Seriede Fourier, la que viene dada por:

    S[f](t) =n=1X

    n=1

    cne2in t

    a

    ,donde losfcngn2N son sus "coecientes de Fourier", que vienen dados por:

    cn=1

    a

    Z a0

    f(t)e2int

    a dt

    Ahora, sean SN[f] las sumas parciales de la serie anterior, esto es:

    SN[f](t) =n=NX

    n=N

    cne2in t

    a

    Es bien sabido que las sumas parciales de una funcin f2L2p(a)convergen a ella en la norma de L2(0; a).

    An ms, un teorema debido a Dirichlet seala que si adems para un punto to 2 (0; a)los lmitesf(t+o) y f(to)

    existen, al igual que las derivadas laterales en ese punto, entonces:

    SN[f](to)! S[f](t) =1

    2[f(t+o) + f(t

    o)]

    Luego conocer la Serie de Fourier de una funcin sucientemente buena puede otorgar bastante informacin sobreesta. Sin embargo, uno precisara conocer una innidad de las constantes fcng(lo que a parte de ser costoso, salvocasos muy particulares, es imposible). En la prctica, no es necesario conocer "demasiadas" de estas constantes,por dos razones:

    La serie ser evaluada numricamente, por lo que se considerar solo una suma parcial de esta.

    Se tiene que para f 2 L2p(a),n=1P

    n=1jcnj2 < 1, de donde cn ! 0 si jnj ! 1. Luego los nicos trmino de

    inters (numrico) son los de ndice no demasiado grande.

    Pese a lo anterior, puede ser necesario conocer muchos cn, lo que implicara evaluar muchas integrales. Por lotanto, para efectos prcticos, ser necesario integrar numricamente las expresiones para estos coecientes.

    Esta es la motivacin original para la Transformada de Fourier Discreta (DFT), vale decir, obtener una expresinaproximada para la Serie de Fourier de una funcin a partir de un "sampleo" de datos conocidos sobre la funcin.Se ver ms adelante que el espectro de problemas en que esta herramienta ha resultado til es mucho ms amplio.

    7.1.1 Calculando los Coecientes de Fourier

    Suponer que se tiene una funcin a periodica f : R! C sobre la cual solo conocemos Nvalores equiespaciadosen(0; a), vale decir:

    f

    ka

    N

    =yk , k = 0; 1;:::;N 1

    La idea es estimar Ncoecientes de la Serie de Fourier de f, la que se asumir converge puntualmente. Porsimplicidad se supondr que N es par. As, se estimar cn para n = N=2;:::;N=2 1. De la frmula para

    12

  • 7/25/2019 SERIES DE TIEMPO.pdf

    13/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    los coecientes de Fourier, se puede integrar mediante el Mtodo del Trapecio, lo que entrega la siguienteaproximacin para cn :

    cn Yn:= 1

    N

    N1

    Xk=0

    ykwnkN , conwN=e

    2i

    N , n 2 N

    Adems, de la periodicidad de la exponencial, se verica que 1N

    PN1k=0 ykw

    nkN = Yn+N , si

    N2 n < 0, de

    donde

    cn Yj(n) , con j (n) = n + (N n

  • 7/25/2019 SERIES DE TIEMPO.pdf

    14/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    De esto se deduce que Yn=P1

    q=1 cn+qN , y luego

    Yn cn=Xq6=0

    cn+qN

    Con esto se obtiene que entre ms fuertemente decaigan a cero los coecientes cn, mejor es la aproximacin. Estoocurre, por ejemplo, entre ms suave sea la funcin.

    7.4 Aplicacin a Series de Tiempo

    El uso de la transformada discreta de fourier en series de tiempo se basa en la idea de observar las frecuenciasms importantes, y gracar la intensidad de cada frecuencia. Este grco se llama espectograma. Si se graca laintensidad versus el periodo, que es el inverso de la frecuencia, entonces se obtiene el periodograma. Este grco nosmostrar la presencia de componentes estacionales importantes en la serie de tiempo, y as separar la componenteestacionaria de la serie.

    Por ejemplo, la transformada de fourier de la funcin y=cos(2*x) en el intervalo [0,100], con un paso igual a 1,obtenemos el siguiente grco:

    Podemos ver que la nica frecuencia importante se encuentra adentro del intervalo [0.3,0.35], y si observamos

    que cos(2*x)=cos(

    2

    x) y

    1

    = 0:318 ; luego podemos reconstruir la funcin con solo conocer este valor.Otro grco interesante es el error de aproximacin versus el nmero de coecientes de la transformada defourier que se ocupan para la aproximacin. Lo que a nosotros nos interesa ver de este grco son los cambiobruscos, por lo que adems se graca su primera y segunda derivada. Por ejemplo:

    14

  • 7/25/2019 SERIES DE TIEMPO.pdf

    15/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Se puede observar que cerca de la frecuencia 0.225 hay una gran intensidad, y otra de menor magnitud alrededorde la frecuancia 0.115. Estas corresponden a las componentes nmero 226 y 115, respectivamente. Luego, si ltramosuna vecindad de estas frecuencias y las dems las eliminamos, obtenemos el siguiente resultado:

    Luego, podemos observar que recuperamos casi toda la informacin de la funcin original, excepto en los bordes,que es un fenmeno numrico que ocurre con la transformada de fourier. Con estas componentes aisladas, se puedenanalizar los diferentes fenmenos estacionarios que la suma dan la serie original, por lo que se pueden identicardiferentes fuentes explicativas de la serie de tiempo.

    15

  • 7/25/2019 SERIES DE TIEMPO.pdf

    16/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    8 Modelos ARIMA: Enfoque Moderno

    Los modelos multivariantes o economtricos tratan de explicar el comportamiento de una o ms variables enfuncin de la evolucin de otras variables que se consideran explicativas. Las variables explicadas por el modelo sedenominan endgenas, mientras que las variables explicativas del modelo, pero no explicadas por l, se denominan

    predeterminadas. Entre las variables predeterminadas se distinguen dos grupos: exgenas y endgenas retardadas,estas ltimas no son explicadas por el modelo en el momento t, pero han sido explicadas por l en un momentoanterior, por su parte, las exgenas son variables que no son explicadas por el modelo en ningn momento.

    Los modelos economtricos contemplan de forma explcita la informacin que aportan las variables causales delfenmeno de inters de acuerdo con una determinada teora econmica. Una ventaja de este modelo consiste en quelos resultados que se generan son ms ecientes y poseen mayor poder explicativo que los modelos univariantes. Sinembargo, en estos modelos, cuando se desea realizar predicciones, el desconocimiento de los valores de las variablesexplicativas en el futuro determina la necesidad de utilizar predicciones para stas, lo cual incrementa el nivel deincertidumbre con que se realiza la prediccin economtrica. Por otro parte, cuando el futuro puede suponer unaalteracin de tendencias de comportamiento respecto al pasado reciente, es recomendable utilizar estos modeloscausales para predecir a mediano plazo (1 a 5 aos).

    Los modelos univariantes o de series de tiempo no necesitan conocer ninguna relacin de causalidad, explicativadel comportamiento de la variable endgena, ni en su defecto, ninguna informacin relativa al comportamiento deotras variable explicativas, ya que en este caso no existe este tipo de variables. Es suciente con conocer una serietemporal de la variable en estudio, para estimar el modelo que se utilizar para predecir.

    La prediccin univariante se utiliza, en problemas econmicos, principalmente con dos objetivos:

    La prediccin de algunas variables explicativas de un modelo causal, cuando se espera que en el futuroconserven algunas de las caractersticas de su evolucin en el pasado.

    La prediccin a corto plazo, debido a su gran capacidad para recoger la dinmica en el comportamiento dela variable estudiada. Adems, en condiciones normales, cuando no existen bruscas alteraciones respecto a laexperiencia reciente de la variable, estos mtodos pueden proporcionar buenas predicciones.

    Entre las tcnicas univariantes existen algunas muy sencillas, tales como el modelo autorregresivo de primerorden, el modelo de tendencia lineal o exponencial, entre otros. Las tcnicas ms rigurosas para la prediccin

    univariante son las denominadas tcnicas o modelos Box-Jenkins, o ms concretamente modelos ARIMA, pues lastcnicas Box-Jenkins constituyen un conjunto ms amplio, dentro del cual los modelos ARIMA univariantes sonslo una parte. [5]

    En la generacin de proyecciones de corto y mediano plazo, existe evidencia de un mejor desempeo de losmodelos de series de tiempo. Llama la atencin el que los modelos de series de tiempo sean ms precisos en susproyecciones que los modelos economtricos ms complejos, algunos de los cuales tienen mltiples ecuaciones ydecenas de variables. Entre las razones que explican este fenmeno est la dicultad asociada a la seleccin de lasvariables explicativas de un modelo estructural y la dicultad que conlleva el pronstico de las mismas, problemaque podra ser an ms difcil que el pronstico de la variable de inters.[1]

    8.1 Modelamiento de series no estacionarias

    8.1.1 Caminata aleatoria

    Yt= + Yt1+ "t

    donde,es una constante (drift) y cada perturbacin "t(error) es una variable aleatoria con distribucin normalcon media cero, varianza constante y covarianza cero (el proceso "1; "2;::: se denomina ruido blanco). En el modelode caminata aleatoria ms simple (sin drift), el pronstico paraYt es su valor ms reciente. La inclusin de un driftintenta reproducir una tendencia existente en la variable de inters.

    En un modelo de caminata aleatoria, la varianza de Yt aumenta a travs del tiempo, lo que es propio de unproceso no estacionario. Cuando una serie se comporta como una caminata aleatoria se dice que sta presenta razunitaria. [1]

    16

  • 7/25/2019 SERIES DE TIEMPO.pdf

    17/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    8.2 Modelamiento de series estacionarias

    Box y Jenkins han desarrollado modelos estadsticos que tienen en cuenta la dependencia existente entre los datos.Cada observacin en un momento dado es modelada en funcin de los valores anteriores. Se modela a travs deARIMA (Autorregresive Integrate Moving Average). Alguna de las caractersticas de este modelo son [2]:

    Tiene solamente en cuenta la pauta de serie serie de tiempo en el pasado.

    Ignora la informacin de variables causales.

    Procedimiento tcnicamente sosticado de prediccin de una variable.

    Utiliza la observacin ms reciente como valor inicial.

    Permite examinar el modelo ms adecuado

    Analiza errores recientes de pronsticos para seleccionar el ajuste apropiado para periodos futuros.

    Box-Jenkins es ms apropiado para predicciones a largo plazo que para corto plazo.

    Extrae mucha informacin de la serie de tiempo, ms que cualquier otro mtodo.

    8.2.1 Modelos de Media Mvil, MA(q)

    Yt= + "t+ 1"t1+ ::: + q"tq

    En los modelos de media mvil, el proceso se representa como una suma ponderada de errores actuales yanteriores. El nmero de rezagos del error considerados (q) determina el orden del modelo de media mvil. [1]

    8.2.2 Modelos Autorregresivos, AR(p)

    Yt= + 1Yt1+ ::: + pYtp+ "t

    En los modelos autorregresivos, el proceso se representa como una suma ponderada de observaciones pasadasde la variable. El nmero de rezagos (p) determina el orden del modelo autorregresivo. [1]

    8.2.3 Modelos Mixtos Autorregresivos Media Mvil, ARMA(p,q)

    Yt= + 1Yt1+ ::: + pYtp+ "t+ 1"t1+ ::: + q"tq

    En estos modelos, el proceso se representa en funcin de observaciones pasadas de la variable y de los valoresactuales y rezagados del error. El nmero de rezagos de la variable de inters (p) y el nmero de rezagos del error(q) determinan el orden del modelo mixto. [1]

    8.2.4 Modelos Autorregresivos Integrados de Promedio Mvil, ARIMA(p,d,q)

    Muchas series de tiempo no son estacionarias, por ejemplo el Producto Nacional Bruto o la Produccin Industrial.Un tipo especial de series no estacionarias, son las no estacionarias homogneas que se caracterizan porque, al serdiferenciadas una o ms veces, se vuelven estacionarias.

    La serieYt ser no estacionaria homognea de orden d si Wt=

    d

    Yt es estacionaria, donde: Yt= Yt Yt1

    n+1Yt= nYt nYt1

    Si despus de haber diferenciado la serie Yt se consigue una serie estacionaria Wt, y dicha serie obedece a unproceso ARMA(p,q), se dice que Yt responde a un proceso ARIMA(p,d,q):

    Wt= + 1Wt1+ ::: + pWtp+ "t+ 1"t1+ ::: + q"tq

    Para la correcta identicacin del modelo ARIMA representativo de una serie se hace necesario [1]:

    17

  • 7/25/2019 SERIES DE TIEMPO.pdf

    18/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Determinar el grado de homogeneidad u orden de integracin de la serie

    Para determinar el orden de integracin se utilizan herramientas como el correlograma y tests de raz unitaria.Cabe mencionar que los tests de raz unitaria, como el test de Dickey-Fuller Aumentado (ADF), tienen bajapotencia presentando, ante situaciones de difcil discriminacin, un sesgo al no rechazo de la hiptesis nula

    de presencia de raz unitaria. Determinar el orden de las partes de promedio mvil y autorregresivas del modelo

    El examen de las funciones de autocorrelacin total y parcial ayuda en esta tarea, aunque habitualmente laseleccin correcta no ser clara, por lo que se recomienda probar distintas formulaciones guindose por elconocimiento que se tenga del fenmeno analizado.

    Evaluar los distintos modelos construidos

    Se descartan las estructuras que arrojen coecientes no signicativos y/o que fueron mal evaluadas de acuerdoa indicadores como el Criterio de Informacin de Schwarz (SIC). Un buen modelo tendr un buen ajuste(coeciente de determinacin cercano a la unidad) y arrojar residuos que se comportarn como ruido blanco.

    8.3 Modelos ARIMA con variables de intervencin

    Existen los modelos ARIMA con variables de intervencin, en los cuales las series econmicas son afectadas porfenmenos externos, tales como cambios tecnolgicos, huelgas, cambios en medidas de poltica o econmicas, cambiosen la legislacin o escala de algn impuesto, cambios metodolgicos en la medicin de las estadsticas, etc. Estosfenmenos son llamados intervenciones ya que intereren en el comportamiento original de la serie, por lo tantose debe evaluar su efecto e incorporarlo al modelo ARIMA a travs de variables articiales binarias (anlisis deintervencin).

    Se recurre a variables que explican la presencia de fenmenos exgenos en la serie de tiempo. Se incorporancomo variables dummy en la forma de impulsos y escalones que se utilizan para representar cambios temporaleso permanentes en el nivel de las series debidos a eventos especiales. La no-incorporacin de variables articialesconduce a sesgos en las estimaciones de los parmetros, a elevar el error estndar residual y en ocasiones a erroresen la especicacin del modelo ARIMA.

    La mayora de veces a priori no se conoce los fenmenos exgenos que afectan la serie de tiempo y ms bien

    se utiliza una primera aproximacin del modelo ARIMA para determinar la presencia de valores anmalos que sonposteriormente incorporados al modelo.

    A continuacin se describen las principales variables de intervencin [5]:

    Variables Impulso: Recoge el efecto de fenmenos que intervienen en la serie en un nico momento T0. Estose traduce en una variable que contiene un uno en T0 y ceros en el resto. Afecta el componente irregular dela serie.

    Variable escaln: Recoge el efecto de un cambio en el nivel en la serie, es decir, que contienen ceros hasta elmomento T0 y unos en adelante. Afecta el componente tendencia de la serie.

    Variable tendencia o rampa: Estas contienen ceros en un tramo de la serie hasta un momento T0, a partirdel cual empieza a crecer en forma ascendente. Afecta la tendencia de la serie.

    Efecto calendario: Este efecto se reere al hecho de que cabe esperar un mayor nivel de actividad en aquellosmeses con mayor nmero de das laborales, por lo cual hay que tomar en cuenta no solo el nmero de das decada mes, sino tambin su diferente composicin porcentual en trminos de lunes, martes, etc., en cada mes.

    Efecto de la semana santa o pascua (Easter eect): Con este efecto se intenta representar la inuencia de lafestividad mvil de semana santa ejerce sobre la actividad econmica en los meses de marzo y abril.

    Das de comercio (Trading-Days): Consiste en el ciclo semanal que se presenta cuando los das de la semanatienen un nivel de actividad distinto, unido a la distinta longitud de los meses; de tal modo que por ejemplo,un mes en particular podra tener un nivel de ventas superior a otro, debido nicamente a que posee un mayornmero de das.

    18

  • 7/25/2019 SERIES DE TIEMPO.pdf

    19/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    8.4 Modelos Autorregresivos con Promedio Mvil y Entradas Exgenas, ARMAX(p,q,n)

    Adems de componenter autorregresivas y de medias mviles, se pueden incorporar al modelo variables externas{Xig como regresores. Dichas variables son "externas" en el sentido de la informacin que contienen proviene deuna fuente distinta a la serie de tiempo que se desea pronosticar, y los modelos resultantes se denominan modelos

    ARMAX(p,q,n), donde p es la cantidad de componentes autorregresivas, q componentes de medias mviles y nvariables regresoras externas [6].

    Yt= + 1Yt1+ ::: + pYtp+ "t+ 1"t1+ ::: + q"tq+ 1X1;t+ ::: + nXn;t

    8.5 Modelos con varianza cambiante

    En los modelos de series de tiempo, podemos distinguir dos tipos de pronsticos, los condicionales, que estncondicionados a la informacin disponible hasta el momento, y los no condicionales. Por ejemplo, en el modeloAR(1), el pronstico condicional de yt+1 es E(yt+1) = + 1yt1. Este valor contrasta con el pronstico nocondicional que es, simplemente, la media de largo plazo de la serie, 1

    1

    . Se puede demostrar que la varianza

    del error de pronstico condicional es menor a la varianza del error de pronstico no condicional, por lo que losmodelos ARIMA presentados se utilizarn para la generacin de pronsticos condicionales.

    En muchas aplicaciones (modelamiento de la inacin, tasas de inters y rendimientos de acciones), la varianzacondicional de una variable cambia a travs, dependiendo de la magnitud de los errores del pasado. Se observa un agrupamiento de errores, esto es, periodos de alta volatilidad (y grandes errores) seguidos de periodos de bajavolatilidad (y errores menores).

    La adecuada representacin de las variables que muestran este tipo de heterocedasticidad requiere la denicinde un modelo para su varianza condicional. Una vez hecho esto se procede a la estimacin simultnea de los modelosde la media y de la varianza condicional. [1]

    8.5.1 Modelos de Heterocedasticidad Condicional Autorregresiva, ARCH(p)

    Se basan en la existencia de una relacin entre la varianza del error y los rezagos del error al cuadrado. La cantidadde rezagos utilizada determina el orden del proceso ARCH [1]:

    2t =0+ 1"2t1+ ::: + p"2tp

    8.5.2 Modelos de Heterocedasticidad Condicional Autorregresiva Generalizado, GARCH(p,q)

    Suponen una relacin entre la varianza del error, los rezagos del error al cuadrado y los rezagos de la varianza. Lacantidad de rezagos utilizada determina el orden del proceso GARCH:

    2t =0+ 1"2t1+ ::: + p"

    2tp+ 1

    2t1+ ::: +

    2q

    2tq

    Para el adecuado modelamiento de la varianza del error se deber recurrir a herramientas como el correlogramade los residuos al cuadrado y tests para detectar la presencia de heterocedasticidad condicional autorregresiva.[1]

    8.6 Vericacin en el modelo ARIMA

    Una vez estimado el modelo ARIMA y dado que el modelo va a ser utilizado para predecir, se debe vericar que secumplen las hiptesis de partida. El anlisis principal se centra en los residuos, pero tampoco se debe descuidar elanlisis de la bondad del ajuste del modelo estimado y el anlisis de los parmetros del modelo. A continuacin secitan algunos de los indicadores que se deben analizar [5]:

    Anlisis de los parmetros

    Valores de los parmetros

    jj< 1 condicin de invertivilidad (coef. de medias moviles)

    19

  • 7/25/2019 SERIES DE TIEMPO.pdf

    20/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    jj< 1 condicin de estacionariedad (coef. de autocorrelacion)

    Signicancia de los parmetros (t-Student)

    Bondad del ajuste

    Error estndar de los residuos

    Estadstico BIC

    Anlisis de los residuos (ruido blanco)

    Anlisis grco

    Histograma

    Correlograma de los residuos

    Estadstico Q de Box-Pierce:Q= T

    Xr2k

    Este valor se compara con el valor tabular de la

    2

    con k grados de libertad. Si el valor calculado esmayor que el valor tabular se rechaza la hiptesis de estacionariedad.

    20

  • 7/25/2019 SERIES DE TIEMPO.pdf

    21/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    9 Autocorrelacin

    Si se pretende establecer un modelo para una serie estacionaria un paso usual, luego de eliminar componentesestacionales y tendencias es estudiar la correlacin entre una observacin de la serie y las observaciones previas.La presencia de correlaciones altas entre observaciones de la serie (autocorrelaciones) puede ser consecuencia de un

    comportamiento lineal del fenmeno a travs del tiempo y nos da idea del tipo de modelo apropiado.Una forma visual de estudiar las autocorrelaciones es a travs de correlogramas. Este tipo de grca nos

    muestra la correlacin entre observaciones separadas por qintervalos de tiempo o lags. El proceso para calcularla autocorrelacin particiona las observaciones de la serie en dos grupos: fY1; Y2;:::;YtqgyfY1+q; Y2+q;:::;Ytg. Lacorrelacin es computada entre los dos conjuntos.

    9.1 Denicin

    Dado un proceso estocstico (Xt), se dene la funcin de Auto covarianza como la funcin que relaciona los valoresa diferentes instantes:

    (s; t) = C ov(Xs; Xt) = E[(Xs E(Xs))(Xt E(Xt))]

    Un proceso estocstico se dir Estrictamente Estacionario cuando la distribucin conjunta es invariante antetraslaciones, o sea la funcin de distribucin conjunta de cualquier subconjunto de variables es invariante respectoa un desplazamiento en el tiempo.

    Un proceso estocstico (Xt) se dir estacionario si se cumplen las siguientes condiciones:

    1. (s; t) = (s + r; t + r)

    2. E(Xt) = C

    3. E(X2t )< 1

    Cuando el proceso (Xt), es estacionario, es comn denir la auto covarianza como una funcin del desplazamientoh:

    (h) = Cov(Xt; Xt+h)

    La autocorrelacin corresponde a la auto covarianza normalizada por la varianza de Xt:

    (h) =(h)

    (0)

    La funcin de autocorrelacin resulta de gran utilidad para encontrar patrones repetitivos dentro de una seal,como por ejemplo, la periodicidad de una seal enmascarada bajo el ruido o para identicar la frecuencia funda-mental de una seal que no contiene dicha componente, pero aparecen numerosas frecuencias armnicas de sta.La autocorrelacin muestra la asociacin entre valores de la misma variable en diferentes periodos de tiempo (noaleatoria). La altura de la lneas en el correlograma representa la correlacin entre las observaciones que estnseparadas por la cantidad de unidades de tiempo que aparecen en el eje horizontal. La correlacin para el primerrezago siempre es uno por lo que no deben tomarse en cuenta en las interpretaciones

    La autocorrelacin parcial identica la relacin entre los valores actuales y los valores anteriores de la seriecronolgica original, despus de quitar los efectos de las autocorrelaciones de orden inferior. El correlograma PACFde autocorrelaciones parciales puede utilizarse para determinar, dado que parece existir una relacin entre lasobservaciones, el orden del modelo lineal que pudiera aplicarse. Una forma recursiva de calcularla es:

    21

  • 7/25/2019 SERIES DE TIEMPO.pdf

    22/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    1,...,2,1con),1(),(),1(),(donde

    ,...3,2si

    )(),1(1

    )(),1()(

    1si)(

    ),(1

    1

    1

    1

    ==

    =

    =

    =

    =

    =

    hjjhhhhjhjh

    kh

    jjh

    jhjhh

    hh

    hhh

    j

    h

    j

    9.2 Criterios

    Si ninguna de las autocorrelaciones es signicativamente diferente de cero, la serie es esencialmente ruidoblanco.

    Si las autocorrelaciones decrecen linealmente, pasando por el cero, o muestra un patrn cclico, pasando porcero varias veces, la serie no es estacionaria. Se tendr que diferenciarla una o ms veces antes de modelarla.

    Si las autocorrelaciones muestran estacionalidad, o se tiene una alza cada periodo (cada 12 meses, por ejemplo),la serie no es estacionaria y hay que diferenciarla con un salto igual al periodo.

    Si las autocorrelaciones decrecen exponencialmente hacia cero y las autocorrelaciones parciales son signica-tivamente no nulas sobre un pequeo nmero de rezagos, se puede usar un modelo autoregresivo

    Si las autocorrelaciones parciales decrecen exponencialmente hacia cero y las autocorrelaciones son signica-tivamente no nulas sobre un pequeo nmero de rezagos, se puede usar un modelo de medias mviles

    Si las autocorrelaciones simples y parciales decrecen lentamente hacia cero, pero sin alcanzar el cero, se puedeusar un modelo autoregresivo combinado con medias mviles

    22

  • 7/25/2019 SERIES DE TIEMPO.pdf

    23/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    10 Ejemplos de series de tiempo

    10.1 Funcin sinusoidal

    Consideremos la funcin, generada en Matlab:

    x=[1:1:100];y=cos(2*x);

    Si gracamos su correlograma obtenemos:

    23

  • 7/25/2019 SERIES DE TIEMPO.pdf

    24/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Observamos que sus autocorrelaciones totales se van a cero, y sus autocorrelaciones parciales son signicativasen sus dos primeras componentes, lo que indica que el modelo a usar es ARIMA(2,0,0). Al calcular el modelo

    obtenemos el siguiente resultado:

    24

  • 7/25/2019 SERIES DE TIEMPO.pdf

    25/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Podemos observar que el modelo es exacto, ya que el error es del orden de 1015; que se deben a efectosnumricos.

    10.2 Funcin sinusoidal con tendencia

    Consideremos la funcin, generada en Matlab:x=[1:1:100];y=cos(2*x)+exp(x/40);

    25

  • 7/25/2019 SERIES DE TIEMPO.pdf

    26/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Al gracar su correlograma obtenemos:

    26

  • 7/25/2019 SERIES DE TIEMPO.pdf

    27/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Como vemos, el correlograma indica que la serie no es estacionaria, por lo que se deber diferenciar la serie.Luego de diferenciar dos veces la serie, su nuevo correlograma es:

    27

  • 7/25/2019 SERIES DE TIEMPO.pdf

    28/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Esto indica que se debe ocupar un modelo ARIMA(3,2,0), obteniendo el siguiente resultado:

    28

  • 7/25/2019 SERIES DE TIEMPO.pdf

    29/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Nuevamente observamos que los resultados son exactos, ya que el error es del orden de 1010: Si reconstruimosla serie, integrando, obtenemos:

    29

  • 7/25/2019 SERIES DE TIEMPO.pdf

    30/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    10.3 Funcin multisinusoidal con tendencia y componente aleatoria

    Consideremos la funcin, generada en Matlab:x=[1:1:100];y=0.1*x+10*cos(x*pi/3).*sin(x*pi/9).*cos(x*pi/1.5)+1.5*randn(1,length(x));

    30

  • 7/25/2019 SERIES DE TIEMPO.pdf

    31/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Al observar su correlograma, obtenemos:

    31

  • 7/25/2019 SERIES DE TIEMPO.pdf

    32/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Como vemos, el correlograma indica que la serie no es estacionaria, por lo que se deber diferenciar la serie.Luego de diferenciar 8 veces la serie, su nuevo correlograma es:

    32

  • 7/25/2019 SERIES DE TIEMPO.pdf

    33/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Podemos observar que su autocorrelacin total se va a cero, pero su autocorrelacin parcial es fuertementesignicativa en las primeras 8 componentes, y luego se observa que son menos signicativas, pero no cero. Esto

    indica que se debe usar un modelo ARIMA(12,7,q), donde q se obtiene de forma emprica. Luego de probar variosvalores para q, obtenemos un modelo ARIMA(12,7,6):

    33

  • 7/25/2019 SERIES DE TIEMPO.pdf

    34/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Podemos observar que el modelo es bastante preciso en general, ya que hay 3 datos con un error relativo mayoral 10%, 5 datos con error del 10%, 8 datos con error del 5%, 48 datos con un 1% de error y 17 datos con un

    error menor al 1%. Este error es sobre la serie diferenciada 7 veces, por lo que se debe reconstruir la serie originalintegrando la serie obtenida, pero el error que se obtiene sigue siendo relativamente pequeo.

    10.4 Ventas mensuales de una empresa

    Se tienen las ventas mensuales de una empresa por un periodo de 50 meses. Se puede observar el siguiente grco:

    34

  • 7/25/2019 SERIES DE TIEMPO.pdf

    35/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Despus de hacer el anlisis de las autocorrelaciones, se decide diferenciar la serie 8 veces, obteniendo el siguientegrco:

    35

  • 7/25/2019 SERIES DE TIEMPO.pdf

    36/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    El correlograma muestra que se debe usar un modelo ARIMA(8,8,q)

    36

  • 7/25/2019 SERIES DE TIEMPO.pdf

    37/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Luego de hacer las pruebas, nos quedamos con un modelo ARIMA(12,8,4), que los resultados se observan en elsiguiente grco:

    37

  • 7/25/2019 SERIES DE TIEMPO.pdf

    38/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    11 Tcnicas de Inteligencia Computacional en Series de Tiempo

    11.1 Redes Neuronales

    Una red neuronal puede ser descrita como un modelo de regresin no lineal cuya estructura se inspira en elfuncionamiento del sistema nervioso. En trminos generales, una red consiste en un gran nmero de unidadessimples de proceso, denominas neuronas, que actan en paralelo, estan agrupadas en capas y estn conectadasmediante vnculos ponderados. Esto constituye la estructura de una red neuronal.

    38

  • 7/25/2019 SERIES DE TIEMPO.pdf

    39/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Cada neurona recibe inputs desde otras neuronas y genera un resultado que depende slo de la informacinlocalmente disponible, ya sea almacenada internamente o plasmada en los ponderadores de las conexiones. Eloutput generado por la neurona servir de input para otras neuronas.

    La llamada funcin de activacin, es una funcin que emula el umbral presente en el sistema nervioso, que si larespuesta de una neurona no es lo suciente mente grande, entonces esta no afecta en las siguientes neuronas. Lasfunciones ms usuadas son la funcin escaln, signo, sigmoideal, gaussiana y lineal.

    39

  • 7/25/2019 SERIES DE TIEMPO.pdf

    40/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Mediante la adecuada modicacin de los ponderadores de la red, en un proceso denominado aprendizaje, lared mejorar su desempeo en el desarrollo de la tarea para la cual fue construida. Este aprendizaje se basa enminimizar el error de la red neuronal. Los algoritmos clsicos que se usan para el aprendizaje de la red neuronal esel mtodo del gradiente, gradiente conjugado y Levenberg-Marquardt, siendo este ltimo el que presenta mejoresresultados, ya que la convergencia es ms estable y rpida.

    Las redes neuronales tienen el potencial de implementar funciones complejas. Se puede demostrar que una redneuronal sucientemente grande, con una estructura y ponderadores adecuados, es capaz de aproximar cualquierfuncin con el nivel de precisin que se desee.

    El diseo de una red para resolver un problema con xito puede ser una tarea muy compleja y larga dadola gran cantidad de decisiones de diseo que se deben tomar y la gran cantidad de parmetros que se debendenir. La enumeracin completa de todas las alternativas no es prctica por requerir de un elevado nmero deevaluaciones, motivndose la aparicin de variadas heursticas y reglas basadas en la experiencia. Sin embargo,ninguna heurstica ha mostrado la capacidad de entregar modelos con buen desempeo predictivo en cualquier

    conjunto de datos. Temas como la determinacin automtica del nmero de capas o neuronas ocultas estnactualmente bajo investigacin, lo que hace que, en la prctica, el mtodo ms comn para el diseo de redesneuronales sea el de prueba y error, cuya duracin podra ser prolongada dado que no se debe descartar una redmientras sta no haya completado su aprendizaje.

    En el desarrollo de pronsticos de series de tiempo, existen antecedentes de buenos resultados mediante elempleo combinado de modelos de series de tiempo (ARIMA) y redes neuronales. [1]

    11.1.1 Aplicacin de redes neuronales en series de tiempo

    El enfoque de las redes neuronales en series de tiempo, es que el valor de la serie en el tiempo T depende de formano lineal de los valores de la serie en T-1,...,T-k, es decir:

    yt= f(yt1;:::;ytk)

    Usualmente, se preprocesan los datos, diferenciando la serie para obtener la estacionalidad, y una normalizacinpara dejar la serie en el intervalo [-1,1], con la frmula:

    y_aux=2 y (max(y) + min(y))

    max(y) min(y)

    Una estructura tpica es considerar k neuronas de entrada, que corresponde al vector (yt1;:::;ytk), una capade n neuronas ocultas, con n menor que k, y una neurona de salida, que corresponde a yt: La coneccin ms usuales que cada una de las neuronas de entrada se conecta con todas las neuronas ocultas, y todas las neuronas ocultas

    40

  • 7/25/2019 SERIES DE TIEMPO.pdf

    41/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    se conectan con la neurona de salida. Usualmente se usando la funcin sigmoide como funcin de activacin entrelas neuronas, y la funcin lineal como funcin de salida.

    Una observacin tcnica es que se crean dos neuronas fantasmas, una en la capa de entrada y otra en la capaoculta, y siempre su respuesta es igual a 1. Esto se hace para considerar las respectivas constantes de umbral en latransferencia entre las capas.

    En nuestro ejemplo, consideramos 8 neuronas de entrada y 4 neuronas oculatas, donde la funcin es y=3*sin(7*x)+5*cluego de diferenciarla una vez y normalizandola.

    Podemos observar que hay casos el error de la red se mantiene a lo largo del tiempo. Pueden haber varias causasde este fenmeno:

    1. El algoritmo de aprendizaje cay en un mnimo local

    2. La cantidad de neuronas es menor al ptimo

    3. La estructura de la red no es la adecuada

    4. Las funciones de activacin no es la adecuada

    11.1.2 Redes ARIMA

    Un modelo bastante interesante de redes neuronales es simular un modelo ARIMA. Por ejemplo, si deseamos simularun modelo ARIMA(4,0,0), entonces consideramos una red neuronal de una capa de entrada con 4 neuronas y unaneurona de salida, con la funcin lineal como activacin.

    Tericamente, el modelo matemtico es el mismo, pero en la prctica, este modelo tiene caractersticas diferentesal modelo ARIMA original. Esto se debe netamente a la forma de entrenar el modelo, ya que el modelo ARIMAse entrana atravs de regresiones lineales, mientras que las redes neuronales atravs de algoritmos no lineales.

    Esta diferencia en el entrenamiento implica dos diferencias importantes en los modelos obtenidos.

    41

  • 7/25/2019 SERIES DE TIEMPO.pdf

    42/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Outlayers En el caso del entrenamiento con regresin lineal, el modelo ARIMA es sensible a los outlayers,convergiendo a un modelo con ruido. En el caso de las redes neuronales, como el entrenamiento es punto a punto,si la cantidad de outlayers es menor, entonces los datos correctos arreglarn el error generado por los outlayers,convergiendo al modelo exacto.

    Por ejemplo, el siguiente grco muestra una regresin exacta, ya que todos los puntos son colineales: y=2*x+10

    Ahora, si agregamos 3 outlayers, la regresin deja de ser exacta:

    42

  • 7/25/2019 SERIES DE TIEMPO.pdf

    43/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Si al mismo set de datos entrenamos la curva con redes neuronales, obtenemos el siguiente resultado:

    43

  • 7/25/2019 SERIES DE TIEMPO.pdf

    44/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Luego, esto indica que la forma de entrenar con redes neuronales ayudar a no tomar en cuenta los datosoutlayers, siempre y cuando sean en una proporcin pequea.

    Cantidad de parmetros En el caso del entrenamiento con regresin lineal, el modelo ARIMA es sensible a lacantidad de parmetros, por ejemplo, si se dene la funcin:

    y(1)=2;y(2)=1;y(3)=5;y(4)=3;for k=5:1:length(x)

    y(k)=0.6*y(k-1)-0.3*y(k-2)-0.2*y(k-3)+0.7*y(k-4)+3;endEntonces el modelo ARIMA(4,0,0) va a converger de forma exacta al modelo, pero ARIMA(5,0,0) no converge

    a la solucin. Es decir, es muy sensible a la precisin de la cantidad de parmetros. Por otro lado, al aplicar lasredes arima al ejemplo anterior, simulando ARIMA(4,0,0), el mtodo converge a la solucin exacta, y al emularARIMA(5,0,0), converge a otra solucin de parmetros: [1.3382, -0.7403, 0.0213, 0.8467, -0.5174, 0.7734]. Sireconstruimos esta funcin

    z(1)=2;z(2)=1;z(3)=5;z(4)=3;z(5)=4.5;for k=6:1:length(x)

    z(k)=1.3382*z(k-1)-0.7403*z(k-2)+0.0213*z(k-3)+0.8467 *z(k-4)-0.5174*z(k-5)+0.7734;

    44

  • 7/25/2019 SERIES DE TIEMPO.pdf

    45/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    end

    y gracamos ambas funciones, observamos que es la misma, pero codicada de otra forma:

    En otras palabras, con esta forma de entrenar no es necesario conocer la cantidad exacta de parmetros delmodelo.

    11.2 Support Vector Machines

    SVM fueron creados por Boser, Guyon y Vapnik en 1992. La formulacin original est motivada por la resolucinde problemas de clasicacin, donde la idea bsica de SVM para abordar tal problema consiste en "mapear losdatos desde el espacio original a un espacio de mayor dimensin a travs de una transformacin no lineal escogidaa priori, para luego contruir el hiperplano de separacin ptimo en el nuevo espacio". De esta manera, mediante laresolucin de un problema lineal en el nuevo espacio, se tiene un modelo no lineal en espacio original.

    En base a la misma losofa, el mtodo se extendi luego a problemas de regresin y de clustering. Desde sucreacin, SVM han acaparado gran atencin terica, siendo el mtodo aplicado con xito a problemas prcticos de

    prediccin de series de tiempo de distinta naturaleza.Dentro de las principales caractersticas de SVM se cuentan [6]:

    la resolucin de un problema convexo y la imposibilidad de entrampamiento en ptimos locales

    la representacin de la solucin en base a una fraccin del total de puntos disponibles (estos puntos sonllamados Support Vectors)

    la capacidad de generalizacin a nuevos datos, debido a que el algoritmo SVM encarna el principio de mini-mizacin del riesgo estructural propuesto en la Teora de Aprendizaje Estadstico de Vapnik

    45

  • 7/25/2019 SERIES DE TIEMPO.pdf

    46/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    la capacidad de modelas fenmenos no lineales mediante la ya citada transformacin de los datos desde elespacio original a un espacio de mayor dimensin, espacio en el cual se obtiene un modelo lineal que equivalea un modelo lineal en el espacio original

    11.2.1 Deniciones del modelo

    Funciones de Kernel Un kernel se dene como una funcin K, tal que8x; z2 X

    K(x; z) =

    donde X es el espacio de los datos de entrada (nito, generalmente Rn); y es una funcin de mapeo de losdatos de entrada desde X a un espacio F de mayor dimensin, donde es el producto interno de F.

    Se puede probar que K(x,z) es una funcin de kernel si y slo si la matriz M=(K(x i; xj ))ni;j=1 es semidenida

    positiva. Alguno de los kernel ms comunes son:

    Lineal: K(x,x)=

    Polinomial: K(x,x)=(+1)d

    RBF: K(x,x)=exp(-kx x0k2

    =22)

    Estructura de la SVM El modelo de SVM se puede ver como capas de nodos, en donde:

    La primera capa consta de n nodos, que corresponden al vector de entrada

    La segunda capa consta de N nodos, que es la transformacin no lineal a base de support vectors

    La tercerca capa contiene 1 solo nodo, que es la prediccin

    Cada capa se conecta de forma completa con la siguiente

    Los nodos que llegan al nodo de output se ponderan por constantes, que son a determinar por el modelo, yluego se suman

    Durante el proceso de aprendizaje, la primera capa selecciona las bases K(xi; X); i= 1;::;N;dentro del conjuntode bases posibles, en tanto que la segunda capa construye una funcin lineal en el nuevo espacio, lo que es equivalentea encontrar un modelo no lineal en el espacio de entrada. Las N bases seleccionadas son aquellas inducidas por lospuntos denominados Support Vectors.

    Funciones de prdida El modelo que se busca es de la forma y=f(x)+e, donde f(x) es una funcin no lineal ye el error. Luego, uno desea minimizar el valor de yi f(xi)=e; para cada i, y para esto se usa una funcion deprdida. Las ms comunes son

    Cuadrtica: L(f(x),y)=(f(x)-y)2

    " sensible: L(f(x),y,")= 0 si jf(x)-yj

  • 7/25/2019 SERIES DE TIEMPO.pdf

    47/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    11.2.2 Algoritmo de Regresin SVM

    El problema de optimizacin que encuentra los pesos del modelo, usando funcin de prdida " sensible es

    min

    1

    2kwk2

    s:a:yi < w; (xi)> b "

    yi+ < w; (xi)> +b "

    El problema es que puede ser que no exista solucin, por lo que se reformula como

    min1

    2kwk2 +C

    lXi=1

    (i+ i )

    s:a:yi < w; (xi)> b " + iyi+ < w; (xi)> +b " +

    i

    i;

    i 0; i= 1; 2;:::;l

    donde C es un parmetro a jar, que representa el trade-o entre la complejidad y la exactitud del modelo, y elparmetro" representa el rango de tolerancia a los errores en el modelo. Este problema tiene solucin, y ademses convexo, por lo que los mtodos de optimizacin convergen bien a la solucin, y el planteamiento del dual esbastante ms sencilla que el problema primal.

    Una vez encontrados los pesos w, entonces nuestro modelos es:

    y=NX

    i=1

    wiK(Xi; x)

    12 Modelo para un conjunto de series de tiempo

    Todos los modelos clsicos de series de tiempo presentados parten del supuesto que uno conoce una historiaprolongada de la serie, sigue algn comportamiento estacionario (u obtenerlo al diferenciar la serie), y se tieneuna sola serie de tiempo. En muchos casos, estos supuestos no se cumplen, por lo que los modelos presentadosanteriormente fallan. En esta seccin presentaremos una metodologa para abordar un tipo de problema de seriede tiempo bastante diferente.

    12.1 Denicin del problema

    En muchos casos, se tiene una gran base de datos con una historia relativamente pequea de series de tiempo, perola cantidad de series de tiempos diferentes es enorme. Ejemplos de estos son los bancos, que tienen la historia desus clientes, pero en muchos casos estos son solo un par de meses.

    Adems, estos datos pueden presentar una variabilidad enorme, por lo que el uso de estadsticos de variabilidadcomunes como la desviacin estndar y el coeciente de variacin no sean de gran utilidad.

    A pesar de esta gran variabilidad, se desea hacer pronsticos a corto plazo de los valores de las distintas seriesde tiempo, pero esta prediccin debe ser diferente para cada serie de tiempo en particular.

    12.2 Algunos principios claves

    12.2.1 Concepto de dato "normal"

    El problema principal se reduce a saber si un dato est dentro de un intervalo esperado, en otras palabras, si elvalor es "normal", Pero que signica que un dato sea "normal"?. Debemos denir el concepto de "normal":

    47

  • 7/25/2019 SERIES DE TIEMPO.pdf

    48/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Normal es el trmino por el que es conocido cualquier cosa que carece de diferencias signicativas con sucolectivo.

    Normal tambin es un trmino estadstico, que hace referencia al promedio aceptado.

    Pero para que algo sea "normal", debe existir un patrn a seguir, alguna regla. Ahora, para una misma caracterstica, esta regla de "normalidad" puede ir cambiando dependiendo del

    entorno.

    Por ejemplo, algo tan cotidiano como el desayuno, el concepto de "normal puede variar drsticamente:

    Un desayuno japons normal, consiste en una sopa, arroz, y un vegetal.

    En Chile se desayuna generalmente caf o t, con o sin leche, acompado de tostadas con mantequilla,huevo revuelto, palta, queso o jamn.

    En Argentina se desayuna mate cocido, t o caf con leche, con algo dulce (medialunas, facturas, masitasdulces).

    Pero para los japoneses, el desayuno japons es "normal". Esto es porque todos ellos tienen tienen un compor-tamiento similar. Para poder ver si un dato es normal, debemos compararlo con sus vecinos, que son los individuosque ms se parecen. Pero ahora aparece otro problema, Qu clientes se parecen entre s? Para ver si dos clientesse parecen, debemos denir una cierta "distancia" entre los clientes La vecindad de un cliente en particular sernaquellos clientes que estn ms cerca. Denamos que signica el concepto de "distancia" entre los clientes.

    12.2.2 Concepto de "distancia"

    Para poder denir el concepto de distancia, hay que tomar una escala de comparacin. Por ejemplo:

    [1 2 3 4 5] se parece a [10 20 30 40 50]?

    [1 2 3 4 5] se parece a [2 3 2 3 2]?

    [1 2 3 4 5] se parece a [2 3 4 5 6]? Lo que importa para considerar la distancia no son sus valores en s, sino la forma de estos:

    12.3 Caractersticas fundamentales del modelo

    12.3.1 Normalizando los datosPara hacer los datos comparables, debemos normalizarlos. La normalizacin que conserva la forma de los datos,pero los lleva a una misma escala es

    ~X=X

    Adems, se cumple que E(~X) = 0y V ar(~X) = 1: Aplicando esta normalizacin a los datos anteriores obtenemos:

    [1 2 3 4 5] =)

    1:2649 0:6325 0 0:6325 1:2649

    [10 20 30 40 50] =)

    1:2649 0:6325 0 0:6325 1:2649

    48

  • 7/25/2019 SERIES DE TIEMPO.pdf

    49/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    [2 3 2 3 2] =)

    0:7303 1:0954 0:7303 1:0954 0:7303

    [2 3 4 5 6] =)

    1:2649 0:6325 0 0:6325 1:2649

    Ahora, los nmeros muestran lo mismo que los grcos.

    12.3.2 Funcin de distancia

    Ahora bien, para generalizar la distancia entre cualquier conjunto de datos, tomamos la correlacin entre los datosnormalizados:

    corr(X; Y) =

    Pni=1 xiyipPn

    i=1 x2i

    Pni=1 y

    2i

    La correlacin indica la fuerza y la direccin de una relacin lineal entre los datos. Aplicandolo en el ejemploanterior:

    corr([1:2649 0:6325 0 0:6325 1:2649]; [1:2649 0:6325 0 0:6325 1:2649]) = 1

    corr([1:2649 0:6325 0 0:6325 1:2649]; [0:7303 1:0954 0:7303 1:0954 0:7303]) = 0

    Luego, nuestra vecindad sern aquellos clientes que tienen una correlacin cercana a 1

    12.3.3 Caractersticas de la vecindad

    Dado que tenemos datos atravs del tiempo, estos son una serie temporal, que proviene de un proceso estocsticodiscreto. Este proceso estocstico tiene una ley de probabilidad conjunta. Al tomarnos una vecindad del cliente,los vecinos tendrn una ley de probabilidad conjunta muy similar a la original, por lo menos en el intervalo decomparacin. Si promediamos todos los vecinos, obtendremos otro proceso estocstico, pero con una caractersticamuy importante:

    E( 1NP

    X) = E(X)

    V ar( 1NP

    X) = V ar(X)n

    Luego, el proceso promedio tendr el mismo valor esperado, pero una varianza mucho menos si n es grande.Comones el nmero de vecinos, se debe tomar el mximo valor de vecinos, pero que tengan una ley de probabilidadconjunta similar a la original.

    12.3.4 Independencia de los datos con el tiempo

    Recordemos que lo ms importante de nuestra funcin de distancia, es que capture la "forma" de los datos. Esdecir, importa el orden de los datos, pero no importa la posicin temporal de los datos:

    Si en el ao 2007 tengo los datos [1 2 3 4 5 6 7 8 9 10 11], mi prediccin para el mes de Diciembre ser 12.

    Si en el ao 2008 tengo los datos [1 2 3 4 5 6 7 8 9 10 11], mi prediccin para el mes de Diciembre ser 12.

    Adems, no es necesario conocer toda la historia de un cliente para predecir el valor del prximo mes, basta conuna "ventana de tiempo". La memoria no es eterna, tiene una largo nito. Los hechos del pasado lejano inuyeronsobre el pasado cercano, y estos inuyen sobre el presente. Luego, al considerar una ventana de tiempo ja, y quela posicin temporal de los datos no importa, podemos "viajar al pasado"

    49

  • 7/25/2019 SERIES DE TIEMPO.pdf

    50/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    12.3.5 Principio fundamental del modelo

    "Si en el pasado se conoce nuestro presente, entonces se conoce el futuro del pasado". Si tomamos una ventanade tiempo ja, con los ultimos datos del cliente, podemos comparar su comportamiento en el pasado con otrosclientes. Al viajar al pasado, buscamos los clientes que ms se parecen en esta ventana de tiempo. Luego, la

    ley de probabilidad conjunta de cada una de las ventanas de tiempo se van a parecer entre s en una vecindadde la ventana. Como conosco los datos fuera de la ventana de los clientes, puedo estimar el futuro del cliente.Este estimador ser el promedio de los vecinos, ya que de esta forma se mantiene el promedio, pero la varianzadisminuye, dependiende del nmero de clientes seleccionados.

    12.3.6 Ejemplo

    Se tiene un cliente con la serie [1 5 2 6 3 7 4 5 6 7 8 9]

    Consideramos la ventana de tiempo [4 5 6 7 8 9]

    Se tiene otro cliente con la serie [2 3 4 5 6 7 8 11 15 16 14 11]

    Si viajo al pasado 6 meses, la ventana de tiempo del ltimo cliente ser [2 3 4 5 6 7]

    Luego, la correlacin entre [4 5 6 7 8 9] y [2 3 4 5 6 7] es 1, luego este dato es un vecino, y el valor estimadopara el cliente original ser 10

    Luego, este procedimiento se repite con todos los vecinos, y el valor esperado ser el promedio de las estima-ciones.

    12.4 Explicacin matemtica del modelo

    Conozco 20 meses de N clientes. Sea k el cliente que quiero predecir sus ventas en el mes 21. Si consideramos unaventana de tiempo de largo L=8, entonces tomo los meses [13 14 15 16 17 18 19 20] del cliente k. Denotemos comoXk este vector. Normalizamos este vector:

    ~Xk =Xk Xk

    std(Xk)De los dems datos consideramos los meses [10 11 12 13 14 15 16 17], ya que debemos retroceder 3 meses.

    Denotemos Xi el vector asociado al cliente i6=k: Ahora normalizamos cada uno de estos vectores:

    ~Xi=Xi Xi

    std(Xi)

    Comparamos ~Xk con cada uno de los ~Xi y nos quedamos con los q vectores ms parecidos. Estos son los qvectores con la correlacin corr( ~Xk; ~Xi) ms cercana a 1, o de forma equivalente, con el menor error cuadratico.

    Ei=LX

    j=1

    (~Xji ~Xjk)

    2

    Considere q=10 vecinos. Tomamos el valor del mes 18 de cada uno de estos vecinos y los normalizamos segn elintervalo anterior, es decir:

    ~Yj =Yj Xjstd(Xj )

    dondeYj es el valor en el mes 18 (ya que 21-3=18) del vecino j, y Xj es el vector de los meses [10 11 12 13 14

    15 16 17] de ese vecino. Luego, tomamos el promedio de cada uno de eso ~Yj :

    ~Y =

    Pqj=1

    ~Yj

    q

    50

  • 7/25/2019 SERIES DE TIEMPO.pdf

    51/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    Repito el mismo procedimiento, pero ahora considerando los meses [1 2 3 4 5 6 7 8], ya que

    1 2 3 4 5 6 7 8 9 10 11 1210 11 12 13 14 15 16 17 18 19 20 21

    1 2 3 4 5 6 7 8 9

    Luego, la nueva prediccin ser a base del mes 9=21-12. Denotemos Zj a la normalizacion de cada una de las

    predicciones de los vecinos, y llamemos Z al promedio de las predicciones. Ahora, promediamos ambas predicciones:

    ~W =~Z+ ~Y

    2

    Finalmente, la prediccin para el mes 21 del cliente k ser:

    P= ~W std(Xk) + Xk

    dondeXk es el vector de los meses [13 14 15 16 17 18 19 20] del cliente kEl intervalo de conanza ser

    [Iinf std(Xk) + Xk; Isup std(Xk) +

    Xk]

    donde

    Iinf = ~W

    r E

    L 1 z

    s qP

    j=1( ~Yj ~W)2 +

    qPj=1

    (~Zj ~W)2

    2 q 1

    Isup = ~W+

    r E

    L 1+ z

    s qP

    j=1( ~Yj ~W)2 +

    qPj=1

    (~Zj ~W)2

    2 q 1

    con z=2.861, y E= 12q

    2qPi=1

    LPj=1

    (~Xji ~Xjk)2; donde ~Xji es la componente j del vecino i normalizado, y ~Xjk es la

    componente j del cliente k normalizado. En otras palabras, E es el promedio de los errores cuadraticos medios.El intervalo de rango ser

    [Imin std(Xk) + Xk; Imax std(Xk) + Xk]

    donde

    Imin = min(minj

    ~Yj ; minj

    ~Zj )

    Imax = max(maxj

    ~Yj ; maxj

    ~Zj )

    Obs: Recuerde que ~Yj denota al j-esimo vecino de la primera ventana de tiempo, y ~Zj denota al j-esimo vecinode la segunda ventana de tiempo.

    Para considerar las transacciones, se reemplaza la tabla de ventas por la de transacciones, y lo dems es igual.

    51

  • 7/25/2019 SERIES DE TIEMPO.pdf

    52/52

    Universidad De ChileFacultad De Ciencias Fsicas y Matemticas

    Escuela de IngenieraDepartamento de Ciencias de la Computacin

    12.5 Resultados