44
Escuela Superior Politécnica del Litoral Materia de Graduación: Regresión Lineal Avanzada RLA “Construcción de Software para Regresión: El Caso de Selección de Modelos y Pruebas de Homocedasticidad” Graduandos: Macías Cabrera Sindy Victoria Pincay Chiquito César Alfonso Previa a la obtención del Título de: INGENIERO EN ESTADÍSTICA INFORMÁTICA

Seleccion de Modelos y Pruebas de Homocedasticidad - Final

Embed Size (px)

DESCRIPTION

PSD

Citation preview

Diapositiva 1

Construccin de Software para Regresin: El Caso de Seleccin de Modelos y Pruebas de Homocedasticidad Graduandos: Macas Cabrera Sindy VictoriaPincay Chiquito Csar AlfonsoPrevia a la obtencin del Ttulo de:INGENIERO EN ESTADSTICA INFORMTICAEscuela Superior Politcnica del LitoralMateria de Graduacin: Regresin Lineal AvanzadaRLA1ContenidoIntroduccinModelos de RegresinSeleccin de Variables de PrediccinAcerca de ERLAValidacin del Modelo en el Software ERLAConclusiones y Recomendaciones

Mayo 31 de 20122Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.2IntroduccinAnlisis de Regresin.Medidas de bondad de AjusteDesarrollo de ERLA.

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.33Modelos de RegresinRegresin Polinmicase tiene una variable dependiente y una variable de explicacin, que se relacionan por un modelo polinmico.

Regresin Lineal SimpleEn este caso se tiene una variable independiente, una variable dependiente y una relacin rectilnea entre ellos.

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.4

viene Modelos de RegresinRegresin Lineal MltiplePara este caso se tiene a una variable dependiente y varias variables de explicacin o independientes.

Supuestos:

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.5

viene Modelos de RegresinRepresentacin Matricial del Modelo de Regresin Lineal MltipleEl modelo para i=1, 2, 3,, n, con p parmetros (p-1) variables de explicacin, se lo puede representar matricialmente de la siguiente manera:

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.6

viene Modelos de RegresinDonde:El vector de observaciones La matriz de diseo El vector de parmetros El vector de errores Adems hay tener en cuenta que: ya que La Matriz de Varianzas y Covarianzas del Error es:Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.7

Estimacin de los ParmetrosDe acuerdo con el modelo y las condiciones previamente mencionadas, se tiene el vector y son parmetros desconocidos pero estadsticamente estimables.Como mtodos de estimacin de parmetros se identifican: Mnimos Cuadrados y Mxima Verosimilitud.

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.8

viene Estimacin de los ParmetrosEstimacin por Mnimos CuadradosEste es un mtodo de ajuste de curvas que a principios del siglo XIX sugiri el matemtico francs Adrien Legendre.

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.9

viene Estimacin de los ParmetrosAplicando el criterio de las derivadasMayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.10

viene Estimacin de los ParmetrosEstimacin por Mxima Verosimilitud Este mtodo se basa, en la distribucin del error. De acuerdo a lneas previas se dijo que el error tiene distribucin Normal, por lo que la distribucin de es tambin Normal: Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.11

viene Estimacin de los ParmetrosLa expresin de la funcin de densidadconjunta para el vector es la siguiente:

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.12

viene Estimacin de los ParmetrosBasados a la expresin anterior se tiene que la funcin de verosimilitud en forma matricial y en termino de los parmetros es la siguiente:

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.13

viene Estimacin de los ParmetrosPor lo que los betas por estimacin de mxima verosimilitud se los define como sigue:

Cuya matriz de varianzas y covarianzas es:Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.14

Matriz HATLa Matriz Hat, H, relaciona los valores ajustados con los valores observados , lo cual indica la influencia que cada valor observado tiene sobre cada valor ajustado.Pues bien, suponiendo un modelo de regresin lineal, se tiene que:

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.15

Anlisis de VarianzaTabla AnovaMayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.16

En vista de que tiene distribucin ,con de confianza se debe rechazar H0 a favor de H1, si el estadstico F0 es mayor que el percentil de con grados de libertad en el numerador y grados de libertad en el denominador.

16Anlisis de VarianzaTabla Anova en forma Matricial:Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.17

Seleccin de variables de prediccinSe supone que el nmero de variables explicativas que pueden haber en el modelo es (p -1), el nmero de observaciones es n; y, si se ajusta un modelo de regresin lineal con estas variables explicativas, el nmero de parmetros del modelo es p. Entonces se definen las siguientes medidas de bondad de ajuste:Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.18viene Seleccin de variables de prediccinCoeficiente de Determinacin (R2)R2-AjustadoVarianza Residual ( )Estadstico de MallowsCriterio de Informacin de Akaike (AIC)Suma de Cuadrados de Prediccin (PRESS)Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.19

viene Seleccin de variables de prediccinCoeficiente de Determinacin (R2)

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.20R2-Ajustado

viene Seleccin de variables de prediccin en trminos del Coeficiente de Determinacin R2Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.21

Dicha expresin en trminos de varianzas se tiene que:

viene Seleccin de variables de prediccinLa ecuacin anterior muestra que no aumenta necesariamente con una variable de explicacin ms. Si no hay mejora en R2adj por la adicin de una variable, que El trmino en realidad baja el por esta razn este indicador es una mejor medida que R2 para la seleccin del modeloMayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.22

viene Seleccin de variables de prediccinVarianza Residual ( )

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.23El criterio de minimizar la varianza residual es equivalente al criterio de maximizar el coeficiente de determinacin ajustado.La varianza residual no se la considera como un indicador de seleccin de modelos, sino ms bien como una gua para as determinar cul de los indicadores es el que ms conviene en el estudio de Regresin.

viene Seleccin de variables de prediccinEstadstico de MallowsEste criterio toma en cuenta la Media Cuadrtica del Error, es decir la varianza del error en la seleccin del modelo, lo que conlleva a que si se omite una variable explicativa importante que influya en la prediccin, los estimadores de los coeficientes de regresin seran sesgados, es decir lo cual indica que el objetivo de este indicador es minimizar la MCE.

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.24

viene Seleccin de variables de prediccinEstadstico de MallowsCP de Mallows est definido como:

El valor en el que el Cp es el mejor es cuando este se aproxima al nmero de parmetros.

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.25

viene Seleccin de variables de prediccinCriterio de Informacin Akaike (AIC)

Este criterio es similar al Cp una medida de bondad de ajuste, pero el AIC considera la funcin verosimilitud.Seleccionamos el modelo que tenga el menor valor de AIC.

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.26

viene Seleccin de variables de prediccinSuma de Cuadrados de Prediccin (PRESS)Supongamos que hay p parmetros en el modelo y que tenemos n observaciones disponibles para estimar los parmetros del modelo, en cada paso se deja de lado la i-sima observacin del conjunto de datos y se calculan todas las regresiones posibles; se calcula la prediccin y el residual correspondiente para la observacin que no fue incluida, el cual es llamado el residual PRESS.

Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.27

Acerca de ERLAERLA es un software desarrollado para ser implementado en Microsoft Windows, para el cual se utiliz Visual Basic.NET y Matlab. La utilizacin bsica de estos dos programas es Visual Basic.NET para la presentacin de la interfaces de interaccin con el usuario y Matlab para el desarrollo de las funciones matemticas y estadsticas.Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.28Acerca de ERLAMATLAB(Laboratorio de Matrices)Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.29

Command Window.- Es la ventana de comandos para interactuar.

Command History.- Contiene el registro de los comandos que han sido ingresados.

Workspace.-Contiene la descripcin de las variables usadas en cada seccin.Acerca de ERLASe presenta el algoritmo utilizado para construir la Funcin Regresin Lineal :Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.30function R1=RegressionCoefficients(y,MX)%El primer argumento debe ser la variable a ser explicada%El segundo argumento debe ser la matriz con variables de explicacin%Devuelve una matriz con las inferencias sobre los betasparamat long g;d=size(MX);n=d(1);p=d(2)+1;j=ones(n,1);X=[j,MX];I=eye(n);J=ones(n);

A=inv(X'*X);H=X*A*X';SCE=y'*(I-H)*y;MCE=SCE/(n-p);b=A*X'*y;Sb=MCE*A;R1=zeros(p,4);para i=1:p R1(i,1)=b(i); R1(i,2)=sqrt(Sb(i,i)); R1(i,3)=R1(i,1)/R1(i,2); R1(i,4)=abs(R1(i,3)); R1(i,4)=tcdf(R1(i,4),n-p); R1(i,4)=(1-R1(i,4))*2; finAcerca de ERLASe presenta el algoritmo utilizado para el calculo de los indicadores de calidad del modelo :Mayo 31 de 2012Seleccin de Modelos y Pruebas de Homocedasticidad Macas S. , Pincay C.31funcin M=modelosR2(y,MX)t1=size(MX);v=t1(2);SCT=R2Ajustado2_SCT(y,MX);para i=1:v c(i)=nchoosek(v,i);fin p=1;i=1;k=c(1);t=0;si v==1 M(t+1)=R2 Ajustado2(y,MX,SCT); M=M';Si no mientras i