Selva Figueroa

Embed Size (px)

Citation preview

  • 7/25/2019 Selva Figueroa

    1/54

  • 7/25/2019 Selva Figueroa

    2/54

  • 7/25/2019 Selva Figueroa

    3/54

  • 7/25/2019 Selva Figueroa

    4/54

  • 7/25/2019 Selva Figueroa

    5/54

    Captulo 1

    Introduccin

    Una de las situaciones ms frecuentes en el anlisis estadstico es que los datos provengan deobservaciones o respuestas conocidas yi que dependen de un conjunto de valores, fijos o aleatorios,xi.

    Una manera adecuada de modelar esta relacin es a travs de un modelo de regresin de la forma

    yi= f(xi,) +i i= 1, , n

    donde xi = (xi1, xi2, , xik)t, f(x,)es una funcin generalmente conocida, = (1, , p)t esun vector de parmetros p-dimensional desconocido y los irepresentan los errores experimentales.

    En muchas situaciones, el modelo de regresin lineal

    f(x,) =0+1x1+...+kxk

    es adecuado para modelar la relacin entre la variable respuesta y y las covariables x. En algunos

    casos donde no hay relacin lineal evidente entre las variables respuesta y regresoras, con unatrasformacin de las variables podemos linealizar la relacin.

    Pero cuando las consideraciones tericas lo sugieren o los datos no muestran un comportamientolineal, hacemos uso de los modelos no lineales. An cuando una aproximacin lineal funciona bien,un modelo no lineal puede dar una mejor interpretacin del problema.

    Algunos ejemplos que analizaremos son:

    Ejemplo 1 : Datos de crecimiento de cebollas.

    Los datos corresponden al crecimiento de la cebolla estudiado por Ratkowsky , ver [17] ytomado por Lawrence y Arthur , ver [15].

    2

  • 7/25/2019 Selva Figueroa

    6/54

    2 4 6 8 10 12 14

    0

    100

    200

    3

    00

    400

    500

    600

    700

    OnionRatkowsky

    X

    Y

    Modelos de crecimiento sigmoidal fueron propuestos para este tipo de datos, entre ellos elmodelo de Gompertz, basado en la distribucin Weibull:

    f(x,) =1 exp( exp(2 3 x)) .

    Ejemplo 2: Huesos de ciervo.

    Este conjunto de datos muestra la longitud del hueso de la mandbula como una funcin dela edad en los ciervos. La teora indica que la relacin es una funcin asinttica exponencialcon dos parmetros:

    f(x,) =1(1 e2x).

    0 10 20 30 40 50

    0

    20

    40

    60

    80

    100

    120

    140

    Deer

    age

    bone

    Ejemplo 3 : Chwirut2.

    El conjunto de datos original contiene las mediciones provenientes de un experimento queestudia como la respuesta al ultrasonido depende de la distancia al metal. Los datos son delibre acceso y pertenecen al NIST (National Institute of Standards and Technology) (1979).UltrasonicReference Study Block (D. Chwirut). Technical report.

    http://www.itl.nist.gov/div898/strd/nls/data/chwirut2.shtml

    3

  • 7/25/2019 Selva Figueroa

    7/54

  • 7/25/2019 Selva Figueroa

    8/54

  • 7/25/2019 Selva Figueroa

    9/54

    Captulo 2

    Mtodos de estimacin

    Dados npares de observaciones (yi,xi), el modelo de regresin no lineal con regresor fijo es dela forma

    yi= f(xi,) +i (2.0.1)

    donde los erroresison independientes tales que E(i) = 0para1 i n. El vector de parmetros Rp es desconocido.

    Existen varios mtodos para estimar el valor de , con distintas propiedades de acuerdo a lainformacin que tengamos sobre las observaciones: Mnimos cuadrados no lineal, Mxima verosimil-itud, Cuasi-verosimilitud y Mtodos robustos. En este captulo haremos una revisin de estos pro-cedimientos.

    2.1. Mnimos cuadrados no lineal

    El estimador de mnimos cuadrados, se obtiene al minimizar la suma de cuadrados:S() =

    ni=1

    (yi f(xi;))2 = y f()2 Rp

    donde

    y = (y1, . . . , yn)t

    fi() = f(xi;)

    f() = (f1(), f2(), . . . , f n())t.

    Bajo condiciones de regularidad, que incluyen que los errores i, 1

    i

    n sean independientese identicamente distribuidos con varianza 2, tenemos que y s2 =S()/(n p)son estimadoresconsistentes de y2, respectivamente.

    Si llamamos

    F() =f()

    t =

    fi()

    j

    6

  • 7/25/2019 Selva Figueroa

    10/54

  • 7/25/2019 Selva Figueroa

    11/54

  • 7/25/2019 Selva Figueroa

    12/54

    Mtodo de GaussNewton. Este procedimiento se basa en la aproximacin lineal de la funcinmediante un desarrollo de Taylor de primer orden de la funcin f.

    Llamemos(a) a una aproximacin del estimador de mnimos cuadradosdel modelo no linealyi= f(xi,

    ) +i.

    Para cercano a (a)

    sabemos que es vlida la aproximacin lineal de Taylor

    f() f((a)) + F(a) ( (a))

    donde F(a) = F((a)).

    As, al vector de residuos r() = y f() lo podemos aproximar por r((a)) F(a) ( (a)),que sugiere la aproximacin

    S() r((a))tr((a)) 2r((a))tF(a) ( (a)) + ( (a))tF(a)t F(a) ( (a)). (2.1.7)

    El lado derecho tiene un mnimo con respecto a cuando

    (a) = (F(a)t F(a) )1F(a)t r((a)) =(a) .

    As, dada una aproximacin (a), la siguiente podra ser

    (a+1) =(a) + (a) .

    Este procedimiento es el que se conoce como el mtodo de GaussNewton.

    Para(1) cercano a y el tamao de la muestra suficientemente grande, tenemos que (a) cuando a .

    Mtodo de Newton. Este es un mtodo ms general que el Gauss-Newton y se basa en eldesarrollo de Taylor de segundo orden de S().

    Llamando

    g() =S()

    al gradiente de S()y

    H() =2S()

    t

    al Hessiano de S(), tenemos la aproximacin cuadrtica

    S()

    S((a)) + g((a))t(

    (a)) +

    1

    2

    (

    (a))tH((a))(

    (a)). (2.1.8)

    Como2S()

    rs= 2

    ni=1

    fi()

    r

    fi()

    s (yi fi())

    2fi()

    rs

    ,

    9

  • 7/25/2019 Selva Figueroa

    13/54

  • 7/25/2019 Selva Figueroa

    14/54

  • 7/25/2019 Selva Figueroa

    15/54

  • 7/25/2019 Selva Figueroa

    16/54

    2.2.1. Mtodo de Verosimilitud Concentrado

    Para encontrar estimadores de mxima verosimilitud de funciones de verosimilitud en general,a veces es conveniente utilizar este mtodo de maximizacin paso a paso.

    LlamamosL(,|z)a la funcin de log-verosimilitud a maximizar con respecto a y , dondez son los datos y es un vector q-dimensional de parmetros adicionales o de ruido. Suponemos

    que para cada conjunto de datos z,Ltiene un nico mximo con respecto a y a .

    El primer paso consiste en encontrar(, z), el nico valor de que maximiza L considerandoa como una constante.

    El segundo paso es reemplazar por(, z) en L(,|z). Esto nos da la funcin de log-verosimilitud concentrada

    M() =M(, z) L[, (, z)|z].En el tercer paso utilizamos M()como la verdadera funcin de log-verosimilitud, que depende

    solo de y aplicamos el mtodo de mxima verosimilitud habitual para hallar

    .

    Tenemos varias ventajas al usar M() en lugar de L(,

    |z). La primera es que obtenemoscomo solucin de M()/= 0, eliminando el vector de ruido . La segunda es que, bajo ciertas

    condiciones, un estimador asinttico de la matriz de varianza-covarianza de= (t,t)t es

    2L()

    t

    1

    ,

    una matriz de dimensin (p+ q) (p+ q) que puede ser partida para obtener un estimador deVar[].

    Sin embargo, si solo estamos interesados en, podemos estimar Var[]por medio de la matriz

    2M()

    t

    1

    .

    2.3. Estimacin de cuasi-verosimilitud

    El estimador de cuasi-verosimilitud tiene propiedades similares al EMV, con la diferencia queno necesitamos conocer la funcin de distribucin de y, solo sus dos primeros momentos.

    Recordemos que E(Y) = f() = fy supongamos ms generalmente que Var(Y) =2V(f).

    La funcin de log cuasi-verosimilitud l(f)esta definida por el sistema de ecuaciones diferenciales

    l(f)

    f = V1(f)(y f). (2.3.1)

    Por comodidad, usamos l() y V() en lugar de l[f()] y V[f()]. El estimador de cuasi-verosimilitud,, es solucin de la ecuacin

    0 = l

    =

    f

    t

    t l

    f = Ft ()V

    1() (y f()) . (2.3.2)

    13

  • 7/25/2019 Selva Figueroa

    17/54

    Para resolver esta ecuacin podemos utilizar el algoritmo de GaussNewton, usando el desarrollode Taylor de f() alrededor de (a) en (2.3.2). Aproximando F() por F

    (a) = F(

    (a)) y a V()por V(a) = V((a)), obtenemos

    (a)

    (F(a) )

    t(V(a))1F(a)

    1(F

    (a) )

    t(V(a))1y f((a))

    . (2.3.3)

    Llamando (a)

    al miembro derecho de (2.3.3), tenemos (a+1)

    =

    (a)

    +

    (a)

    .El paso (a) lo obtenemos utilizando la tcnica de mnimos cuadrados generalizados para mini-

    mizar la expresin y f((a))F(a)

    tV(a)

    1 y f((a)) F(a)

    con respecto a .

    Si cumple ciertas condiciones (Seber [25] - pag 43; McCullagh [16])) se puede probar que

    a) n(

    )

    Np(0,

    2 n1In()1

    ) +OP(n1/2) (2.3.4)

    b) Si el tercer momento es infinito entonces en (2.3.4) tenemos oP(1)en lugar de OP(n1/2).

    c) 2 =y f()tV1() y f()/(n p)

    d) Entre todos los estimadores L que cumplen L = Lt (y f()) +oP(n1/2), conL Rnp cuyos elementos son funciones de , tiene la matriz de dispersin mnima.

    Observaciones: Una de las ventajas de este procedimiento es que no se requiere una familia dedistribuciones para la cual l(f)sea de mxima verosimilitud. Por otra parte, no se requiere la formaexplcita de l(f) para el clculo de . A veces, una solucin para l(f) puede encontrarse mediantela construccin de funciones (f)y c()tales que

    f= c

    V(f) =

    2c

    t l(f) =ty c() d(y, )

    cond(y, ) arbitrario. Para ver que esta funcin l(f)es solucin de (2.3.1), bastar ver que

    ft =

    f

    t

    1=

    2c

    t

    1= V1(f).

    2.4. Mtodos Robustos

    En la mayora de las aplicaciones, muy rara vez podemos asegurar, que los mecanismos aleatoriosque producen los datos, provienen de un modelo normal.

    Para reflejar esto suponemos que la distribucin Fpertenece al entorno de contaminacin deradio,, de la distribucin normal definido como

    = {F :F= (1 ) + FconFarbitraria} .

    14

  • 7/25/2019 Selva Figueroa

    18/54

    El estimador de mnimos cuadrados no lineal no funciona bien en este tipo de distribuciones: losvalores atpicos generados pueden tener una gran influencia sobre los resultados obtenidos por estemtodo.

    Para poder amortiguar el efecto de las observaciones atpicas podemos utilizar un procedimientorobusto que tiende a dejar grandes los residuos asociados a dichos valores, facilitando su identifi-cacin.

    Para el caso lineal, existen varios tipos de estimadores robustos: los estimadores de mnimoscuadrados medianos (LMS) y los de mnimos cuadrados podados (LTS) introducidos por Rouseeeuw[22], [23], los estimadores tipo M o Mestimadores (Huber, [13]), los M Mestimadores (Yohai,[27]), los Sestimadores (Rousseeuw y Yohai, [24]) y los -estimadores (Yohai y Zamar, [28]). Unaextensin de losMestimadores a modelos de regresin no lineal fue dada por Fraiman [11] mientrasque los M Mestimadores fueron considerados en la tesis doctoral de Fasano [10].

    Los estimadores robustos tienen dos propiedades importantes a los fines prcticos: el altopuntode quiebre o ruptura(Breakdown Point - BP) y la buena eficienciabajo el modelo central.

    El punto de ruptura o BP de una muestra finita es la mnima fraccin de valores atpicosque pueden hacer intil al estimador. El punto de ruptura del estimador de mnimos cuadrados es1/n. Lo deseable para un estimador robusto es de 0,5.

    Si aplicamos un estimador robusto a un conjunto de datos que no tiene errores grandes, sin valoresatpicos y que provienen de una distribucin normal, queremos que los resultados sean identicos a losobtenidos por el estimador de mnimos cuadrados (LS). La eficiencia para muestras finitas deun estimador robusto se define como el cociente entre el cuadrado medio residual de los estimadoresLS y el cuadrado medio residual obtenido al calcular el estimador robusto. Lo ideal es que estecociente sea aproximadamente 1.

    Dado el modelo de regresin no lineal

    yi= f(xi,) +i

    definimos un M-estimadorcomo el valor

    n =argmin

    1

    n

    ni=1

    yi f(xi,)

    donde es un estimador robusto de yes una funcin real, llamada funcin-, que cumple:

    i) (0) = 0

    ii) (u) =(u)

    iii) 0 u v (u) (v)iv) es continua

    v) Si(u)< supu (u)y 0 u < v (u)< (v)

    15

  • 7/25/2019 Selva Figueroa

    19/54

  • 7/25/2019 Selva Figueroa

    20/54

  • 7/25/2019 Selva Figueroa

    21/54

  • 7/25/2019 Selva Figueroa

    22/54

    Una curvatura intrnseca alta indica (a) un modelo altamente no lineal, (b) que la aproximacinlineal por el plano tangente podra no ser adecuada y (c) que inferencias basadas enpodran serengaosas.

    La curvatura efecto-parmetro indica que podran no ser vlidos los procedimientos de inferenciay que una transformacin parmetrica adecuada podra reducir o eliminar este componente paramejorar el problema.

    Los efectos de la curvatura tambin son necesarios para poder establecer un criterio de diseodel problema para poder minimizar estos efectos.

    3.3. Problemas de identificacin y de mal condicionamiento

    Cuando existen1y 2tales quef(x;1) =f(x;2) x, tenemos un problema de identificacinde los parmetros para el modelo E(Y) =f(x;).

    Como ejemplo de esto, consideremos el modelo estudiado por Bird Y Milliken [5]:

    f(x;) = exp( x1) +

    [1 exp( x1)]x2,

    con = (,,)t. Vemos que y solo aparecen en la forma . Entonces, si consideramos elvector de parmetros c = (c,c,/c)t tenemos quef(x;) =f(x;c)para cualquier valor de c.

    Un camino para solucionar este inconveniente es reparametrizar la funcin usando 1 = y2 = /.

    En un modelo simple, una cuidadosa inspeccin de los parmetros podra revelar cualquierprdida de indentificabilidad. Un enfoque ms formal, basado en la propiedad de invarianza de lasfunciones lineales estimables, fue dado por Bird y Milliken [5].

    Los problemas asociados a la identificabilidad se derivan de la estructura del modelo y del mtodode parametrizacin, pero no de los puntosxidel diseo. Algebraicamente, la falta de identificabilidadesta sealada por Ft()F()desde S()cuando es singular, o casi singular.

    En el modelo lineal los parmetros no son identificables si la matriz de datos X Rnp, cuyasfilas son las observaciones Xti, tiene rango menor que p, lo que genera que X

    tXes singular.

    Un problema ms importante surge cuando las columnas de X estn altamente correlacionadasen lugar de estar relacionadas linealmente. Esto genera que Xtenga rango completo pero que suscolumnas esten cerca de ser linealmente dependientes, es decir que, XtXes casi singular. A esto selo denomina mal condicionamientode la matriz X.

    Los modelos no lineales, heredan estos problemas y se les agrega el problema de los contornos

    deS(), y por lo tanto de los contornos de confianza (3.2.2), que son curvos.Otro de los problemas es el de los parmetros estables. Estos constituyen un vector de parmetros

    para el cual los elementos de estn muy cerca de estar correlacionados.

    Su nombre se debe a que un cambio en el valor de un parmetro tiene poco efecto sobre laestimacin de los otros. Debido a que en los modelos no lineales el mal condicionamiento del prob-

    19

  • 7/25/2019 Selva Figueroa

    23/54

    lema puede ser una caracterstica propia del modelo, un buen diseo experimental puede reducir elproblema, pero quizs no pueda eliminarlo.

    El problema de parmetros redundanteses cuando funciones diferentes, dan curvas visualmenteindistinguibles.

    En la figura (Cornish - Bowden [8] - extrado del libro de Seber y Wild [25]), tenemos la super-

    posicin de los grficos def(x;) = 5ex/1,5 + 5ex/4 + 9ex/14,

    indicado por los puntos yf(x;) = 8,54ex/2,1 + 10,40ex/12,85,

    indicado por la linea solida. A pesar de ser curvas diferentes, visualmente no lo son. Este es unproblema habitual cuando tenemos combinaciones lineales de exponenciales.

    Reich [19] propuso um mtodo para chequear la redundancia de los parmetros antes de recolec-tar los datos:

    Si el modelo es sensible, queremos que

    f(+d) f() F()d,

    tenga valor absoluto grande. Por esto, definimos la medida de sensibilidad

    Tn= 1

    nf(+d)

    f()

    2 .

    Usando la aproximacin anterior, definimos xmax = maxi xi y x = xmax/ny tomamos puntosxi equiespaciados en el intervalo [0, xmax]. Tomando lmite cuando n , tenemos que la medidade sensibilidad para un cambio des

    T =dtMd,

    20

  • 7/25/2019 Selva Figueroa

    24/54

    donde D =diag(

    m11,

    m22, ,mpp), y donde

    M = 1

    xmax

    xmax0

    f(x;)

    f(x;)

    t dx.

    Reich y Zinke ([20]) y Reich ([19]) propusieron la descomposicin de M en

    R = D1MD

    1,

    donde D =diag(

    m11,

    m22, ,mpp).Los elementos de la diagonal describen la sensibilidad de los parmetros individuales y R

    representa el efecto de la redundancia (Reich [19]).

    En resumen, algunos de los problemas descriptos son:

    Los diversos tipos de problemas de mal condicionamiento pueden ser inherentes al modelo.

    El mal diseo del experimento puede empeorar los problemas del mal condicionamiento. Ancon un buen diseo y una gran cantidad de datos no tenemos garanta de solucin del problema.

    An los datos experimentales muy precisos pueden dar lugar a estimaciones imprecisas yaltamente correlacionadas, a pesar de tener el modelo correcto.

    Aparte de una cuidadosa eleccin de los puntos del diseo, algunos de los problemas anterioresse pueden superar mediante el uso de transformaciones apropiadas. Ross, [21], enumera cinco tiposde transformaciones, cada una con un propsito diferente. Ellas incluyen transformaciones de losparmetros para lograr correlaciones casi nulas entre las estimaciones de los nuevos parmetros,transformaciones para mejorar los procesos computacionales ya sea inicialmente o aplicados a lo

    largo de la optimizacin, transformaciones para enderezar valles y curvas y transformaciones paraminimizar los efectos de curvatura.

    21

  • 7/25/2019 Selva Figueroa

    25/54

  • 7/25/2019 Selva Figueroa

    26/54

    cuantificar cunto se desvian las suposiciones del modelo no lineal con respecto a las siguientespropiedades del modelo lineal:

    i) = {: = Xt, Rp}es un subespacio lineal del espacio de la muestra.ii) cualquier descripcin parmetrica de manda valores equiespaciados de en valores de

    equiespaciados en .

    Al considerar la aproximacin de Taylor de segundo orden, tenemos que

    f() f() F( ) +12

    ( )tF( ) =F+ 12tF

    Ignorando el trmino cuadrtico, la aproximacin lineal para en un entorno dequedaf() f() F( ) .

    Con esto se ve que las columnas de

    F generan el plano tangente a la superficie esperada, , en

    .

    Usando esta aproximacin, se puede ver que la regin de confianza aproximada con un nivel100(1 ) %para dada por{: ( )tFtF( ) p s2Fp,np,}es el conjunto de los enel plano tangente tales que

    2 F( )2 p s2Fp,np,,donde= f().Por lo tanto, se deduce que vive en una esfera con centro y radio(2Fp,np,)1/2,donde = s

    pse define como radio estndar.

    La validez de dicha aproximacin depende de la magnitud del trmino cuadrtico respecto deltrmino lineal.

    Para hacer esta comparacin, dividimos el trmino cuadrtico (un vector de ncoordenadas) endos componentes ortogonales: la proyeccin ortogonal sobre el plano tangente y la normal al planotangente. F=F(T) +F(N) (4.0.1)As tenemos dos medidas de curvatura dadas por Bates y Wates ([1]), la Curvatura efectos

    parmetros en la direccinh, K(T)h

    , y la Curvatura intrnseca en la direcin h,K(N)h

    dadas por

    K(T)h

    =

    htF(T) h

    Fh

    2 , K

    (N)h

    =

    htF(N) h

    Fh

    2 . (4.0.2)

    4.1. Interpretacin geomtrica

    Tomenos una recta arbitraria a traves decon direccin h en , (b) =+ bhcon b arbitrario.Esto genera en la superficie esperada la curva h() =(+bh).

    23

  • 7/25/2019 Selva Figueroa

    27/54

    Figura 4.1: Grfico extrado de Seber y Wild [25] - pag 132

    El vector tangente en () = f()cuando b = 0es

    h=

    pr=1

    frhr=F h .El vector aceleracin h enb= 0est dado por

    h=

    r

    s

    frshrhs = htF h .

    Si descomponemos

    F como en (4.0.1) tenemos las medidas de curvatura definidas en (4.0.2).

    K(T)h

    =

    Th

    h2

    =

    htF(T) hFh2 , K(N)h

    =

    Nh

    h2

    =

    htF(N) hFh2 .Para deshacerse del problema de las escalas, Bates y Watts sugieren dividir por a y, ,,F y aF.Entonces las curvaturas del problema y la inversa del radio (la curvatura de la esfera) pasan aser

    Th =K(T)h

    , Nh =K(N)h

    , y 1/Fp,np,.

    Esto nos muestra que la curvartura intrinseca, Nh

    , es el recproco del radio del crculo que mejoraproxima a la superficie esperada en la direccin h. Por lo tanto, si la suposicin de linealidad

    es buena, la curvatura intrnseca ser pequea.

    24

  • 7/25/2019 Selva Figueroa

    28/54

    Captulo 5

    Inferencia Estadstica

    Tomando a como el verdadero valor del parmetro, en este captulo consideramos el modelo

    yi = f(xi;) +i, (5.0.1)

    donde i son i.i.d con distribucin N(0, 2), i= 1, , n.

    5.1. Intervalos de Confianza asintticos

    Bajo condiciones apropiadas de regularidad, tenemos que, asintticamente Np(, 2C1), C = FtF. (5.1.1)Entonces, para una combinacin lineal at, podemos aplicar el teorema (2.1.1) y, en forma asin-ttica, tenemos que

    at Np(at, 2atC1a),que es independiente de S2 =

    y f()/(n p), el estimador insesgado de 2. Para n grandetenemos que, aproximadamente,

    T = at ats(atC1a)1/2

    Tnp. (5.1.2)

    Un intervalo de confianza 100(1) %, aproximado, para ates attnp, s(atC1a)1/2, dondehemos aproximado a CporC =FtF.

    Tomando at = (0, 0, , 0, 1, 0, , 0) y definiendo (

    C)(rs) como el elemento (r, s) de

    C1, el

    intervalo de confianza para r est dado por

    r tnp, sC(rr). (5.1.3)La experiencia sugiere que la teora asinttica da resultados que parecen razonables en las aplica-ciones. Pero la utilidad de este ltimo depende de las propiedades de curvatura de E(Y) = f().Por esto, necesitamos un chequeo adecuado para que (5.1.3) no resulte engaoso.

    25

  • 7/25/2019 Selva Figueroa

    29/54

    Para obtener un conjunto de intervalos (uno por cadar), se puede usar elmtodo de Bonferroni.

    As, para cada r = 1, , p , tenemosr tnp, /2p sC(rr). Estos intervalos tienen un nivel deconfianza menor que 100(1 ) %y pueden estar afectados por la curvatura.

    Usando la linealizacin asinttica de (5.0.1) se pueden aplicar mtodos lineales para encontrarun intervalo de prediccin para yen x = x0.

    Si consideramosft0 = (

    f(x0,)

    1,f(x0,)

    2, , f(x0,)

    p),

    y tomamos el desarrollo usual de Taylor de primer orden f(x0,) f(x0,) +ft0( ), paray0= f(x0,), tenemos que y0 y0 y0 f(x0,) ft0( ) =0 ft0( ).Teniendo en cuenta la distribucin (5.1.1) de y la independencia de y 0, tenemos que, en

    forma asinttica y0 y0 N(0, 2(1 +v0)), donde v0= ft0(FtF)1f0.Ahora s2 es independiente de y0 y es asintticamente independiente de, de modo que s2 es

    asintticamente independiente dey0

    y0. Por lo tanto, asintticamente,

    y0y0s(1 +v0) Tnp.

    Esto nos permite obtener un intervalo de prediccin aproximado de nivel 100(1 ) % para y0 dela forma y0 tnp,

    2s [1 +v0]

    1/2,

    donde v0 puede ser estimado reemplazando por.5.2. Intervalos simltaneos y regiones de confianza

    Sea C = Ft

    F = Ft

    (

    )F(

    ) la matriz de covarianza asinttica del estimador de mnimoscuadrados. Llamemos C =FtF= Ft ()F(),al estimador deC. Del teorema (2.1.1) podemos deducir la regin de confianza para

    : tC p s2 Fp,np() , (5.2.1)

    algunas veces llamada Regin linealizada

    Siguiendo la teora lineal usual, para el mtodo de Schefftenemos

    1 = P (Fp,np Fp,np()) P: tC p s2 Fp,np()= P

    supb

    bt

    2btC1b c

    = Pbt( ) cbtCb1/2 b = 0 ,26

  • 7/25/2019 Selva Figueroa

    30/54

    donde c = p s2 Fp,np(). Entonces, con probabilidad aproximada 1 , tenemos los intervalossimultneos

    bt (p Fp,np())1/2 s(btC1b)1/2. (5.2.2)Estos incluyen los intervalos para r, siendo ms largos que los de Bonferroni. Los intervalos (5.2.2)son usados para mirar todas las combinaciones sugeridas por los datos, mientras que los generadospor el metdo de Bonferroni son tiles para combinaciones pre elegidas.

    Recordando que S() = r()2 = y f(), de (3.2.2) deducimos que:

    S() S()S() nnpFp,np()

    . (5.2.3)

    Si tomamosr = r(), nos queda: r()2 (1 +f) r2 , con f= p

    n pFp,np(). (5.2.4)

    Aunque las regiones (5.2.1) y (5.2.3) son asintticamente la misma para los modelos no lineales y

    exactamente de la misma para los modelos lineales, ellas pueden ser muy diferentes para muestraspequeas. En general, (5.2.1) parece ser superior, pues est ms cerca del valor nominal y se vemenos afectada por la curvatura (Donaldson y Schnabel, [9]).

    La funcin S()es invariante por reparametrizaciones, por lo cual podemos asumir que encon-tramos una transformacin para eliminar la curvatura efecto-parmetros. Por esto (5.2.4) slo se veafectada por la curvatura intrnseca, que a menudo es insignificante. Box y Coutie [6] propusieronuna versin aproximada de (5.2.3)

    : tH p s2 Fp,np() , (5.2.5)

    dondeH = 2S t =FtF [r()t][F].Se espera que (5.2.5) aproxime mejor a (5.2.3) que (5.2.1) ya que este incluye trminos de segundo

    orden del desarrollo de Taylor. Sin embargo, regiones del tipo (5.2.3) son difciles de computar y derepresentar grficamente. Por este motivo, se est ms interesado en intervalos de confianza paracada r, r= 1, , p.

    La validez de la teora asinttica depende mucho del grado de no linealidad del modelo y dela eleccin de los parmetros , reflejadas en las curvaturas intrnseca y de efectos-parmetros. Sila aproximacin lineal es buena, podemos aplicar la teora lineal al problema tomando X =F.Cuando no podamos ignorar los efectos de la curvatura, podremos realizar algunas modificacionesa la teora lineal.

    27

  • 7/25/2019 Selva Figueroa

    31/54

    Captulo 6

    Software y Ejemplos

    Los programas de software estadstico ms importantes incluyen funciones para ajustar modelosde regresin no lineal. Para los casos de estudio, utilizamos el programa Rque cuenta con 2 funcionespara realizar estimacin no lineal. Una es la funcin nls() que busca estimadores por mnimos

    cuadrados no lineales y que por defecto utiliza el algoritmo de Gauss-Newton. La otra funcin esnlrob() que realiza un ajuste robusto usando M-estimadores por mnimos cuadrados reponderadositerativos (IWLS). Tambin implementamos la rutina de Stromberg [26] mmnl()que fue desarrolladaoriginalmente para el software comercial S-Plusy que figura en el Captulo 7. Esta ltima estima losparmetros de un modelo de regresin no lineal utilizando M Mestimadores. ElM Mestimador secalcula utilizando como funcionla funcion de Hampel, ver Huber [14]. En este captulo, analizamosalgunos conjuntos de datos existentes en la literatura a los que se agregaron datos atpicos paraevaluar el comportamiento de los estimadores robustos.

    6.1. Ejemplo de datos de cebolla

    Estos datos son un ejemplo de curvas de crecimiento sigmoidal, tratadas por Ratkowsky [17] yse conocen usualmente en la literatura como Onion Data. Son 16 pares de datos donde la variablede respuesta (y)es el peso seco de los bulbos de cebolla y la variable predictora (x)es el tiempo decrecimiento. Los datos se grafican en la Figura 6.1.

    Varios modelos de crecimiento sigmoidal fueron propuestos para este tipo de datos, entre ellosel modelo de Gompertz, basado en la distribucin Weibull:

    v = f(x,) =1 exp( exp(2 3 x))

    Como estimacin inicial de 1, tomamos el ltimo valor de Y, redondeado al entero siguiente (con-

    sideramos el valor asinttico de X), es decir, tomamos 1 = 718. Para obtener los valores inicialesde2 y3, linealizamos la ecuacin

    z0= ln( ln

    v

    1

    ) =2 3 x

    28

  • 7/25/2019 Selva Figueroa

    32/54

  • 7/25/2019 Selva Figueroa

    33/54

  • 7/25/2019 Selva Figueroa

    34/54

    6.2. Ejemplo de datos de ciervos

    Estos pares de datos representan la edad y la longitud de la mandibula de cierto tipo de ciervos.Fueron objeto de estudio por Crawley [7] y figuran con el nombre Deer Dataen R. Se muestranen la Figura 6.4.

    0 10 20 30 40 50

    0

    20

    40

    60

    80

    100

    120

    140

    Deer

    age

    bone

    Figura 6.4: Datos de Ciervos : Crawley (2007)

    La teora indica que la relacin entre la Edad (x) y la Longitud de la mandbula (y) es unafuncin exponencial asinttica con 2 parmetros:

    v= f(x,) =1(1 exp(2x)).

    Con un anlisis previo, Crawley [7] decidi tomar como valores iniciales 1 = 120, 2 =0.064. losresultados obtenidos, al realizar el ajuste de los datos por Mnimos Cuadrados No Lineales y porlos mtodos robustos con el Mestimador y con M Mestimador, se dan en la tabla 6.4.

    Parmetro ols m mm1 115.581 114.621 115.4912 0.11882 0.12647 0.11970

    Tabla 6.4: Estimaciones de los parmetros para el conjunto de datos Deer.

    Los errores estndar de los estimadores OLSy M-estimadores as como los respectivos valores

    del estadstico t para la hiptesis H0 : j = 0 se dan en la Tabla 6.5. La funcin mmnl() noda informacin con respecto al error estndar ni al tvalor del M M estimador. Como antes laTabla 6.6 da los valores del error estndar residual y la cantidad de iteraciones necesarias hastaobtener convergencia. Los resultados para ambos mtodos son comparables. La Figura 6.5 muestralos ajustes obtenidos, no observndose diferencias entre los ajustes provistos por el estimador demnimos cuadrados y el M Mestimador.

    31

  • 7/25/2019 Selva Figueroa

    35/54

  • 7/25/2019 Selva Figueroa

    36/54

    Dato original modificado47 112.43 30248 101.68 31049 142 32050 91.20 340

    Tabla 6.7: datos modificados en el conjunto de datos de Ciervo.

    0 10 20 30 40 50

    0

    50

    100

    200

    300

    Deer

    Edad

    Longituddelamandibula

    Figura 6.6: Grafico de los datos de Ciervo con datos contaminados

    Al aplicar los distintos mtodos de estimacin al nuevo conjunto de datos obtuvimos los resul-

    tados dados en la Tabla 6.8.

    Parmetro ols m mm1 676.3 119.8966 116.29062 0.00689 0.11169 0.11703

    Tabla 6.8: Estimaciones de los parmetros para el conjunto de datos contaminados.

    Se puede ver que la contaminacin provoc la ruptura del estimador por mnimos cuadrados.ElM-estimador no sufri tanto cambio y el M M-estimador casi no muestra variacin. A partir delos resultados reportados en la Tabla 6.9, podemos ver que, con el mtodo por mnimos cuadrados,

    ninguno de los dos parmetros resultan significativamente distintos de cero, a diferencia de losM-estimadores que conservan la significacin del conjunto de datos original.

    Tambin se produjeron cambios en el Error Residual Estndar que se reportan en la Tabla 6.10.Para elM-estimador es el Error Residual Estndar Robusto asinttico.

    33

  • 7/25/2019 Selva Figueroa

    37/54

    olsParmetro Estimador Error Estndar Estadsticot

    1 676.3 1.033e+03 0.6552 0.00689 1.200e-02 0.574

    m

    Parmetro Estimador Error Estndar Estadsticot

    1 119.8966 3.89383 30.7952 0.11169 0.01417 7.884

    Tabla 6.9: Errores estndar de los estimadores de los parmetros para el conjunto de datos contaminados yvalores del estadsticot para la hiptesis H0 : j = 0.

    Estimador Error Estndar Residual Cantidad de iteracionesols 48.18 17m 12.93 12Tabla 6.10:Errores estndar residuales y nmero de iteraciones hasta convergencia del estimador de mnimos

    cuadrados y del Mestimador para el conjunto de datos contaminado.

    0 10 20 30 40 50

    0

    50

    100

    150

    200

    250

    300

    350

    Deer

    Edad

    Longituddelamandibula

    LSestimadorMestimadorMMestimador

    Figura 6.7: Curvas de ajuste para los datos de Ciervo al modificar 4 observaciones.

    En la Figura 6.7 se ve como los datos atpicos influyen en el ajuste por mnimos cuadrados y no

    en los ajustes robustos. La figura 6.8 permite detectar claramente los 4 datos modificados cuandose utilizan procedimientos robustos, mientras que si se utilizase slo el procedimiento clsico sepensara que el modelo no es el adecuado.

    34

  • 7/25/2019 Selva Figueroa

    38/54

  • 7/25/2019 Selva Figueroa

    39/54

  • 7/25/2019 Selva Figueroa

    40/54

    de estimacin clsicos y robustos del modelo no lineal. Los datos modificados se dan en la Tabla6.14 y el nuevo conjunto de datos se grafica en la Figura 6.11.

    Dato original modificado9 8.4750 60

    23 5.4400 6233 8.5500 6137 3.7500 60

    Tabla 6.14: datos modificados en el conjunto de datos de Ultrasonido.

    1 2 3 4 5 6

    20

    40

    60

    80

    Distancia al metal

    Respuest

    asalultrasonido

    Figura 6.11: Grafico de los datos de ultrasonido con datos contaminados

    Para estos datos, obtuvimos los estimadores dados en la Tabla 6.15. Como en el ejemplo anterior,vemos como la modificacin de los datos, altera notablemente el estimadorols. Los estimadoresrobustosm ymm tambin sufren cambios, pero no tan drsticos. En la Figura 6.12 se muestranlos datos junto con las funciones ajustadas.

    Parmetro ols m mm1 -0.25357 0.12834 0.170142 -0.00358 0.00464 0.005313 0.03380 0.01379 0.01214

    Tabla 6.15: Estimaciones de los parmetros para el conjunto de datos contaminados.

    37

  • 7/25/2019 Selva Figueroa

    41/54

    1 2 3 4 5 6

    20

    40

    60

    80

    Chwirut2

    Distancia al metal

    Respuestas

    alultrasonido

    LSestimadorMestimadorMMestimador

    Figura 6.12: Curvas de ajuste para los datos de ultrasonido contaminados

    La Tabla 6.16, presenta los errores estndar de los estimadores OLSyM-estimadores as comolos respectivos valores del estadstico tpara la hiptesis H0: j = 0obtenidos sobre el conjunto dedatos contaminados, mientras que la Tabla 6.17 da los valores del error estndar residual y la canti-dad de iteraciones necesarias hasta obtener convergencia. El estimadorolsde2no da significativo,mientras que al utilizar los procedimientos robustos, todos los estimadores son significativos.

    olsParmetro Estimador Error Estndar Estadsticot

    1 -0.25357 0.060333 -4.2032 -0.00358 0.003778 -0.9493 0.03380 0.007473 4.523

    mParmetro Estimador Error Estndar Estadsticot1 0.12834 0.0283401 4.5282 0.00464 0.0005591 8.3023 0.01379 0.0012620 10.929

    Tabla 6.16: Errores estndar de los estimadores de los parmetros para el conjunto de ultrasonido contam-inado y valores del estadsticot para la hiptesis H0: j = 0.

    Estimador Error Estndar Residual Cantidad de iteraciones

    ols 13.68 8m 1.785 8Tabla 6.17:Errores estndar residuales y nmero de iteraciones hasta convergencia del estimador de mnimoscuadrados y del Mestimador para el conjunto de datos contaminado de ultrasonido.

    38

  • 7/25/2019 Selva Figueroa

    42/54

    Captulo 7

    Implementacin del algoritmo deStromberg en R

    mmnl

  • 7/25/2019 Selva Figueroa

    43/54

    repeat {

    lev

  • 7/25/2019 Selva Figueroa

    44/54

    break

    }

    if(abs(d1/d2) < 1e-14) break

    }

    s

    }

    rho.hampel

  • 7/25/2019 Selva Figueroa

    45/54

    stop("Need 2 coefficients for each frequency")

    if(length(y) < constant+3*nfreq)

    stop("Need at least 3 observations for each frequency")

    fun

  • 7/25/2019 Selva Figueroa

    46/54

    sini

  • 7/25/2019 Selva Figueroa

    47/54

    if(new < 1) {

    smax

  • 7/25/2019 Selva Figueroa

    48/54

    repeat {

    scut

  • 7/25/2019 Selva Figueroa

    49/54

    qrXe

  • 7/25/2019 Selva Figueroa

    50/54

    # Now have best harmonic. Test again global minimum.

    if (tsminh < tsmin) {

    tsmin

  • 7/25/2019 Selva Figueroa

    51/54

    mm

  • 7/25/2019 Selva Figueroa

    52/54

    wt.hampel

  • 7/25/2019 Selva Figueroa

    53/54

    Bibliografa

    [1] Bates, D. M., and Watts, D. G. (1980). Relative curvature measures of nonlinearity (withDiscussion).J. R. Stat. Soc., Series B, 42, 1-25.

    [2] Bates, D. M., and Watts, D. G. (1981). Parameter transformations for improved approximateconfidence regions in nonlinear least squares. Ann. Stat., 9, 1152-1167.

    [3] Bates, D. M. and Watts, D. G. (1988) Nonlinear Regression Analysis and Its Applications.John Wiley and Sons, New York.

    [4] Beale, E.M.L.(1960). Confidence regions in non-linear estimation (with Discussion).J. R. Stat.Soc., Series B 22, 41-88.

    [5] Bird, H. A., and Milliken, G. A. (1976). Estimable functions in the nonlinear model. Commun.Statist., Theory and Methods, 6, 999-1012.

    [6] Box, G. E. P., and Coutie, G. A. (1956). Application of digital computers in the exploration offunctional relationships. Proc. I.E.E.E., 103, Part B, Suppl. 1, 100-107.

    [7] Crawley, M. J. (2007). The R Book. John Wiley and Sons, New York.

    [8] Cornish-Bowden, A. J. (1976). Principles of Enzyme Kinetics. Butterworths: London.

    [9] Donaldson, J. R., and Schnabel, R. B. (1987). Computational experience with confidence regionsand confidence intervals for nonlinear least squares. Technometrics, 29, 67-82.

    [10] Fasano, M. V. (2009). Teora asinttica de estimadores robustos en regresin no lineal. TesisDoctoral, Universidad Nacional de La Plata.

    [11] Fraiman, R. (1983). General M-estimators and applications to bounded influence estimationfor non-linear regression. Comm. Statist.,. Theory and Methods, 22, 2617-2631.

    [12] Goldberg, M. L., Bates, D. M., and Watts, D. G. (1983). Simplified methods of assessingnonlinearity. Amer. Stat. Assoc. Proc. Bus. Econ. Statist., 67-74.

    [13] Huber, P. J. (1973) Robust Regression: Asymptotics, Conjectures and Monte Carlo. Ann.Statist, 1, 799-821.

    [14] Huber, P. J. (1981). Robust Statistics. John Wiley and Sons, New York.

    [15] Lawrence, K.D. and Arthur, J.L. (1990). Robust Regression - Analysis and Applications, .

    50

  • 7/25/2019 Selva Figueroa

    54/54

    [16] McCullagh, P. (1983). Quasi-likelihood functions.Ann. Stat., 11, 59-67.

    [17] D.A. Ratkowsky. (1983).Nonlinear Regression Modeling. Marcel Dekker, New York.

    [18] Ratkowsky, D. A., and Dolby, G. R. (1975). Taylor series linearization and scoring for param-eters in nonlinear regression. Appl. Stat., 24, 109-111.

    [19] Reich, J. G. (1981). On parameter redundancy in curve fitting of kinetic data. In L. Endrenyi(Ed.), Kinetic Data Analysis: Design and Analysis of Enzyme and Pharmacokinetic Experi-ments, pp. 39-50. Plenum Press: New York.

    [20] Reich, J. G., and Zinke, I. (1974). Analysis of kinetic and binding measurements IV. Redun-dancy of model parameters. Studio Biophys., 43, 91-107.

    [21] Ross, G. J. S. (1980). Uses of non-linear transformation in non-linear optimisation problems.In M. M. Barritt and D. Wishart (Eds.), COMPSTAT1980, Proceedings in ComputationalStatistics, pp. 382-388. Physica-Verlag: Vienna.

    [22] Rousseeuw, P. (1984). Least median of squares regression.J. Amer. Statist. Assoc.,79, 871-880.

    [23] Rousseeuw, P. (1985). Multivaritate estimation with high breakdown point. EnMathematicalStatistics and its Applications (Vol. B), Editores: W. Grossmann, G. Pflug, I. Vincze y W.Wertz, pp. 283-297. Dordrecht: Riedel.

    [24] Rousseeuw, P y Yohai, V. (1984). Robust regression by means of S-estimators En Robust andnonlinear time series analysis, Lecture Notes in Statistics, 26, 256-272. Springer, New York.

    [25] Seber, G. A. F. and Wild, C. J. (1989).Nonlinear Regression. John Wiley and Sons, New York.

    [26] Stromberg, A. J. (1993). Computation of high breakdown nonlinear regression parameters.J.Amer. Statist. Assoc., 88, 237-244.

    [27] Yohai, V. J. (1987). High breakdown-point and high effciency estimates for regression. Ann.Statist., 15, 642-656.

    [28] Yohai, V. J. y Zamar, R. H. (1988). High breakdown estimates of regression by means of theminimization of an efficient scale. J. Amer. Statist. Assoc., 83, 406-413.