AnalisisExploratorio I 2013

Embed Size (px)

Citation preview

  • 7/25/2019 AnalisisExploratorio I 2013

    1/32

    Anlisis Estadsticode

    Datos Climticos

    Anlisis Estadsticode

    Datos Climticos

    Facultad de Ciencias Facultad de Ingeniera

    2013

    Alvaro Daz

    Anlisis exploratorio de datos

    univariados

  • 7/25/2019 AnalisisExploratorio I 2013

    2/32

    Datos univariados

    Anlisis exploratorio de datos(para tener una primera impresin de los datos)

  • 7/25/2019 AnalisisExploratorio I 2013

    3/32

    Datos climticos Observaciones (datos medidos; datos

    interpolados) :Pueden ser in situ u obtenidas porsensoriamiento remoto (satlites, radares)

    Salidas de modelos numricos:

    Simulaciones o pronsticos(posibilidad de variar condicionesiniciales o de borde)

  • 7/25/2019 AnalisisExploratorio I 2013

    4/32

    La inspeccin visual de

    los datos es esencial!

    Una simple grfica puedemostrar caractersticas

    muy relevantes delconjunto de datos encuestin.

    Tambin existen tcnicasgrficas ms sofisticadas paramostrar los datos, que

    permiten destacar algunosaspectos especficos de losmismos.

    Hay tendencias?Datos faltantes?

    Outliers? (Datos atpicos)Saltos?

  • 7/25/2019 AnalisisExploratorio I 2013

    5/32

    Robustez y resistencia

    Cuantiles (percentiles)

    Medidas numricas de resumen

    Tcnicas grficas de resumen

    Anlisis exploratorio de datos univariados(Wilks, Cap. 3)

  • 7/25/2019 AnalisisExploratorio I 2013

    6/32

    Robustez y resistencia

    Puede ser deseable que un mtodo de anlisis de datos sea

    poco sensible a suposiciones sobre la naturaleza de losdatos.

    P. ej., que los resultados no dependan esencialmente de quelos datos sigan una distribucin gaussiana o normal.

    Un mtodo es robusto cuando sus resultados no dependen

    esencialmente de cul sea la distribucin de probabilidadesde los datos.

    Un mtodo es resistente si no es influido considerablemente

    por unos pocos datos atpicos (outliers)

  • 7/25/2019 AnalisisExploratorio I 2013

    7/32

    Ejemplo:

    dado el conjunto

    {11 12 13 14 15 16 17 18 19}

    y el conjunto

    {11 12 13 14 15 16 17 18 91}

    Distintas medidas de tendencia central:En ambos casos, el valor central es 15, perolos promedios son 15 y 23 respectivamente.

  • 7/25/2019 AnalisisExploratorio I 2013

    8/32

    Estadsticos de orden de una muestra

    aleatoria

    Sea { x1, x2, ..., xn } una muestra aleatoria de datos

    Se ordenan en forma ascendente:

    { x(1)

    , x(2)

    , ..., x(n)

    } son los estadsticos de orden

    ( cumplindose que x(1) x(2) x(n) )

    Ej: {7 -2 1 7 -3 4 0}

    {-3 -2 0 1 4 7 7}

  • 7/25/2019 AnalisisExploratorio I 2013

    9/32

    Cuantiles de una muestra aleatoria(percentiles, cuartiles, quintiles, deciles, etc)

    Ej.: 1) Sea la muestra aleatoria {7 -2 2 7 -3 4 0}

    Cmo podemos estimar un valor central que, en sentidoamplio, deje probabilidad a ambos lados?

    ordenamos {-3 -2 0 2 4 7 7}

    Parece natural tomar un valor que deje la misma cantidad dedatos a cada lado, en este caso el 2:

    {-3 -2 0 2 4 7 7}. Se dice que la mediana de la muestra es

    2.q0.5 = 2

    (percentil 50)

  • 7/25/2019 AnalisisExploratorio I 2013

    10/32

    CuantilesEj. 2) Sea ahora la muestra {7 1 7 -3 4 0} (tiene un nmero par dedatos)

    Cul ser la mediana?

    {-3 0 1 4 7 7}

    Convencionalmente, se suele tomar el promedio entre los dos valorescentrales, o sea

    (1 + 4) /2 = 2.5.

    Pero, si no se tiene ms informacin, podra elegirse cualquier valor en eseintervalo (1,4)

  • 7/25/2019 AnalisisExploratorio I 2013

    11/32

    Generalizando, sea p tal que 0 < p < 1.

    Los p-quantiles (qp) ( o percentiles) son valoresque dejan, en cierto sentido, probabilidad p a su

    izquierda, y probabilidad 1-p a su derecha.

    p

    1- p

    qp

    P(X qp) = p P(X qp) = 1 - p

  • 7/25/2019 AnalisisExploratorio I 2013

    12/32

    Estimacin de los cuantilesEn general, los percentiles no son nicos y por lo tanto, no hayuna nica forma de estimarlos.

    Una forma posible para una muestra aleatoria de tamao n es:

    1)tomar los estadsticos de orden como los cuantiles(0.5/n), (1.5/n), ..., ([n-0.5]/n) respectivamente

    2) para los cuantiles con probabilidades entre (0.5/n) y

    ([n-0.5]/n), se interpola linealmente.

    3) los valores mnimo o mximo de la muestra se asignan

    a los cuantiles para probabilidades fuera de ese rango.

  • 7/25/2019 AnalisisExploratorio I 2013

    13/32

    Principales medidas numricas de resumende un conjunto de datos

    1) Localizacin: ej. valor detendencia central delconjunto

    2) Dispersin: alrededor del valorcentral

    3) Simetra: cmo estn distribuidos losdatos respecto del valor central

    4)

  • 7/25/2019 AnalisisExploratorio I 2013

    14/32

    Localizacin

    Media

    Mediana q0.50

    N

    x

    x

    N

    1i

    i_

    =

    =

    La mediana divide el conjunto de datos en

    dos subconjuntos ordenados con igualcantidad de datos .

    Es importante que los cuantiles (en

    particular la mediana) permiten trabajarcon estimaciones de robabilidades

    Ambas estn comprendidas entre el mnimo y el mximode la muestra.

    Valores de tendencia central

  • 7/25/2019 AnalisisExploratorio I 2013

    15/32

    Ejemplo: (con muy pocos datos!!)

    2 4 9 11 14

    2 4 9 11 7004

    8x

    _

    =

    1406x_

    =

    (outlier) ??

    Localizacin

    La media no es robusta ni resistente

    Se puede estimar que P (X 9) ~ 0.5 ~ P(X 9)

  • 7/25/2019 AnalisisExploratorio I 2013

    16/32

    Los cuantiles ms

    usados

    Mediana q0.5

    Cuartiles, q0.25 , q0.75

    Terciles, q0.33 , q0.66

    Quintiles, deciles,

    q0.05 q0.95

    Localizacin

    ++

    =

  • 7/25/2019 AnalisisExploratorio I 2013

    17/32

    Robustez vs. EficienciaPor qu se usa ms la media que la mediana?

    Porque en el caso (muy frecuente) de unadistribucin gaussiana es un estimador ms

    eficiente que la mediana:con menos valores (o sea, una muestra mspequea) se obtiene la misma dispersin delestimador.

    Adems, la media es ms fcil de tratarmatemticamente, y es nica para una muestradada.

  • 7/25/2019 AnalisisExploratorio I 2013

    18/32

    Matlab

    medianmediana

    prctilepercentil

    quantilecuantil

    meanmedia

    ComandoVariable

  • 7/25/2019 AnalisisExploratorio I 2013

    19/32

    Dispersin

    Intervalo intercuartil

    IQR = q0.75 - q0.25

    (Robusto y resistente)

    No usa el 25% superior e inferiorde los datos

  • 7/25/2019 AnalisisExploratorio I 2013

    20/32

    Dispersin

    Desviacin estndar muestral

    )x(x1N

    1sN

    1i

    2_i

    = =

    (2 = varianza de la poblacin)

    (Ni robusta ni resistente)

    Desviacin absoluta de la mediana

    MAD = median {|xi

    q0.5

    |}

  • 7/25/2019 AnalisisExploratorio I 2013

    21/32

    Simetra

    Coeficiente de asimetrade la muestra

    Ambos son adimensionados

    < 0

    > 0

    Indice de Yule-Kendall

  • 7/25/2019 AnalisisExploratorio I 2013

    22/32

    Tcnicas grficas de resumen

    Boxplots

    Histogramas

    Distribuciones de frecuencia acumulada

  • 7/25/2019 AnalisisExploratorio I 2013

    23/32

    Boxplots (barritas)

  • 7/25/2019 AnalisisExploratorio I 2013

    24/32

    0 10 20 30 40 50 60 70 80 90 100 110 120 130

    . . . . .

    Min = 3.20

    q0.25 = 43.645

    q0.50 = 60.345

    q0.75 = 84.96

    Max = 124.27

    Boxplots (barritas)

  • 7/25/2019 AnalisisExploratorio I 2013

    25/32

    Temperatura diaria mxima en Melbourne

    Se destacan valores extremos inusuales

  • 7/25/2019 AnalisisExploratorio I 2013

    26/32

    HistogramasAdems de dar idea sobre la

    localizacin, la dispersin, y lasimetra, tambin muestran si los datosson multimodales

  • 7/25/2019 AnalisisExploratorio I 2013

    27/32

    Histogramas

    Precipitacin Rivera agosto 1914-1997

    0 50 100 150 200 250 3000

    5

    10

    15

    20

    25

    No.

    deocurrencias

    Precipitacin Rivera agosto 1914-1997

    mediana=78.5 mm

    media = 97.9 mm

  • 7/25/2019 AnalisisExploratorio I 2013

    28/32

    Histogramas

    Precipitacin Rivera abril 1914-1997

    mediana=110.5 mm

    media = 141.7 mm

  • 7/25/2019 AnalisisExploratorio I 2013

    29/32

    Histogramas

  • 7/25/2019 AnalisisExploratorio I 2013

    30/32

    Distribuciones empricas de frecuencia acumulada

    Interesa P (X x),probabilidad de no excedencia

    Mediana ~ 110.5 mm

    P(X110.5) ~ 0.5

    110.5 mm

    P. ej. se puede estimar as:P(X x(i) )= (i - ) / n

    Es la funcin inversa del cuantil

  • 7/25/2019 AnalisisExploratorio I 2013

    31/32

    Distribuciones empricas de frecuencia acumulada

  • 7/25/2019 AnalisisExploratorio I 2013

    32/32

    Matlab

    ecdfDistr. defrecuencia

    acumulada

    histhistograma

    madDesv. abs.de la

    mediana

    iqrIntervalointercuartil

    std

    var

    Desviacinestndar,varianza

    ComandoVariable