View
223
Download
0
Category
Preview:
Citation preview
7/25/2019 AnalisisExploratorio I 2013
1/32
Anlisis Estadsticode
Datos Climticos
Anlisis Estadsticode
Datos Climticos
Facultad de Ciencias Facultad de Ingeniera
2013
Alvaro Daz
Anlisis exploratorio de datos
univariados
7/25/2019 AnalisisExploratorio I 2013
2/32
Datos univariados
Anlisis exploratorio de datos(para tener una primera impresin de los datos)
7/25/2019 AnalisisExploratorio I 2013
3/32
Datos climticos Observaciones (datos medidos; datos
interpolados) :Pueden ser in situ u obtenidas porsensoriamiento remoto (satlites, radares)
Salidas de modelos numricos:
Simulaciones o pronsticos(posibilidad de variar condicionesiniciales o de borde)
7/25/2019 AnalisisExploratorio I 2013
4/32
La inspeccin visual de
los datos es esencial!
Una simple grfica puedemostrar caractersticas
muy relevantes delconjunto de datos encuestin.
Tambin existen tcnicasgrficas ms sofisticadas paramostrar los datos, que
permiten destacar algunosaspectos especficos de losmismos.
Hay tendencias?Datos faltantes?
Outliers? (Datos atpicos)Saltos?
7/25/2019 AnalisisExploratorio I 2013
5/32
Robustez y resistencia
Cuantiles (percentiles)
Medidas numricas de resumen
Tcnicas grficas de resumen
Anlisis exploratorio de datos univariados(Wilks, Cap. 3)
7/25/2019 AnalisisExploratorio I 2013
6/32
Robustez y resistencia
Puede ser deseable que un mtodo de anlisis de datos sea
poco sensible a suposiciones sobre la naturaleza de losdatos.
P. ej., que los resultados no dependan esencialmente de quelos datos sigan una distribucin gaussiana o normal.
Un mtodo es robusto cuando sus resultados no dependen
esencialmente de cul sea la distribucin de probabilidadesde los datos.
Un mtodo es resistente si no es influido considerablemente
por unos pocos datos atpicos (outliers)
7/25/2019 AnalisisExploratorio I 2013
7/32
Ejemplo:
dado el conjunto
{11 12 13 14 15 16 17 18 19}
y el conjunto
{11 12 13 14 15 16 17 18 91}
Distintas medidas de tendencia central:En ambos casos, el valor central es 15, perolos promedios son 15 y 23 respectivamente.
7/25/2019 AnalisisExploratorio I 2013
8/32
Estadsticos de orden de una muestra
aleatoria
Sea { x1, x2, ..., xn } una muestra aleatoria de datos
Se ordenan en forma ascendente:
{ x(1)
, x(2)
, ..., x(n)
} son los estadsticos de orden
( cumplindose que x(1) x(2) x(n) )
Ej: {7 -2 1 7 -3 4 0}
{-3 -2 0 1 4 7 7}
7/25/2019 AnalisisExploratorio I 2013
9/32
Cuantiles de una muestra aleatoria(percentiles, cuartiles, quintiles, deciles, etc)
Ej.: 1) Sea la muestra aleatoria {7 -2 2 7 -3 4 0}
Cmo podemos estimar un valor central que, en sentidoamplio, deje probabilidad a ambos lados?
ordenamos {-3 -2 0 2 4 7 7}
Parece natural tomar un valor que deje la misma cantidad dedatos a cada lado, en este caso el 2:
{-3 -2 0 2 4 7 7}. Se dice que la mediana de la muestra es
2.q0.5 = 2
(percentil 50)
7/25/2019 AnalisisExploratorio I 2013
10/32
CuantilesEj. 2) Sea ahora la muestra {7 1 7 -3 4 0} (tiene un nmero par dedatos)
Cul ser la mediana?
{-3 0 1 4 7 7}
Convencionalmente, se suele tomar el promedio entre los dos valorescentrales, o sea
(1 + 4) /2 = 2.5.
Pero, si no se tiene ms informacin, podra elegirse cualquier valor en eseintervalo (1,4)
7/25/2019 AnalisisExploratorio I 2013
11/32
Generalizando, sea p tal que 0 < p < 1.
Los p-quantiles (qp) ( o percentiles) son valoresque dejan, en cierto sentido, probabilidad p a su
izquierda, y probabilidad 1-p a su derecha.
p
1- p
qp
P(X qp) = p P(X qp) = 1 - p
7/25/2019 AnalisisExploratorio I 2013
12/32
Estimacin de los cuantilesEn general, los percentiles no son nicos y por lo tanto, no hayuna nica forma de estimarlos.
Una forma posible para una muestra aleatoria de tamao n es:
1)tomar los estadsticos de orden como los cuantiles(0.5/n), (1.5/n), ..., ([n-0.5]/n) respectivamente
2) para los cuantiles con probabilidades entre (0.5/n) y
([n-0.5]/n), se interpola linealmente.
3) los valores mnimo o mximo de la muestra se asignan
a los cuantiles para probabilidades fuera de ese rango.
7/25/2019 AnalisisExploratorio I 2013
13/32
Principales medidas numricas de resumende un conjunto de datos
1) Localizacin: ej. valor detendencia central delconjunto
2) Dispersin: alrededor del valorcentral
3) Simetra: cmo estn distribuidos losdatos respecto del valor central
4)
7/25/2019 AnalisisExploratorio I 2013
14/32
Localizacin
Media
Mediana q0.50
N
x
x
N
1i
i_
=
=
La mediana divide el conjunto de datos en
dos subconjuntos ordenados con igualcantidad de datos .
Es importante que los cuantiles (en
particular la mediana) permiten trabajarcon estimaciones de robabilidades
Ambas estn comprendidas entre el mnimo y el mximode la muestra.
Valores de tendencia central
7/25/2019 AnalisisExploratorio I 2013
15/32
Ejemplo: (con muy pocos datos!!)
2 4 9 11 14
2 4 9 11 7004
8x
_
=
1406x_
=
(outlier) ??
Localizacin
La media no es robusta ni resistente
Se puede estimar que P (X 9) ~ 0.5 ~ P(X 9)
7/25/2019 AnalisisExploratorio I 2013
16/32
Los cuantiles ms
usados
Mediana q0.5
Cuartiles, q0.25 , q0.75
Terciles, q0.33 , q0.66
Quintiles, deciles,
q0.05 q0.95
Localizacin
++
=
7/25/2019 AnalisisExploratorio I 2013
17/32
Robustez vs. EficienciaPor qu se usa ms la media que la mediana?
Porque en el caso (muy frecuente) de unadistribucin gaussiana es un estimador ms
eficiente que la mediana:con menos valores (o sea, una muestra mspequea) se obtiene la misma dispersin delestimador.
Adems, la media es ms fcil de tratarmatemticamente, y es nica para una muestradada.
7/25/2019 AnalisisExploratorio I 2013
18/32
Matlab
medianmediana
prctilepercentil
quantilecuantil
meanmedia
ComandoVariable
7/25/2019 AnalisisExploratorio I 2013
19/32
Dispersin
Intervalo intercuartil
IQR = q0.75 - q0.25
(Robusto y resistente)
No usa el 25% superior e inferiorde los datos
7/25/2019 AnalisisExploratorio I 2013
20/32
Dispersin
Desviacin estndar muestral
)x(x1N
1sN
1i
2_i
= =
(2 = varianza de la poblacin)
(Ni robusta ni resistente)
Desviacin absoluta de la mediana
MAD = median {|xi
q0.5
|}
7/25/2019 AnalisisExploratorio I 2013
21/32
Simetra
Coeficiente de asimetrade la muestra
Ambos son adimensionados
< 0
> 0
Indice de Yule-Kendall
7/25/2019 AnalisisExploratorio I 2013
22/32
Tcnicas grficas de resumen
Boxplots
Histogramas
Distribuciones de frecuencia acumulada
7/25/2019 AnalisisExploratorio I 2013
23/32
Boxplots (barritas)
7/25/2019 AnalisisExploratorio I 2013
24/32
0 10 20 30 40 50 60 70 80 90 100 110 120 130
. . . . .
Min = 3.20
q0.25 = 43.645
q0.50 = 60.345
q0.75 = 84.96
Max = 124.27
Boxplots (barritas)
7/25/2019 AnalisisExploratorio I 2013
25/32
Temperatura diaria mxima en Melbourne
Se destacan valores extremos inusuales
7/25/2019 AnalisisExploratorio I 2013
26/32
HistogramasAdems de dar idea sobre la
localizacin, la dispersin, y lasimetra, tambin muestran si los datosson multimodales
7/25/2019 AnalisisExploratorio I 2013
27/32
Histogramas
Precipitacin Rivera agosto 1914-1997
0 50 100 150 200 250 3000
5
10
15
20
25
No.
deocurrencias
Precipitacin Rivera agosto 1914-1997
mediana=78.5 mm
media = 97.9 mm
7/25/2019 AnalisisExploratorio I 2013
28/32
Histogramas
Precipitacin Rivera abril 1914-1997
mediana=110.5 mm
media = 141.7 mm
7/25/2019 AnalisisExploratorio I 2013
29/32
Histogramas
7/25/2019 AnalisisExploratorio I 2013
30/32
Distribuciones empricas de frecuencia acumulada
Interesa P (X x),probabilidad de no excedencia
Mediana ~ 110.5 mm
P(X110.5) ~ 0.5
110.5 mm
P. ej. se puede estimar as:P(X x(i) )= (i - ) / n
Es la funcin inversa del cuantil
7/25/2019 AnalisisExploratorio I 2013
31/32
Distribuciones empricas de frecuencia acumulada
7/25/2019 AnalisisExploratorio I 2013
32/32
Matlab
ecdfDistr. defrecuencia
acumulada
histhistograma
madDesv. abs.de la
mediana
iqrIntervalointercuartil
std
var
Desviacinestndar,varianza
ComandoVariable
Recommended