- 1. 00 Introduccin a la estadstica y teora de probabilidades
-
- Universidad Nacional de Colombia
2. Contenido
- Qu es la teora de probabilidades?
- Qu es la estadstica descriptiva?
- Qu es la estadstica inferencial
3. Estadstica
- Es la rama matemtica relacionada con la coleccin, el anlisis,
la interpretacin (o explicacin) y la representacin de datos.
4. Teora de probabilidades vs Estadstica
- Lateora de probabilidadeses la rama de la matemtica relacionada
con el anlisis de fenmenos aleatorios; esta se desarroll como un
modelo abstracto y sus conclusiones y deducciones estn basados
enaxiomas .
- Laestadsticase basa en la aplicacin de la teora de probabilidad
a problemas reales y sus conclusiones son inferencias basadas
enobservaciones .
5. Ramas de la estadstica
-
- La estadstica se divide en dos ramas:
6. Estadstica descriptiva
-
- La estadstica descriptiva se dedica a los mtodos de recoleccin,
descripcin, visualizacin y resumen de datos originados a partir de
los fenmenos en estudio. Los datos pueden ser resumidos en forma
numrica y/o grfica.
7. Estadstica inferencial
-
- Esta comprende los mtodos y procedimientos para deducir
propiedades (hacer inferencias) de una poblacin, a partir de una
pequea parte de la misma (muestra). Se usa para modelar patrones en
los datos y extraer inferencias acerca de la poblacin bajo estudio.
Estas inferencias pueden tomar la forma de respuestas a preguntas
si/no (prueba de hiptesis), estimaciones de caractersticas numricas
(estimacin), pronsticos de futuras observaciones, descripciones de
asociacin (correlacin) o modelamiento de relaciones entre variables
(anlisis de regresin).
8. Estadstica descriptiva vs. Estadstica inferencial
-
- La diferencia entre la estadstica descriptiva y la estadstica
inferencial es que la primera intenta resumir los datos de forma
cuantitativa mientras que la segunda se usa para sustentar
afirmaciones sobre la poblacin que est representada por los datos
recopilados.
9. 01 Estadstica descriptiva
-
- Universidad Nacional de Colombia
10. Contenido
- Medidas de tendencia no central
- Medidas de tendencia central
- Representacin grfica de la informacin
11. Definiciones
- Se quiere estudiar unapoblacin . Sin embargo por razones
prcticas se analiza unamuestrade la poblacin. Los datos se
coleccionan mediante unmuestreooexperimento . Las observaciones de
la muestra aleatoria se usan para calcular ciertas caractersticas
de la muestra llamadasestadsticas .
12.
- Poblacin:es el conjunto de elementos de referencia sobre el que
se realizan todas las observaciones. La poblacin es la coleccin de
toda la informacin que caracteriza un fenmeno.
- Muestra estadstica (o aleatoria):es un subconjunto
representativo de individuos de la poblacin
- Muestreo:es la tcnica por la cual se selecciona una muestra a
partir de una poblacin
- Unaestadsticaes el resultado de aplicar una funcin a un
conjunto de datos.
13. Informacin bsica de un conjunto de datos
14. Mnimo y mximo (con MATLAB) 15. Mnimo y mximo (con MS EXCEL)
16. Medidas de posicin no central
-
- Unpercentiles el valor de una variable bajo el cual un cierto
porcentaje de las observaciones caen. De este modo el percentil 20
es el valor bajo el cual el 20% de las observaciones pueden ser
encontradas.
-
- Algunos tipos de percentiles importantes son:
-
- Loscuartiles : percentil 25, 50 (mediana) y 75
-
- Losquintiles : percentil 20, 40, 60 y 80
-
- Losdeciles : percentiles 10, 20, ..., 90
17. Definiciones de percentil 18. Ejemplo usando la definicin
1
-
- Calcule el percentil 70 de los datos
-
- Primero que todo se deben organizar los datos en orden
ascendente
-
- Por lo tanto el percentil 70 es 29
19. Percentiles con MATLAB Observe que MS EXCEL y MATLAB
calculan los percentilescon diferentes algoritmos 20. Percentiles
con MS EXCEL Observe que MS EXCEL y MATLAB calculan los
percentilescon diferentes algoritmos 21. Medidas de tendencia
central
- Las medidas de tendencia central miden la localizacin del
centro de los datos
- Media aritmtica (o promedio)
- Media acotada (o media truncada)
22. Media aritmtica (o promedio) 23. Mediana 24. Mediana 25.
Mediana 26. Media geomtrica 27. Media geomtrica
-
- La media geomtrica es relevante cuando varias cantidades son
multiplicadas para producir un total, o cuando los nmeros son de
naturaleza exponencial, como por ejemplo el crecimiento de la
poblacin mundial o las tasas de inters de una inversin
financiera.
-
- La media geomtrica es menos sensible que la media aritmtica a
los valores extremos.
28. Ejemplo 29. Propiedades de la media geomtrica 30. Media
armnica 31. Ejemplo 32. Ejemplo 33. Media armnica 34. Moda 35.
Media acotada (o media truncada) 36. Medidas de tendencia central
en MS EXCEL Observe que MATLAB y MS EXCEL utilizan diferentes
algoritmos para calcular la moda 37.
MEDIA.ACOTADA(datos;porcentaje)
-
- Calcula la media de un conjunto dedatosdespus de eliminar el
porcentaje de los extremos inferior y superior de los puntos de
datos. Puede utilizar esta funcin cuando desee excluir del anlisis
los valores extremos.
-
- porcentajees el nmero fraccionario de puntos de datos que se
excluyen del clculo. Por ejemplo, si porcentaje = 0,2, se eliminarn
cuatro puntos de un conjunto de datos de 20 puntos (20 x 0,2), dos
de la parte superior y dos de la parte inferior.
38. Medidas de tendencia central en MATLAB Observe que MATLAB y
MS EXCEL utilizan diferentes algoritmos para calcular la moda 39.
Otras medidas de tendencia central
-
- http://en.wikipedia.org/wiki/Generalized_mean
-
- http://en.wikipedia.org/wiki/Weighted_mean
-
- http://en.wikipedia.org/wiki/Midrange
-
- http://en.wikipedia.org/wiki/Root_mean_square
40. Notas varias
- La media armnica es siempre inferior a la media geomtrica, que
a su vez es siempre inferior a la media aritmtica.
-
http://en.wikipedia.org/wiki/Inequality_of_arithmetic_and_geometric_means
- http://en.wikipedia.org/wiki/Pythagorean_means
41. Medidas de dispersin
-
- La dispersin de los datos se puede atribuir a pequeas
diferencias de construccin, a mano de obra deficiente, errores
humanos, variabilidad inherente al material, as como a errores en
las observaciones y en las mediadas.
-
- Las medida de dispersin miden la variabilidad de un conjunto de
datos. Una medida de dispersin es un nmero real no negativo, que es
cero si todos los dtos son idnticos, y se incrementa a medida que
las observaciones son ms diversas.
42. Medidas de dispersin
- Rango (o recorrido) intercuartil
- Rango (o recorrido) interdecil
43. Varianza y desviacin estndar muestral Use siempre estas
frmulas para calcular la varianza y la desviacin estndar, a menos
que se indique lo contrario.
Ver:http://en.wikipedia.org/wiki/Variance
http://en.wikipedia.org/wiki/Standard_deviation 44. Varianza y
desviacin estndar poblacional 45. Correccin de Bessel
-
- Aunque intuitivamente la frmula de la desviacin estndar
(varianza)poblacionales la que se debe usar (denominadorn
),SIEMPREque se quieren hacer inferencias acerca de una poblacin,
se debe utilizar la desviacin estndar
(varianza)muestral(denominadorn -1). Las razones de esto se
entendern en el Captulo ***.
46. Recorrido o rango 47. Recorrido interdecil e intercuartil
48. Desviacin media (mean absolute deviation - MAD) Desviacin
mediana (median absolute deviation) 49. Coeficiente de
variacin(coefficient of variation - C.O.V.) No confundir con la
covarianza! 50. Nota final
-
- A pesar que lamedia aritmticay ladesviacin estndarhan sido
empleadas de manera extensa como medidas de tendencia central y
dispersin respectivamente, estas no son siempre las medidas ms
deseables. Su uso es popular por su varias propiedades tericas que
las hacen muy manipulables desde el punto de vista matemtico.
51. Otras medidas de dispersin
- Momento central de cualquier orden
-
- http://en.wikipedia.org/wiki/Moment_(mathematics )
-
- http://en.wikipedia.org/wiki/Mean_difference
- Desviacin estndar geomtrica
-
- http://en.wikipedia.org/wiki/Geometric_standard_deviation
52. Medidas de dispersin en MS EXCEL 53.
-
- Como la funcin para calcular la desviacin mediana no existe en
MS EXCEL 2007, debemos crear la funcin usandoVisual Basic for
Applications (VBA)
Haga Alt+F11 para ingresar el cdigo Insertar-> Mdulo
Copy+Paste cdigo Grabar como .xlsm 54. Medidas de dispersin en
MATLAB 55. Valor atpico (outlier)
-
- Un valor atpico es una observacin que es numricamente distante
del resto de los datos. Las estadsticas derivadas de los conjuntos
de datos que incluyen valores atpicos sern frecuentemente engaosas.
Por ejemplo, en el clculo de la temperatura media de 10 objetos en
una habitacin, si la mayora tienen entre 20 y 25C, pero hay un
horno a 350C, la mediana de los datos puede ser 23, pero la
temperatura media ser 55. En este caso, la mediana refleja mejor la
temperatura de la muestra al azar de un objeto que la media.
56. Valor atpico (outlier)
-
- Los valores atpicos pueden ser indicativos de datos que
pertenecen a una poblacin diferente del resto de la muestra
establecida.
-
- No existe una definicin matemtica de lo que constituye un valor
atpico; este es un ejercicio subjetivo.
57. Sensibilidad de las medidas de tendencia central a valores
atpicos 58. Sensibilidad de las medidas de dispersin a los valores
atpicos 59. Momentos
-
- Ver:http://en.wikipedia.org/wiki/Skewness
-
- Ver:http://en.wikipedia.org/wiki/Kurtosis
60. Curtosis y coeficiente de asimetra en MS EXCEL 61. Curtosis
y coeficiente de asimetra en MATLAB MATLAB y MS EXCEL utilizan
diferentes algoritmos para calcular estos parmetros 62.
Histogramas
-
- Un histograma es una representacin grfica de una variable en
forma de barras, donde la superficie de cada barra es proporcional
a la frecuencia de los valores representados. En el eje vertical se
representan las frecuencias, y en el eje horizontal los valores de
las variables.
63. Datos
-
- Suponga que los siguientes nmeros representan el consumo en m3
de agua por da de una poblacin (observe que estn ordenados
ascendentemente). Elabore el histograma de dichos datos.
64. 1. Determine el rango de los datos
- Rango es igual al dato mayor menos el dato menor. Rango = 5535
- 2298 = 3237
65. 2. Obtener el nmero de clases
-
- Supongamos por el momento que
-
- Formaremos por lo tanto 7 clases/intervalos
66. 3. Establecer la longitud de las clases/intervalos
(bins)
-
- Establecer la longitud de clase: es igual al rango dividido
entre el nmero de clases
-
- Lngitud de la clase = 3237/7 = 462.4
67. 4. Construir los intervalos de las clases
-
- Los intervalos resultan de dividir el rango de los datos en
relacin al resultado del paso 3 en intervalos iguales.
68. 4. Graficar el histograma de conteo 69. 4. Graficar el
histograma de conteo Consultar la ayuda de la funcin FRECUENCIA de
MS EXCEL para entender su uso 70. Tenga en cuenta...
- La normalizacin del histograma
- La frecuencia relativa refleja la proporcin de la observaciones
contenidas en una clase
- Cuando los intervalos de clase son idnticos, el rea de los
rectngulos representa las frecuencias. Sin embargo, cuando la
longitud de los intervalos es diferente, las reas no representan la
frecuencia. Por lo tanto se debe ajustar la altura de los
rectngulos para que sus reas sean proporcionales a la
frecuencia.
71. 5. Graficar el histograma de frecuencias relativas El eje Y
tiene unidades de frecuencia por m 3 /da 72. Histograma de
frecuencia de clase con MATLAB 73. Histograma de frecuencia de
clase con MATLAB El eje Y tiene unidades de frecuencia por m 3 /da
74. Histogramas con MS EXCEL MS EXCEL 2003:
http://www.bloggpro.com/creating-histograms-in-excel/ MS EXCEL
2007:
http://www.bloggpro.com/creating-a-simple-histogram-in-excel-2007/
or just GOOGLE IT!
http://www.google.com/search?q=histograms+excel+2007 75. 6.
Graficar la distribucin de frecuencia relativa acumulada
- Se obtiene graficando en el eje vertical la frecuencia relativa
acumulada de una clase contra el lmite inferior de la siguiente
clase sobre el eje horizontal y uniendo todos los puntos
consecutivos.
76. Percentil 80 El eje Y tiene unidades de frecuencia nicamente
77. Nmero de clases
- No existe una forma nica de escoger el nmero de intervalos.
Esto por lo tanto se deja a criterio del analista. Sin embargo,
existen algunas recomendaciones (las cuales generalmente hacen
suposiciones sobre la forma de los datos):
- El nmero de clases depende del nmero total de
observaciones
78. Nmero de intervalos (k)
- k nmero de intervalos (clases)
79.
- Frmula de Sturges (1926): su rendimiento es pobre si n