View
10
Download
0
Category
Preview:
Citation preview
1
Temario de la asignatura
• Introducción.
• Análisis de datos univariantes.
• Análisis de datos bivariantes.
• Series temporales y números índice.
• Probabilidad.
• Modelos probabilísticos.
• Introducción a la inferencia estadística.
• Contrastes de hipótesis.
Estadística I. Finanzas y contabilidad
2
1. Representaciones y gráficos. Tablas de frecuencias. Diagrama de barras, Pictogramas, Histograma, Polígono de
frecuencias, y Diagrama de caja.
2. Resumen numérico. Medidas de localización. Medidas de dispersión. Medidas de forma.
Lecturas recomendadas:
• Capítulos 2 a 6 del libro de Peña y Romo (1997)
Tema 2: Análisis de datos univariantes
3
Medidas de localización o posición Moda Mediana Media Cuantiles
Diagrama de caja
Medidas de dispersión Varianza y desviación típica Coeficiente de variación Rango y rango intercuartílico
Lecturas recomendadas: Capítulos 4 y 5 del libro de Peña y Romo (1997)
Tema 2: Análisis de datos univariantes
4
MEDIDAS DESCRIPTIVAS
¿Para qué nos sirven?
¿Se pueden calcular todas con todo tipo de variables?
¿Cuáles son las más adecuadas en cada caso?
¿De qué forma podemos sacar partido a nuestra calculadora?
Medidas de localización o posición
5
LA MODA: (Cuando los datos no están agrupados en intervalos)
Es el valor que aparece con una frecuencia mayor. Puede haber más de una moda: bimodal-trimodal-plurimodal
7 7 7 5 3 5 11 711 2 11 7 4 8 8 710 2 5
¿Qué valor toma la moda?
Medidas de localización o posición
6
LA MODA: (Cuando los datos están agrupados en intervalos)
Clases ni Marca de clase
[0,5) 11
[5,10) 13
[10,15) 6
[15,20) 2
[20,25) 1
[25,30) 3
Podemos encontrar: La CLASE MODAL
¿En la representación gráfica?
Pero, ¿y si queremos calcular “exactamente” el valor de la MODA?
1
1 1
ii i
i i
nMo LI
n n
¿Podemos calcularla para DATOS CUALITATIVOS?
Medidas de localización o posición
7
EJERCICIO: LA MODA Intervalo Frecuencia absoluta
[0,5) 6
[5,10) 14
[10,15) 20
[15,20) 10
Calcular el valor “exacto” de la moda.
Medidas de localización o posición
8
LA MEDIANA: (Cuando los datos no están agrupados en intervalos)Es la observación que ocupa el “lugar” central
7 7 7 5 3 5 11 711 2 11 7 4 8 8 710 2 5
¿Qué valor toma la mediana?
1. Ordenamos los datos de menor a mayor.
2. Tenemos en cuenta también los que se repiten.
3. La mediana, es el “CENTRO FÍSICO”
¿Cómo cambia el cálculo si N es par o impar?
Medidas de localización o posición
9
LA MEDIANA: (Cuando los datos están agrupados en intervalos)
Podemos encontrar:
El INTERVALO MEDIANO
Pero, ¿y si queremos calcular exactamente el valor de la MEDIANA?
1
12 i
i ii
NN
Me LIn
¿Podemos calcularla para DATOS CUALITATIVOS?
Medidas de localización o posición
Clases ni Marca de clase
[0,5) 13 2,5
[5,10) 11 7,5
[10,15) 6 12,5
[15,20) 2 17,5
[20,25) 1 22,5
[25,30) 3 27,5
10
LA MEDIA ARITMÉTICA: Es el PROMEDIO de los valores de la muestra
7 7 7 5 3 5 11 711 2 11 7 4 8 8 710 2 5
¿Qué valor toma la media?
1. Sumamos los datos.
2. Los dividimos por el número total de datos (N).
N
xxx
N
xX N
N
ii
...211
Medidas de localización o posición
(Cuando los datos no están agrupados en intervalos)
11
LA MEDIA ARITMÉTICA:
El valor de la media con
los datos agrupados en
intervalos utiliza la
marca de clase.
¿Podemos calcularla para DATOS CUALITATIVOS?
Medidas de localización o posición
(Cuando los datos están agrupados en intervalos)
Clases ni M.C. (xi) ni xi
[0,5) 13 2,5 32,5
[5,10) 11 7,5 82,5
[10,15) 6 12,5 75
[15,20) 2 17,5 35
[20,25) 1 22,5 22,5
[25,30) 3 27,5 82,5
330 Suma
9,17 Media
12
1 ,siendo " " el nº de intervalos
K
i ii
x nX K
N
La MEDIA ARITMÉTICA para datos agrupados en intervalos es entonces:
(Cuando los datos están agrupados en intervalos)
Medidas de localización o posición
13
LOS CUANTILES: (Cuando los datos no están agrupados en intervalos)Nos divide en conjunto de datos en k partes.
Si por EJEMPLO tenemos diez datos (N=10), y queremos hacer cuatro partes (k=4), necesitamos tres marcas (c1, c2 y c3)
Cuando k=4, se llaman CUARTILES; cuando k=10, DECILES; y cuando k=100, CENTILES.
Medidas de localización o posición
14
CÁLCULO DE CUARTILES
Tenemos el siguiente conjunto de datos:
47 52 52 57 63 64 69 7172 72 78 81 81 86 91
1. Ordenamos los datos de menor a mayor.
2. Calculamos c2 , que ocupa la posición correspondiente a la “mitad”,
¿con qué parámetro visto ya coincide este segundo cuartil?
3. Ahora calculamos, la “mitad” de la primera parte: c1 .
4. Y la “mitad” de la segunda parte: c3
Medidas de localización o posición
15
Medidas de localización o posición
47 47
52 52
52 52
57 57
63 63
64 64
69 69
71 71 71
72 72
72 72
78 78
81 81
81 81
86 86
91 91
c2 = 71
c1 = 60
c3 = 79,5
16
Box-and-Whisker Plot
47 57 67 77 87 97
REPRESENTACIÓN GRÁFICA UTILIZANDO LOS CUARTILES
Utilizando el anterior conjunto de datos:1. Los cálculos:
Primer cuartil: 60Segundo cuartil: 71Tercer cuartil: 79,5Media aritmética: 69,07
2. Hay datos que pueden provenir de observaciones “mal tomadas”: datos atípicos.
Para detectarlas, calculamos:LI=c1-1,5(c3-c1)
LS=c3+1,5(c3-c1)
Diagrama de caja
17
EJERCICIO 1: DIAGRAMA DE CAJA
Construir el diagrama de caja para el anterior conjunto de datos.
56 59 59 61 67
69 73 76 76 80
83 83 84 90 94
Diagrama de caja
18
EJERCICIO 2: DIAGRAMA DE CAJA
Construir el diagrama de caja para el anterior conjunto de datos.
35 45 45 55 57 62 64 64
64 65 73 74 74 76 78 80
82 84 86 92 92 92 93 94
97 112 116 116 123 123 124 128
140 143 173 214 255 277
Diagrama de caja
19
Medidas de localización o posición Moda Mediana Media Cuantiles
Diagrama de caja
Medidas de dispersión Varianza y desviación típica Coeficiente de variación Rango y rango intercuartílico
Tema 2: Análisis de datos univariantes
20
PRIMER CONJUNTO DE DATOS
(Salarios anuales en € de la empresa A)
30700 32500 32900 33800
34100 34500 36000
SEGUNDO CONJUNTO DE DATOS
(Salarios anuales en € de la empresa B)
27500 31600 31700 33800 35300 34000 40600
Vamos a calcular: MEDIA y MEDIANA de ambos conjuntos de datos:
Observa ahora las representaciones gráficas.
Señala media y mediana.
¿Tenemos suficiente información?
Medidas de dispersión: Varianza
21
Parece que la diferencia entre ambos conjuntos de datos son las DISTANCIAS A LA MEDIA, vamos a calcularlas.
X XEmpresa A xi- Empresa B xi-
30700 -2800 27500 -6000
32500 -1000 31600 -1900
32900 -600 31700 -1800
33800 300 33800 300
34100 600 34000 500
34500 1000 35300 1800
36000 2500 40600 7100
¿Cuánto suman nuestras dos nuevas columnas?
NUEVA PROPIEDAD:
N
ii Xx
1
0
¿Por qué sucede esto? ¿Podemos solucionarlo de alguna manera?
Medidas de dispersión: Varianza
22
¿Qué hacemos para poder compararlas?
21
2
N
XxN
ii
Empresa A Empresa B
30700 7840000 27500 36000000
32500 1000000 31600 3610000
32900 360000 31700 3240000
33800 90000 33800 90000
34100 360000 34000 3240000
34500 1000000 35300 250000
36000 6250000 40600 50410000 16900000 96840000
¿Qué unidades tiene este nuevo parámetro? ¿Podemos cambiarlas?
¿Qué indica este nuevo parámetro?
Medidas de dispersión: Varianza
Modificamos nuestro cálculo:
23
Cuando la media sea distinta de “0”, podemos calcular:
XCV
Nos permite comparar, porque no tiene unidades.
¿Para qué nos sirve con una única base de datos?
EJERCICIO 3:
Analizamos el volumen de consultas durante el período de exámenes en 10 bibliotecas universitarias, y se comparan con las anotadas el año anterior. El % de incremento de consultas fue: 10.2 2.9 3.1 6.8 5.9
7.3 7.0 8.2 3.7 4.3
¿Son los datos homogéneos?
Medidas de dispersión: Coeficiente de variación
24
Rango: la diferencia entre el mayor y el menor de los datos.
EJERCICIO 4:
Calcula estas dos medidas para los EJERCICIOS 1 y 2.
Medidas de dispersión: Rango y rango intercuartílico
Rango intercuartílico: la diferencia entre el tercer y el primer cuartil.
Box-and-Whisker Plot
47 57 67 77 87 97
Rango intercuartílico
Rango
Recommended