13
@Blanca Arteaga (Departamento de Estadística) Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS 1. MEDIDAS DE CENTRALIZACIÓN: Media Mediana Moda Cuantiles Otras 2. MEDIDAS DE DISPERSIÓN: Desviación típica Varianza Rango Otras 3. MEDIDAS DE FORMA: Asimetría Apuntamiento 4. REPRESENTACIÓN GRÁFICA: Diagrama de caja @Blanca Arteaga (Departamento de Estadística) MEDIDAS DESCRIPTIVAS ¿Para qué nos sirven? ¿Se pueden calcular todas con todo tipo de variables? ¿Cuáles son las más adecuadas en cada caso? ¿De qué forma podemos sacar partido a nuestra calculadora?

Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

  • Upload
    donga

  • View
    224

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

8

@Blanca Arteaga (Departamento de Estadística)

Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS

1. MEDIDAS DE CENTRALIZACIÓN: MediaMedianaModaCuantilesOtras

2. MEDIDAS DE DISPERSIÓN:Desviación típicaVarianzaRangoOtras

3. MEDIDAS DE FORMA:AsimetríaApuntamiento

4. REPRESENTACIÓN GRÁFICA:Diagrama de caja

@Blanca Arteaga (Departamento de Estadística)

MEDIDAS DESCRIPTIVAS

¿Para qué nos sirven?¿Se pueden calcular todas con todo tipo de

variables?¿Cuáles son las más adecuadas en cada caso?¿De qué forma podemos sacar partido a

nuestra calculadora?

Page 2: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

9

@Blanca Arteaga (Departamento de Estadística)

MEDIDAS DE CENTRALIZACIÓN(1)

¿Qué SON?LA MODA: (Cuando los datos no están agrupados en intervalos)

Es el valor que aparece con una frecuencia mayor. Puede haber más de una: unimodal-bimodal-trimodal-plurimodal

7 7 7 5 3 5 11 711 2 11 7 4 8 8 710 2 5

¿Qué valor toma la moda?

@Blanca Arteaga (Departamento de Estadística)

LA MODA: (Cuando los datos están agrupados en intervalos)Clases ni Marca de clase

[0,5) 11[5,10) 13[10,15) 6[15,20) 2[20,25) 1[25,30) 3

Podemos encontrar: La CLASE MODAL

¿En la representación gráfica?

Pero, ¿y si queremos calcular exactamente el valor de la MODA?

iii

ii l

dddLMo

11

11

+−

+− ++=

¿Podemos calcularla para DATOS CUALITATIVOS?

Page 3: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

10

@Blanca Arteaga (Departamento de Estadística)

EJERCICIO 3: LA MODA

Intervalo Frecuencia absoluta

[0,5) 6

[5,10) 14

[10,15) 20

[15,20) 10

Calcular el valor exacto de la moda.

@Blanca Arteaga (Departamento de Estadística)

EJERCICIO 4: LA MODA

Calcular el valor exacto de la moda.

Clases ni Marca de clase

[0,0.30) 15[0.30,0.60) 21

[0.60,1.20) 36

[1.20,3.00) 18

[3.00,6.00) 6

[6.00,9.00) 3

Page 4: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

11

@Blanca Arteaga (Departamento de Estadística)

MEDIDAS DE CENTRALIZACIÓN(2)

LA MEDIANA: (Cuando los datos no están agrupados en intervalos)Es la observación que ocupa el “lugar” central

7 7 7 5 3 5 11 711 2 11 7 4 8 8 710 2 5

¿Qué valor toma la mediana?

1. Ordenamos los datos de menor a mayor.

2. Tenemos en cuenta también los que se repiten.

3. La mediana, es el “CENTRO FÍSICO”

¿Cómo cambia el cálculo si N es par o impar?

@Blanca Arteaga (Departamento de Estadística)

LA MEDIANA: (Cuando los datos están agrupados en intervalos)Clases ni Marca de clase

[0,5) 13[5,10) 11[10,15) 6[15,20) 2[20,25) 1[25,30) 3

Podemos encontrar: El INTERVALO MEDIANO

Pero, ¿y si queremos calcular exactamente el valor de la MEDIANA?

ii

i

i ln

NNLMe

1

12 −

−+=

¿Podemos calcularla para DATOS CUALITATIVOS?

Page 5: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

12

@Blanca Arteaga (Departamento de Estadística)

MEDIDAS DE CENTRALIZACIÓN(3)

LA MEDIA ARITMÉTICA: (Cuando los datos no están agrupados en intervalos)Es el PROMEDIO de los valores de la muestra

7 7 7 5 3 5 11 711 2 11 7 4 8 8 710 2 5

¿Qué valor toma la media?

1. Sumamos los datos.

2. Los dividimos por el número total de datos (N).

Nxxx

N

xX N

N

ii +++==

∑= ...211

@Blanca Arteaga (Departamento de Estadística)

LA MEDIA ARITMÉTICA: (Cuando los datos están agrupados en intervalos)

Clases ni Marca de clase

[0,5) 13[5,10) 11[10,15) 6[15,20) 2[20,25) 1[25,30) 3

El valor de la media con los datos agrupados en intervalos utiliza la marca de clase.

¿Podemos calcularla para DATOS CUALITATIVOS?

Page 6: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

13

@Blanca Arteaga (Departamento de Estadística)

MEDIDAS DE CENTRALIZACIÓN(4)

LA MEDIA PONDERADA: (Cuando los datos no están agrupados en intervalos)Es el PROMEDIO de los valores de la muestra, dando mayor

importancia a unos datos frente a otros

intervalos de nº el k"" siendo,1

N

nxX

K

iii∑

==

La MEDIA ARITMÉTICA para datos agrupados en intervalos es entonces:

Para la calificación final de una asignatura, se tendrán en cuenta:1. Nota del examen final: 70%2. Trabajos y ejercicios: 20%3. Asistencia: 10%Un alumno que tuvo un “6” en el examen final; un “7” en trabajos; y, asistió todos

los días a clase, por lo tanto un “10”, ¿cuál será su nota final en la asignatura?

@Blanca Arteaga (Departamento de Estadística)

MEDIDAS DE CENTRALIZACIÓN(5)

LOS CUANTILES: (Cuando los datos no están agrupados en intervalos)Nos divide en conjunto de datos en k partes.

Si por EJEMPLO tenemos diez datos (N=10), y queremos hacer cuatro partes (k=4), necesitamos tres marcas (c1, c2 y c3)

Cuando k=4, se llaman CUARTILES; cuando k=10, DECILES; y cuando k=100, CENTILES.

Page 7: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

14

@Blanca Arteaga (Departamento de Estadística)

CÁLCULO DE CUARTILES

Tenemos el siguiente conjunto de datos:

47 52 52 57 63 64 69 7172 72 78 81 81 86 91

1. Ordenamos los datos de menor a mayor.2. Calculamos c2 , que ocupa la posición correspondiente a la “mitad”,

¿con qué parámetro visto ya coincide este segundo cuartil?3. Ahora calculamos, la mitad de la primera parte: c1 .4. Y la mitad de la segunda parte: c3

Posición de c1 = (N+1)/4Posición de c2 = 2(N+1)/4 = (N+1)/2

Posición de c3 = 3(N+1)/4

@Blanca Arteaga (Departamento de Estadística)

REPRESENTACIÓN GRÁFICA UTILIZANDO LOS CUARTILES“El diagrama de caja”

Utilizando el anterior conjunto de datos:

1. Los cálculos:Primer cuartil: 57Segundo cuartil: 71Tercer cuartil: 81Media aritmética: 69,0667

2. Hay datos que pueden provenir de observaciones “mal tomadas”: datos atípicos. Para detectarlas, calculamos:

LI=c1-1,5(c3-c1)LS=c3+1,5(c3-c1)

Box-and-Whisker Plot

47 57 67 77 87 97

Page 8: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

15

@Blanca Arteaga (Departamento de Estadística)

EJERCICIO 5: DIAGRAMA DE CAJA

Construir el diagrama de caja para el anterior conjunto de datos.

56 59 59 61 67

69 73 76 76 80

83 83 84 90 94

@Blanca Arteaga (Departamento de Estadística)

EJERCICIO 6: DIAGRAMA DE CAJA

Construir el diagrama de caja para el anterior conjunto de datos.

35 45 45 55 57 62 64 64

64 65 73 74 74 76 78 80

82 84 86 92 92 92 93 94

97 112 116 116 123 123 124 128

140 143 173 214 255 277

Page 9: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

16

@Blanca Arteaga (Departamento de Estadística)

MEDIDAS DE DISPERSIÓN (1)LA VARIANZA

PRIMER CONJUNTO DE DATOS (Salarios anuales en € de la empresa A)

30700 32500 32900 33800 34100 34500 36000

SEGUNDO CONJUNTO DE DATOS(Salarios anuales en € de la empresa B)

27500 31600 31700 33800 35300 34000 40600

Vamos a calcular: MEDIA y MEDIANA de ambos conjuntos de datos:

Observa ahora las representaciones gráficas.Señala media y mediana.

¿Tenemos suficiente información?

@Blanca Arteaga (Departamento de Estadística)

Parece que la diferencia son las DISTANCIAS A LA MEDIA, vamos a calcularlas.

X XEmpresa A xi- Empresa B xi-30700 -2800 27500 -600032500 -1000 31600 -190032900 -600 31700 -180033800 300 33800 30034100 600 34000 50034500 1000 35300 180036000 2500 40600 7100

¿Cuánto suman nuestras dos nuevas columnas?

NUEVA PROPIEDAD: ( )∑=

=−N

ii Xx

10

¿Por qué sucede esto? ¿Podemos solucionarlo de alguna manera?

Page 10: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

17

@Blanca Arteaga (Departamento de Estadística)

Modificamos nuestro cálculo:

¿Qué hacemos para poder compararlas?

NUEVA DEFINICIÓN: ( )21

2

σ=−∑

=

N

XxN

ii

Empresa A Empresa B

30700 7840000 27500 36000000

32500 1000000 31600 3610000

32900 360000 31700 3240000

33800 90000 33800 90000

34100 360000 34000 3240000

34500 1000000 35300 250000

36000 6250000 40600 50410000

16900000 96840000

¿Qué unidades tiene este nuevo parámetro? ¿Podemos cambiarlas?

¿Qué indica este nuevo parámetro?

@Blanca Arteaga (Departamento de Estadística)

MEDIDAS DE DISPERSIÓN (2)EL COEFICIENTE DE VARIACIÓN

Cuando la media sea distinta de “0”, podemos calcular:

XCV σ

=

Nos permite comparar, porque no tiene unidades.

¿Para qué nos sirve con una única base de datos?

EJERCICIO 7:

Analizamos el volumen de consultas durante el periodo de exámenes en 10 bibliotecas universitarias, y se comparan con las anotadas el año anterior. El % de incremento de consultas fue: 10.2 2.9 3.1 6.8 5.9

7.3 7.0 8.2 3.7 4.3

¿Son los datos homogéneos?

Page 11: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

18

@Blanca Arteaga (Departamento de Estadística)

Lo calculamos como la diferencia entre el mayor y el menor de los datos.

MEDIDAS DE DISPERSIÓN (3)EL RANGO O RECORRIDO

MEDIDAS DE DISPERSIÓN (4)EL RANGO INTERCUARTÍLICO

Lo calculamos como la diferencia entre el tercero y el primero de los cuartiles.

EJERCICIO 8:

Calcula estas dos medidas para el EJERCICIO 6.

@Blanca Arteaga (Departamento de Estadística)

Podemos verlo gráficamente:

MEDIDAS DE POSICIÓN (1)ASIMETRÍA

La distribución es simétrica, la media deja por delante el mismo nº de observaciones que por detrás.

Asimétrica dcha.: los valores bajos son los más frecuentes.

Asimétrica izq.: los valores mayores son los más frecuentes.

Page 12: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

19

@Blanca Arteaga (Departamento de Estadística)

Haciendo cálculos:1. COEFICIENTE DE ASIMETRÍA DE PEARSON:

MEDIDAS DE POSICIÓN (2)COEFICIENTES DE ASIMETRÍA

CA=0 SimétricaCA>0 Asimétrica dcha.CA<0 Asimétrica izq.

2. COEFICIENTE DE ASIMETRÍA DE FISHER (cuando existe más de una moda):

σMoXCA −

=

( )33

31

3

σσm

N

xxCA

N

ii

=−

=∑=

@Blanca Arteaga (Departamento de Estadística)

Podemos verlo gráficamente, comparándola con la curva normal:

MEDIDAS DE POSICIÓN (3)APUNTAMIENTO

Un apuntamiento mayor significa una menor dispersión.

COEFICIENTE DE CURTOSIS DE FISHER:

( )34

1

4

−−

=∑=

σN

xxCA

N

ii

P

CAP = 0 (mesocúrtica)

CAP > 0 (leptocúrtica)

CAP < 0 (platicúrtica)

Page 13: Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS · El valor de la media con los datos agrupados en intervalos utiliza ... La MEDIA ARITMÉTICA para datos agrupados en intervalos ... Haciendo

20

@Blanca Arteaga (Departamento de Estadística)

Trabaja con la siguiente base de datos (calificaciones de un grupo de alumn@s):

EJERCICIO 9: Resumen de todo lo expuesto en los temas anteriores

100 112 88 105 100 102 98 113

102 87 93 93 117 100 98 92

100 117 97 100 83 67 76 100

106 117 89 83 100 109 109 93

105 108 104 63 81 109 100 98