12
Cálculo y EstadísTICa. Primer Semestre. EstadísTICa Curso Primero Graduado en Geomática y Topografía Escuela Técnica Superior de Ingenieros en Topografía, Geodesia y Cartografía. Universidad Politécnica de Madrid Capítulo I Ejercicios resueltos ESTADÍSTICA DESCRIPTIVA Manuel Barrero Ripoll. Mª Ángeles Castejón Solanas. Mª Luisa Casado Fuente. Luis Sebastián Lorente. Departamento de Ingeniería Topográfica y Cartografía Universidad Politécnica de Madrid

Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

Embed Size (px)

Citation preview

Page 1: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

Cálculo y EstadísTICa. Primer Semestre. EstadísTICa

Curso Primero Graduado en Geomática y Topografía

Escuela Técnica Superior de Ingenieros en Topografía, Geodesia y Cartografía.

Universidad Politécnica de Madrid

Capítulo I

Ejercicios resueltos

ESTADÍSTICA DESCRIPTIVA

Manuel Barrero Ripoll. Mª Ángeles Castejón Solanas.

Mª Luisa Casado Fuente. Luis Sebastián Lorente.

Departamento de Ingeniería Topográfica y Cartografía

Universidad Politécnica de Madrid

Page 2: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

2 Ejercicios resueltos

Page 3: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

ESTADÍSTICA DESCRIPTIVA

3 - I

Ejercicio 1. Se ha medido dieciséis veces la longitud en metros que separa dos puntos, Los resultados obtenidos se muestran en la siguiente tabla 1.1:

13,404 13,443 13,445 13,447 13,449 13,450 13,453 13,455 13,457 13,460 13,460 13,465 13,455 13,453 13,445 13,455

Tabla 1.1

Calcular la moda, la mediana, los cuartiles y el percentil 90. a) Para realizar este apartado, ordenamos los datos utilizando la tabla de distribución de frecuencias absolutas acumuladas. (Tabla 1.2).

La moda es el valor de máxima frecuencia. La distancia 13.455 se repite tres veces y es la distancia de mayor frecuencia, por tanto

M0=13.455 metros s

Por ser n2

es un valor entero, la mediana (M) es el valor medio de las

observaciones que ocupen los lugares n 82= y n 1 9

2+ = , de modo que

- M = 13.453 13.4532+ =13.453 metros s

Ya que n4

es un valor entero, el primer cuartil Q1 es el valor medio de

los valores situados entre el cuarto y el quinto dato, n 44= y n 1 5

4+ = , así pues,

- Q1 = P25 = 13.445 13.4472+

= 13.446 metros s

El 75 % del total de las observaciones es 12, el tercer cuartil Q3 estará entre los valores que

ocupan los lugares n3 124= y n3 1 13

4+ = , es decir,

- Q3= P75 = 13.455 13.4572+

= 13.456 metros s

Los nueve décimos de 16 es 14.4, por tanto el percentil 90 ocupará el lugar 15,

D9=P90 = 13,460 metros s

manuel.barrero@topografía.upm.es

xi Ni 13.404 1 13.443 2 13.445 4 13.447 5 13.449 6 13.450 7 13,453 9 13.455 12 13.457 13 13.460 15 13.465 16

Tabla 1.2

Page 4: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

4 Ejercicios resueltos

Figura 1.1

A continuación exponemos el procedimiento para calcular los parámetros anteriores utilizando las funciones específicas de las que EXCEL dispone para ello. Para nuestro ejemplo supondremos que los valores están situados en el rango de datos A2:A17 y escribiremos en la columna E las funciones de Excel como se muestran en la columna G de la figura 1.1:

[email protected]

Page 5: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

ESTADÍSTICA DESCRIPTIVA

5 - I

Ejercicio 2. De los datos del ejercicio anterior, calcular: la media, varianza, desviación típica, cuasivarianza, desviación típica de la muestra y los coeficientes de asimetría de Pearson, de Fisher y de apuntamiento. Para calcular los parámetros pedidos necesitamos hallar los momentos no centrales hasta el orden cuarto. Para ello utilizamos una tabla como la que se muestra a continuación:

Media aritmética: i in xXn

= =∑ 215.19616

Media = 13.4498 metros s

Varianza: ( )2

i i2n x X

n

−σ = =

∑ 0.0027916

0.00019=

Varianza = 0.00019 7

Desviación típica: Varianzaσ = = 0.00017 ≈ 0.01321

Desviación típica = 0.01321 1

Cuasivarianza o varianza muestral: ( )2

i i2 2n x Xn 0.002791S 0.00018

n 1 n 1 15

−= σ = = =

− −∑

Cuasivarianza = 0.00018 8

manuel.barrero@topografía.upm.es

ix in i in x ix X− ( )2

i in x X− ( )3

i in x X− ( )4

i in x X−

13.404 1 13.404 -0.045750 0.00209 -0.000096 0.000004 13.443 1 13.443 -0.006750 0.00005 0.000000 0.000000 13.445 2 26.890 -0.004750 0.00005 0.000000 0.000000 13.447 1 13.447 -0.002750 0.00001 0.000000 0.000000 13.449 1 13.449 -0.000750 0.00000 0.000000 0.000000 13.450 1 13.450 0.000250 0.00000 0.000000 0.000000 13.453 2 26.906 0.003250 0.00002 0.000000 0.000000 13.455 3 40.365 0.005250 0.00008 0.000000 0.000000 13.457 1 13.457 0.007250 0.00005 0.000000 0.000000 13.460 2 26.920 0.010250 0.00021 0.000002 0.000000 13.465 1 13.465 0.015250 0.00023 0.000004 0.000000

Sumas 16 215.196 0.00279 -0.000090 0.000004 Tabla 2.1

Page 6: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

6 Ejercicios resueltos

Desviación típica muestral: ( )2

i in x Xn 0.00279S 0.01364n 1 n 1 15

−= σ = = ≈

− −∑

Desviación típica muestral = 0.01364 8

Coeficiente de asimetría de Pearson: sX Mo 13.44975 13.455A 0.39743

0.01321− −

= = ≈ −σ

Coeficiente de asimetría de Pearson As=-0.39743 3

Coeficiente de asimetría de Fisher: ( )3

i i

1 3

1 n x Xng

−= =

σ

∑3

0.00009016

0.01321

2.5047= −

Coeficiente de asimetría de Fisher g1=-2.504 7

Coeficiente de apuntamiento: ( )4

i i

2 4

1 n x Xng 3

−= − =

σ

∑4

0.00000416 3

0.01321− 5.65051=

Coeficiente de apuntamiento g2 = 5.6505 1

En la figura 2.2 exponemos el procedimiento para calcular los parámetros anteriores utilizando

algunas de las funciones específicas de las que EXCEL dispone. Para terminar este apartado, advertimos que algunas fórmulas empleadas por EXCEL pueden producir resultados distintos que con las utilizadas en clase. Por ejemplo los coeficientes de asimetría y apuntamiento de Fisher producen resultados distintos, ello es debido a que nosotros calculamos los coeficientes de asimetría y curtosis de la población o del conjunto de datos, mientras que EXCEL calcula los estimadores o valores muestrales.

[email protected]

Page 7: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en
Page 8: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

8 Ejercicios resueltos

Ejercicio 4 Dada la distribución de frecuencias absolutas mostrada en la tabla 4.1:

Calcular la moda, mediana, cuartiles y el percentil 10. En este caso los datos están agrupados en intervalos, así pues, para el cálculo de los parámetros pedidos, formamos la tabla de distribución de frecuencias y procedemos de la forma siguiente:

Moda: El intervalo modal es [20, 25) y tomamos como moda, M0, el punto medio del intervalo.

M0 =22.5 5 Mediana: El valor de n/2 es 125, por tanto, el intervalo mediano es [20, 25) y el valor de la mediana

( )125 108 5M 20 21.06

80−

= + =

Primer cuartil: El valor de n4

es 62.5, por tanto, el primer cuartil estará en el

intervalo [15, 20) y su valor es:

( )1

62.5 48 5Q 15 16.21

60−

= + =

3 n4

es 187.5, así pues el tercer cuartil Q3 está en el intervalo [20, 25) y su valor es:

( )3

187.5 108 5Q 20 24.97

80−

= + =

El percentil 10 estará en el intervalo [10, 15) y su valor es:

( )

10

25 0 5P 10 12.60

48−

= + =

[email protected]

Intervalos 10 - 15 15 - 20 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 ni 48 60 80 30 13 10 6 3

Tabla 4.1

Intervalo Marca de clase xi

Frecuencia niFrecuencia

Ni 10-15 12.5 48 48 15-20 17.5 60 108 20-25 22.5 80 188 25-30 27.5 30 218 30-35 32.5 13 231 35-40 37.5 10 241 40-45 42.5 6 247 45-50 47.5 3 250

Tabla 4.2

Page 9: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

ESTADÍSTICA DESCRIPTIVA

9 - I

Ejercicio 5. Representar el histograma de frecuencias y los polígonos de frecuencias absolutas y absolutas acumuladas del ejercicio 4. Para representar el histograma y el polígono de frecuencias absolutas acumuladas, utilizamos la tabla 5.1 de distribución de frecuencias absolutas ni.

Para representar el polígono de frecuencias absolutas acumuladas, utilizamos la distribución de frecuencias absolutas acumuladas Ni.

manuel.barrero@topografía.upm.es

Intervalos ni 10-15 48

15-20 60

20-25 80

25-30 30

30-35 13

35-40 10

40-45 6

45-50 3 Tabla 5.1

Intervalos Ni 10 - 15 48 15 - 20 108 20 - 25 188 25 - 30 218 30 - 35 231 35 - 40 241 40 - 45 247 45 - 50 250

Tabla 5.2

Polígono de frecuencias absolutas acumuladas

0

50

100

150

200

250

300

10 15 20 25 30 35 40 45 50

Histograma de frecuencias absolutas

0

20

40

60

80

100

10 - 15 - 20 - 25 - 30 - 35 - 40 - 45 - 50

Poligono de frecuencias absolutas

0

20

40

60

80

100

7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5

Figura 5.1

Page 10: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

10 Ejercicios resueltos

Ejercicio 6. Del ejercicio 4 hallar la media, varianza, desviación típica, cuasivarianza, desviación típica muestral y los coeficientes de asimetría y apuntamiento de Fisher. Para el cálculo de los parámetros estadísticos pedidos, utilizamos la tabla 6.1 y las fórmulas de la tabla 6.1.

Parámetro estadístico. Fórmula. Valor.

Media i in x

Xn

= =∑ 5470250

=21.88

Varianza ( )2

i i2n x X

n

−σ = =

∑ 14778.90250

=59.11

Desviación típica σ = 2σ = 7.69

Cuasivarianza ( )2

i i2n x X

Sn 1

−= =

−∑ 2n

n 1σ

−=59.34

Desviación típica muestral 2 2nS Sn 1

= = σ =−

7.7

Coef. de asimetría de Fisher ( )3

i

1 3

1 n x Xng

−= =

σ

∑ 117423.34250

454.55=1.03

Coeficiente de apuntamiento ( )4

i

2 4

1 n x Xng 3

−= − =

σ

∑2

3561461.88250 3

59.11− =1.06

Tabla 6.2

[email protected]

Intervalos Marca de clase xi

Frecuencia absoluta ni i in x ( )ix X− ( ) 2

i in x X− ( ) 3

i in x X− ( ) 4

i in x X−

10-15 12.5 48 600 -9.38 4223.25 -39614.10 371580.2215-20 17.5 60 1050 -4.38 1151.06 -5041.66 22082.4720-25 22.5 80 1800 0.62 30.75 19.07 11.8225-30 27.5 30 825 5.62 947.53 5325.13 29927.2330-35 32.5 13 422.5 10.62 1466.20 15571.01 165364.1735-40 37.5 10 375 15.62 2439.84 38110.36 595283.8740-45 42.5 6 255 20.62 2551.11 52603.81 1084690.6445-50 47.5 3 142.5 25.62 1969.15 50449.70 1292521.44

250 5470 64.96 14778.90 117423.34 3561461.88 Tabla 6.1

Page 11: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

ESTADÍSTICA DESCRIPTIVA

11 - I

Ejercicio 7. Los siguientes valores corresponden a la temperatura máxima diaria (ºF) de 36 días, obtenidos a las 14 horas en una cierta estación meteorológica.

84, 49, 61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 68, 60, 67, 72, 75, 76,

73, 70, 63, 70, 78, 52, 67, 53, 67, 75, 61, 70, 81, 76, 79, 58, 57, 21.

a) Calcular: media, desviación típica muestral, cuartiles superior e inferior y la mediana. b) Estudiar la existencia de datos atípicos. Si existe algún valor atípico omitir, dicho valor y calcular de nuevo el apartado a). c) Con los datos de los apartados a y b construir un gráfico con el diagrama de caja, de ambos apartados. Para el cálculo del apartado a) utilizaremos la tabla 7.1.

a) - Media: X =236136

65.58≈

- Varianza de la población: 2σ =160811

362

X− ≈ 165,80

- Desviación típica de la población:

2σ = σ = 165,8 12.88≈

- Varianza muestral o cuasivarianza: 2 36S 165,8 170.54

35= ≈

- Desviación típica muestral: 2S S 170.536 13.06= = ≈ .

- Primer cuartil: n n9 y 1=104 4= + ⇒

1

58 60Q 592+

= = .

- Tercer cuartil: 3 3n 27 y n 1 284 4

= + = ⇒ 375 75Q 75

2+

= = .

- Mediana: 2 2n 18 y n 1 194 4

= + = ⇒ 67 68M 67.52+

= = .

b) El rango intercuatílico y las barreras del gráfico son:

El valor x=21 ºF es una temperatura atípica del conjunto de datos.

manuel.barrero@topografía.upm.es

ix in iN in ix in 2ix

21 1 1 21 441 40 1 2 40 1600 45 1 3 45 2025 49 1 4 49 2401 52 1 5 52 2704 53 1 6 53 2809 57 1 7 57 3249 58 2 9 116 6728 60 1 10 60 3600 61 2 12 122 7442 63 1 13 63 3969 66 1 14 66 4356 67 4 18 268 17956 68 1 19 68 4624 69 1 20 69 4761 70 4 24 280 19600 72 1 25 72 5184 73 1 26 73 5329 75 2 28 150 11250 76 2 30 152 11552 78 1 31 78 6084 79 1 32 79 6241 80 1 33 80 6400 81 1 34 81 6561 83 1 35 83 6889 84 1 36 84 7056 2361 160811

Tabla 7.1

LS =mín[ xmáx, Q3+1.5·16]=mín[84, 99]=84. IQR=75-59=16 LI =máx[ xmin, Q1-1.5·16]=máx[21, 35]=35.

Page 12: Cálculo y EstadísTICa. Primer Semestre.asignaturas.topografia.upm.es/matematicas/Estadistica/Tema1... · y escribiremos en la columna E las funciones de Excel como se muestran en

12 Ejercicios resueltos

c) Si omitimos la observación 21ºF y procedemos de forma análoga al apartado a) se tiene:

- Media: X =234035

66.86=

- Varianza de la población: 2σ = 2160370 X

35− 112.12=

- Varianza muestral: 2 35S 112.122 115.4234

= =

- Desviación típica de la población: 2 10.59σ = σ =

- Desviación típica de la muestra: 2S S 10.74= = .

- Primer cuartil: n 8.75 4= ⇒ 1Q 60=

- Tercer cuartil: 3 n 26.254

= ⇒ 3Q 75=

- Mediana: 2 n 17.54

= ⇒ M 68=

Los valores del rango intercuartílco y de las barreras son:

Rango intercuartílico: IQR=75-59=15.

LI =máx[ xmin, Q1-1.5·16] = máx[40, 37.5]=40. LS =mín[ xmáx, Q3+1.5·15] = mín[84, 97.5] = 84.

Con los datos calculados anteriormente, obtenemos el diagrama de cajas de ambas series de datos

Realizado el diagrama de cajas en ambos casos, una lectura de este gráfico sería que la dispersión y la

asimetría son mayores en el apartado a) que en el apartado b). En a) la caja es algo más ancha y, por tanto, mayor la dispersión. También observamos que en b) la media está más próxima a la mediana que en a) y por ello es más simétrica y más significativa en b) al ser menor la dispersión.

[email protected]

ix in iN in ix in 2ix

40 1 1 40 1600 45 1 2 45 2025 49 1 3 49 2401 52 1 4 52 2704 53 1 5 53 2809 57 1 6 57 3249 58 2 8 116 6728 60 1 9 60 3600 61 2 11 122 7442 63 1 12 63 3969 66 1 13 66 4356 67 4 17 268 17956 68 1 18 68 4624 69 1 19 69 4761 70 4 23 280 19600 72 1 24 72 5184 73 1 25 73 5329 75 2 27 150 11250 76 2 29 152 11552 78 1 30 78 6084 79 1 31 79 6241 80 1 32 80 6400 81 1 33 81 6561 83 1 34 83 6889 84 1 35 84 7056

2340 160370 Tabla 7.2

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

0 20 40 60 80 100