25
ESTADÍSTICA Un poco de historia El origen de la estadística se encuentra en el término Estado, pues fueron los gobernantes los que primero se preocuparon de elaborar y clasificar las interminables listas de los recursos humanos y materiales que constituían el patrimonio estatal. La información más antigua sobre la elaboración de una estadística la proporciona el historiador griego Herodoto (484-420a.C.), al relatar que en el año 3050 a.C. el faraón de Egipto ordenó un recuento de los bienes que poseía el país para llevar a cabo una gran obra: la construcción de las pirámides. Desde hace tiempo las estadísticas no son patrimonio exclusivo del Estado. También las elaboran compañías de seguros, bancos, investigadores.....o simplemente personas interesadas en obtener y organizar determinada información para analizarla e interpretarla Concepto de Estadística La Estadística es la parte de las Matemáticas que estudia métodos para interpretar datos obtenidos de investigaciones o experimentos aleatorios (aquellos en los que no se puede predecir el resultado aunque se realicen siempre en las mismas condiciones), con el fin de extraer de ellos unas conclusiones. La Estadística puede ser: a) Descriptiva.-Trata de obtener unas conclusiones a partir de ciertos datos mediante el empleo de gráficos o la obtención de unos ciertos valores que los representen a todos. b) Inferencial.-Trata de determinar los valores que adoptarán una serie de datos muy numerosos, que forman una población mediante el estudio de unos cuantos de ellos extraídos de la población de una manera significativa y que forman una muestra. Estadística descriptiva Es una parte de las matemáticas que nos enseña a: Recoger datos de manera ordenada Representar datos mediante gráficas o tablas comprensibles Calcular valores numéricos representativos, que permitan sintetizar, analizar y comparar diferentes colecciones de datos En este curso solo nos dedicaremos a la descriptiva (en 2ºcurso veremos la inferencial). Conceptos generales Población: es el conjunto de todos los elementos objeto de nuestro estudio Muestra: es un subconjunto, extraído de la población, cuyo estudio sirve para inferir características de toda la población Individuo: es cada uno de los elementos de la población o de la muestra. El tamaño de la población o de la muestra es el número de elementos que componen una u otra, y se suele designar con N Se llama variable estadística a cada uno de los caracteres que se desean observar en los individuos de una población. Las variables estadísticas pueden ser: cuantitativas: si sus valores son números cualitativas: si sus valores no son números 1

ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

Embed Size (px)

Citation preview

Page 1: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

ESTADÍSTICAUn poco de historiaEl origen de la estadística se encuentra en el término Estado, pues fueron los gobernantes los que primero se preocuparon de elaborar y clasificar las interminables listas de los recursos humanos y materiales que constituían el patrimonio estatal.La información más antigua sobre la elaboración de una estadística la proporciona el historiador griego Herodoto (484-420a.C.), al relatar que en el año 3050 a.C. el faraón de Egipto ordenó un recuento de los bienes que poseía el país para llevar a cabo una gran obra: la construcción de las pirámides.Desde hace tiempo las estadísticas no son patrimonio exclusivo del Estado. También las elaboran compañías de seguros, bancos, investigadores.....o simplemente personas interesadas en obtener y organizar determinada información para analizarla e interpretarlaConcepto de EstadísticaLa Estadística es la parte de las Matemáticas que estudia métodos para interpretar datos obtenidos de investigaciones o experimentos aleatorios (aquellos en los que no se puede predecir el resultado aunque se realicen siempre en las mismas condiciones), con el fin de extraer de ellos unas conclusiones.La Estadística puede ser:a) Descriptiva.-Trata de obtener unas conclusiones a partir de ciertos datos mediante el empleo de gráficos o la obtención de unos ciertos valores que los representen a todos.b) Inferencial.-Trata de determinar los valores que adoptarán una serie de datos muy numerosos, que forman una población mediante el estudio de unos cuantos de ellos extraídos de la población de una manera significativa y que forman una muestra.Estadística descriptivaEs una parte de las matemáticas que nos enseña a:

• Recoger datos de manera ordenada

• Representar datos mediante gráficas o tablas comprensibles

• Calcular valores numéricos representativos, que permitan sintetizar, analizar y comparar diferentes colecciones de datos

En este curso solo nos dedicaremos a la descriptiva (en 2ºcurso veremos la inferencial).Conceptos generalesPoblación: es el conjunto de todos los elementos objeto de nuestro estudio

Muestra: es un subconjunto, extraído de la población, cuyo estudio sirve para inferir características de toda la población

Individuo: es cada uno de los elementos de la población o de la muestra.

El tamaño de la población o de la muestra es el número de elementos que componen una u otra, y se suele designar con NSe llama variable estadística a cada uno de los caracteres que se desean observar en los individuos de una población.Las variables estadísticas pueden ser:

• cuantitativas: si sus valores son números

• cualitativas: si sus valores no son números

1

Page 2: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

Se denomina recorrido o rango de una variable cuantitativa a la diferencia entre el mayor y el menor de sus valores posibles.Para las variables cualitativas no se define el recorrido

Las variables estadísticas cuantitativas pueden ser discretas o continuas

Variable estadística

acualitativ Variablediscretacontinua

vacuantitati Variable

• Variables discretas son las que toman valores que se pueden enumerar, fáciles de precisar porque están separados, es decir, las que solo pueden tomar valores

aislados.

• Variables continuas son las que pueden tomar todos los valores de un intervaloLos valores de la variable estadística se representan por x1, x2, x3,.........,xn

Se llama distribución estadística al conjunto de datos estadísticos.

Ejemplo1Una profesora de educación física, rellena las fichas de sus alumnos y alumnas de 3º de E.S.O. Y pide, entre otros datos, la edad, la talla y los deportes favoritos de cada unoPoblación: los alumnos-as de 3º de E.S.O.Variables estadísticas: la edad, la talla, los deportes favoritosLa variable “deporte favorito” es cualitativaLas variables “edad y talla” son cuantitativasLa edad sería una variable cuantitativa discretaLa talla sería una variable cuantitativa continua.Ejemplo2En el departamento de control de calidad de una fábrica de bombillas, se desea hacer un estudio sobre el número de horas de duración; sería imposible hacer el estudio sobre todas las bombillas fabricadas, de ahí la necesidad de tomar una muestra. Cuanto mayor sea la muestra, más representativa es de la población.

FrecuenciasFrecuencia absoluta de cada valor, es el nº de veces que éste se repite, y se representa por fi (f1 es la frecuencia absoluta del primer valor, f2 es la frecuencia absoluta del segundo valor, y así sucesivamente). La suma de las frecuencias absolutas debe coincidir con el tamaño de la población o, en su caso, de la muestraFrecuencia absoluta acumulada ni es la suma de la frecuencia absoluta de un valor con las de los que le preceden.Frecuencia relativa, Fi, es el cociente entre la frecuencia absoluta y el nº total de individuos que componen la población o la muestra observada.Frecuencia relativa acumulada, Ni es la suma de la frecuencia relativa de un valor con las de los que le preceden.Frecuencia porcentual, %, es el tanto por ciento con el que aparece cada valor de la variable respecto del tamaño de la muestra. Se obtiene multiplicando por 100 cada frecuencia relativa

Proceso seguido en Estadística

2

Page 3: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

La información estadística nos llega mediante gráficas o tablas muy bien construidas, con las que resulta muy sencillo entender la información que se nos da. Sin embargo, esas tablas y gráficas son el resultado de un largo proceso. Veamos sus principales pasos:1) Elegir una muestra representativa de la población (si es que la población es muy grande), de manera que los resultados que obtengamos para la muestra los podremos suponer válidos para la población2) Seleccionar las variables que se van a analizar. Debe quedar muy claro cuál es la variable y cuáles sus posibles valores.3) Recolección de datos4) Organización de datos5) Elaboración de tablas6) Elaboración de gráficas7) Cálculo de parámetrosA estos tres últimos pasos es a lo que a continuación nos vamos a dedicar.La organización de los datosUna vez obtenidos los datos, es conveniente ordenarlos según algún criterio con la finalidad de obtener el máximo posible de información de los datos.

En la Estadística descriptiva trataremos de observar sistemáticamente los datos para lo cual es conveniente ordenarlos en una tabla y resumirlos en un gráfico que facilite su interpretación. En efecto, supongamos el experimento aleatorio consistente en anotar las calificaciones de matemáticas de un colectivo de 50 alumnos. Los resultados han sido:

1-6-8-8-2-2-3-4-5-10-3-4-5-6-7-8-9-7-7-6-5-5-5-4-4-5-6-7-10-4-1-2-5-5-6-6-7-4-5-6-5-4-6-7-6-5-4-3-4-5

Realizamos un recuento de los resultados obtenidos marcando una raya vertical por cada uno de ellos y agrupándolos en grupos de 5 para facilitar el conteo:

1 II 2 2 III 3 3 III 3 4 IIIII IIII 9 5 IIIII IIIII II 12 6 IIIII IIII 9 7 IIIII I 68 III 3 9 I 1 10 II 2

CO NFECCIÓN DE UNA TABLA DE FRECUENCIAS Una vez recogidos los datos, hay que tabularlos; es decir, hay que confeccionar una tabla en la que aparezcan bien organizados los valores de la variable que se está estudiando y el número de individuos que toma cada valor o cada intervalo de valores. Es lo que se llama una tabla de frecuencias.En estas tablas deben aparecer

• los valores de la variable. Si se encuentran agrupadas en clases, deben aparecer los extremos superior e inferior, así como la marca de clase (que son los puntos medios de cada clase). Es aconsejable escoger los extremos inferior y superior

3

Page 4: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

de cada intervalo de modo que se sitúen en números “redondos”; por ejemplo, múltiplos de 5, de 10, etc. Las clases deben tener la misma amplitud. El nº de clases que debemos formar es de libre elección, pero existe un criterio muy general en el que se aconseja formar, aproximadamente, tantas clases como la raíz cuadrada del número total de datos.

• las frecuencias absolutas• las frecuencias relativas

y a veces es conveniente incluir • las frecuencias absolutas y relativas acumuladas, y • las porcentuales

Ejemplo de confección de una tabla con datos aislados:

Con las definiciones dadas anteriormente, podemos organizar los datos de nuestro experimento en una tabla de frecuencias de la siguiente manera.

xi fi ni Fi Ni n%

1 2 0,04 2 0,04 4

2 3 0,06 5 0,1 6

3 3 0,06 8 0,16 6

4 9 0,18 17 0,34 18

5 12 0,24 29 0,58 24

6 9 0,18 38 0,76 18

7 6 0,12 44 0,88 12

8 3 0,06 47 0,94 6

9 1 0,02 48 0,96 2

10 2 0,04 50 1 4

Totales 50 1 100

Tabla con datos agrupados

Ejemplo:Tenemos un grupo de 120 individuos adultos mayores de 18 años y menores de 75, y queremos distribuirlos según su edad.

Distribución de frecuencias:

4

Page 5: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

EDAD (en años) fi

(18, 20]................................10(20, 25]................................14(25, 35]................................23(35, 45]................................20(45, 60]................................29(60, 75]................................24

Los datos, tal como han sido ordenados y resumidos, se suelen denominar datos agrupados. Aunque con el proceso de agrupamiento se pierde algo de información que contiene los datos originales (por ej. en la categoría de 18 a 20 años no sabemos cuantos individuos de 18 y de 19 hay, sin embargo ofrece la ventaja de presentar todos los datos de una forma sencilla en un pequeño cuadro, lo que facilita su estudio.En este ejemplo observamos que la amplitud de cada clase es variable.El mayor inconveniente que presenta este tipo de distribución es el llamado error de agrupamiento.

Distribución Porcentual o de frecuencias relativasEDAD (en años) f i ni n%

(18, 20]................................10..................0,0833..................8,33(20, 25]................................14..................0,1166.................11,66(25, 35]................................23..................0,1916.................19,16(35, 45]................................20..................0,1666.................16,66(45, 60]................................29..................0,2416.................24,16(60, 75]................................24..................0,20.....................20,00

Observemos que la suma de los porcentajes no es exactamente 100 debido a los decimales. Se suele tomar un único decimal redondeándolo.

Distribución AcumuladaEDAD (en años) f i n% frec acumulada Porc. acumulado

(18, 20]................................10..................8,3...............10.............................8,3(20, 25]................................14.................11,7..............24............................20,0(25, 35]................................23.................19,2..............47............................39,2(35, 45]................................20.................16,7..............67............................55.9(45, 60]................................29.................24,1..............96............................80,1(60, 75]................................24.................20,0.............120..........................100,1

5

Page 6: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

ELABORACIÓN DE GRÁFICOS ESTADÍSTICOS

Los resultados de cualquier experimento, se podrían ver con mucha mayor claridad si los datos tabulados (de una tabla), estuviesen representados gráficamente. Los principales tipos de representaciones gráficas que con ellos podemos hacer son (vamos a representar únicamente las frecuencias absolutas, pero podríamos hacerlo también con cualesquiera otro tipo de las frecuencias definidas):

a) Diagramas de barras.- Colocamos en el eje de abscisas los valores de la variable xi y en el eje de ordenadas los valores de las frecuencias y dibujamos barras de igual anchura cuya altura sea exactamente la frecuencia. Por ejemplo:

Carreras que piensan hacer los alumnos de un Centro de Enseñanza

Se usa el diagrama de barras para variables cualitativas (como en este ejemplo) o cuantitativas discretas.

b) Histogramas

Se usan los histogramas para las variables cuantitativas continuas. El eje vertical suele representar la frecuencia. Sin embargo, cuando el ancho de las barras no es el mismo, lo que marca la frecuencia no es la altura de cada barra, sino el área de la misma.

6

Page 7: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

c) Polígonos de frecuencias.- Se obtienen si unimos los puntos medios de las bases superiores de las barras en el diagrama anterior:

d) Diagramas de sectores.- Se obtienen dividiendo la circunferencia en tantas partes como valores tenga la variable de manera que el área de cada sector obtenido sea proporcional a la respectiva frecuencia

d) Pictogramas.- Es como el diagrama de barras donde se sustituyen las mismas por un dibujo de altura proporcional a las frecuencias y que hace más intuitiva la interpretación de los resultados

7

Page 8: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

e) Pirámides de población.-Se utiliza este procedimiento para comparar las características más relevantes de la población de un Estado, provincia,..., y sus variaciones en un determinado periodo de tiempo.

f) Cartogramas.-Son representaciones gráficas de unidades geográficas, diferenciadas por colores, rayas o puntos:

g) Series cronológicas o diagramas lineales.-Se usan para mostrar las variaciones de uno o varios caracteres estadísticos con el paso del tiempo:

8

Page 9: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

PARÁMETROS ESTADÍSTICOS

Puesto que las representaciones gráficas no siempre consiguen ofrecer una información completa de una serie de datos, es necesario analizar procedimientos numéricos que permitan resumir toda la información del fenómeno en estudio en unos números llamados parámetros estadísticos. Los parámetros estadísticos se pueden clasificar en:

a) Medidas de centralización.- Que representan a toda la distribución. Buscan características del centro de la distribución. Los más importantes son la media aritmética, la mediana y la moda.

b) Medidas de posición.- Indican, una vez ordenados los datos, cuantos elementos quedan a la izquierda o derecha de uno dado: cuartiles, deciles, centiles o percentiles.

c) Medidas de dispersión.- Que indican si los valores están agrupados o dispersos. Los más importantes son rango o recorrido, desviación media, la varianza y la desviación típica.

MEDIDAS DE CENTRALIZACIÓN

MEDIA:

N

x

Nx..........xxx

x 1i

N321∑

==++++

=

N

i

Cuando los datos vienen dados por una tabla de frecuencias:

N

fx

Nfx..........fxfxfx

x 1ii

NN332211∑

==++++

=

N

i

Cuando los datos están agrupados en intervalos, el valor central de cada intervalo (marca de clase), es el que se asigna a todos los individuos que están en dicho intervalo.

Ejemplo 1:Se ha preguntado a un grupo de 70 alumnos sobre el número de zapatos que calzan, obteniendo los resultados de la siguiente tabla:

9

Page 10: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

N. de calzado N. de alumnos35 436 1537 1738 2040 1042 4

En este caso, la media aritmética sería:

67.3770

263770

42.440.1038.2037.1736.1535.4x ==+++++=

Ejemplo 2 El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

Consumo Camiones(0,10] 8(10,20] 12(20,30] 10(30,40] 14(40,50] 21(50,60] 16(60,70] 9

Como la variable está agrupada en intervalos, tomamos la marca de clase. La media sería:

44.3790

337090

65.955.1645.2135.1425.1015.205.8x ==++++++=

MODA

Es el valor de la distribución que se repite con mayor frecuencia. Puede no existir o puede no ser única. Las distribuciones que contienen una sola moda se llaman unimodales y las que contienen dos, bimodales. En general, cuando contiene varias modas se denomina multimodal.

• En una representación gráfica, la moda será el rectángulo más alto, en el caso del histograma, y el pico más alto, en el caso del polígono.Ejemplo:

En la distribución de cifras: 2, 3, 3, 3, 5, 5.................la moda es 3En la distribución de cifras: 2, 2, 4, 5, 5, 6................ las modas son 2 y 5.

• En el caso de los datos agrupados en intervalos, la moda es aproximadamente el punto medio de la clase que contiene la mayor frecuencia de casos (a la que se le llamaría clase modal)Ejemplo:

De 1 a 3..............6De 4 a 6..............15De 7 a 8..............10De 9 a 11............6

10

Page 11: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

En este ejemplo, la clase modal es 4-6 y la moda valdrá 5.Pero si queremos calcular más exactamente la moda (y no de forma aproximada),se

busca el intervalo de mayor frecuencia (intervalo o clase modal) y se aplica la

fórmula:

Mo=Li-1+C. )ff()f(fff

1ii1-ii

1-i

+−+−−i

Donde:Li-1 es el límite inferior del intervalo modalC es la amplitud del intervalofi es la frecuencia del intervalo modalfi-1 es la frecuencia del intervalo anterior al modalfi+1 es la frecuencia del intervalo posterior al modal

En el ejemplo puesto, sería el intervalo (4,6], y aplicando la fórmula:

Mo=4+3. )1015()615(615

−+−−

=5.93

Otro ejemplo:El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

Consumo Camiones(0,10] 8(10,20] 12(20,30] 10(30,40] 14(40,50] 21(50,60] 16(60,70] 9

Solución:El intervalo modal sería el (40,50]

Mo=40+ )1621()1421(1421

−+−−

= 45.83

MEDIANASi los individuos de una población están colocados en orden creciente según la variable que estudiamos, el que ocupa el valor central se llama individuo mediano, y su valor la mediana.La mediana Me, está situada de modo que antes de ella está el 50% de la población y, detrás, el otro 50%.Por ejemplo, en la distribución:

6,7,7,7,8,9,10,12,15Me=8

Si el número de individuos fuera par, la mediana sería el valor medio de los dos centrales.Por ejemplo, en la distribución:

11

Page 12: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

6,7,7,7,8,9,10,12,15,16Me=8.5

Si los datos están agrupados en intervalos, suponemos que los datos de cada intervalo se reparten uniformemente en él, hemos de buscar el intervalo central (en el que se encuentre el o los valores centrales) y aplicar la fórmula:

Me= Li-1+ C.i

1

f

F2N

−− i

Donde Li-1 es el límite inferior del intervaloN es el número total de casos o datosFi-1 es la frecuencia acumulada del intervalo anteriorfi es la frecuencia absoluta del intervaloC es la amplitud del intervalo

Ejemplo:El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

Consumo Camiones(0,10] 8(10,20] 12(20,30] 10(30,40] 14(40,50] 21(50,60] 16(60,70] 9

Calcular la mediana.Solución:Hemos de buscar el intervalo en el que estén los elementos centrales. Como hay 90 elementos, el intervalo es (40,50]. Aplicamos la fórmula:

Me=40+10.21

442

90 −=40.48

MEDIDAS DE POSICIÓN

CENTILES O PERCENTILES• Mediana:

Si los individuos de una población están colocados en orden creciente según la variable que estudiamos, el que ocupa e valor central se llama individuo mediano, y su valor la “mediana”.

La mediana, Me , está situada de modo que antes de ella está el 50% de la población y, detrás, el otro 50%. Por ejemplo, en la distribución:

6,7,7,7,8,9,10,12,15Me=8

Si el número de individuos fuera par, la mediana sería el valor medio de los dos centrales.Por ejemplo, en la distribución:

12

Page 13: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

6,7,7,7,8,9,10,12,15,16Me=8.5

• Cuartiles:Si en vez de partir la totalidad de los individuos en dos mitades, lo hacemos en cuatro partes iguales (todas ellas con el mismo número de individuos), los dos nuevos puntos de separación se llaman “cuartiles”.Cuartil inferior Q1 es un valor de la variable que deja por debajo de él al 25% de la población, y por encima la 75%. Cuartil superior Q3 es un valor de la variable que deja por debajo de él al 75% de la población, y por encima la 25%.Q2 sería la mediana.Por ejemplo, en la distribución:

1, 2, 2 , 3, 4, 5 , 5, 5, 6 , 8, 9, 10 25% 25% 25% 25%

Q1 Me Q3

Q1 = 2.5; Me = 5; Q3 = 7

• Centiles o Percentiles:Si partimos la población en 100 partes y señalamos el lugar que deja debajo k de ellas, el valor de la variable correspondiente a ese lugar se designa por pk y se denomina centil k o percentil k.La mediana es Me = p50

A la mediana, cuartiles y centiles, se les llama medidas de posición.Veamos unos ejemplos de estas medidas de posiciónEjemplo 1: Calcular Me, Q1, Q3, P10 y P80 en la distribución:

1, 1, 2, 3, 4, 4, 5, 5, 5, 5, 6, 7, 7, 7, 8, 9, 10Solución: Hay 17 individuos; 17/2 = 8.5...................la mediana es el valor del individuo 9º..........Me=517/4 = 4.25..............................5º lugar..............................................Q1=417. 3/4 = 12.75......................13º lugar..............................................Q3=717/100 . 10 = 1.7.....................2º lugar...............................................P10=117/100 . 80 = 13.6.................14º lugar...............................................P80=7

Ejemplo 2: En la siguiente distribución de número de hijos de 110 parejas , halla Me, Q1, Q3, P20 y P99

Nº hijos (xi) 0 1 2 3 4 5 6fi 4 18 41 32 11 3 1

Para calcular la mediana, cuartiles y Percentiles en distribuciones dadas por tablas de frecuencias , necesitamos las frecuencias acumuladas y los %

xi fi Fi En %0 4 4 3.61 18 22 202 41 63 57.33 32 95 86.4

13

Page 14: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

4 11 106 96.45 3 109 99.16 1 110 100

Me = P50 =2 porque para xi=2 la Fi supera el 50%Q1 = P25 =2 porque para xi=2 la Fi supera el 25%Q3 = P75 =3 porque para xi=3 la Fi supera el 75%P99 =5 porque para xi=5 la Fi supera el 99%P20 =1.5 porque para xi=1 la Fi iguala el 20%. Por tanto el valor 1.5 es superior al 20% de la población, e inferior al 80% restante.

Ejemplo 3: En la fabricación de cierto tipo de bombillas, se han detectado algunas defectuosas. Se han estudiado 200 cajas de 100 bombillas cada una, obteniéndose la siguiente tabla:

Defectuosas Nº de cajas1 52 153 384 425 496 327 178 2

Calcula la mediana, el cuartil superior y el percentil 20.

Solución: Formemos la tabla de frecuencias acumuladas:Xi fi Fi %1 5 5 2.52 15 20 103 38 58 294 42 100 505 49 149 74.56 32 181 90.57 17 198 998 2 200 100

Mediana: Se han ordenado las cajas según el nº de bombillas defectuosas, de menor a mayor. La mediana será la caja que ocupe el lugar central. Como el nº de cajas es par (200), la mediana es el valor medio entre los dos centrales.La caja nº 100 tiene 4 bombillas defectuosas y la nº 101 tiene 5 bombillas defectuosas. Por tanto, Me = (4+5)/2 = 4.5El cuartil superior: corresponde al 75% del total : 0.75.200=150. La caja que ocupa el lugar nº 150 tiene 6 bombillas defectuosas. Por tanto, Q3 = 6. El 25% de las cajas tiene 6 o más bombillas defectuosas.El percentil 20: corresponde al 20% del total: 0.20 . 200 = 40. La caja que ocupa el lugar 40 tiene 3 bombillas defectuosas. Por tanto, P20 =3. El 20% de las cajas tiene 3 o menos bombillas defectuosas.

14

Page 15: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

• En caso de una variable agrupada, las fórmulas para hallar centiles, deciles y cuartiles son:

ii

1i

1ih c.n

N100

n.hLC

−+=

donde cada elemento tiene el mismo significado que en el cálculo de la mediana.

Para hallar los cuarteles en este caso, nada más que hay que tener en cuenta que:Q1=C25 Q2=C50=Me Q3=C75

Para hallar los deciles, tendremos en cuenta que:D1=C10 D2=C20 D3=C30 …………. D9=C90

Veamos algunos ejemplos:Ejemplo:El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

Consumo Camiones(0,10] 8(10,20] 12(20,30] 10(30,40] 14(40,50] 21(50,60] 16(60,70] 9

Calcular el cuartil superior Q3 , el centil 45, C45 y el decil tercero, D3

• Busquemos el intervalo donde se encuentra el Q3, que será en el que se encuentre el elemento que deja a su izquierda un 75% de la población (el 75% de 90 es 67,5).

Haciendo la tabla de las frecuencias absolutas acumuladas:

Consumo Frec. Abs. F. Ab. acum(0,10] 8 8(10,20] 12 20(20,30] 10 30(30,40] 14 44(40,50] 21 65(50,60] 16 81(60,70] 9 90

Observamos que el intervalo que buscamos es el (50,60]. Aplicando la fórmula:

Q3=50+ 5625,515625,15016255010

16

65490.3

=+=+=⋅−

• Busquemos ahora el intervalo donde queda el elemento que deja a su izquierda al 45% de la población: (45% de 90 es 40,5). Observando la columna de las frecuencias absolutas acumuladas, el intervalo (30,40] contiene el C45. Aplicando la fórmula:

15

Page 16: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

C45=30+ 5,375,7301014

3010090.45

=+=⋅−

• Calculemos el D3=P30

Busquemos el intervalo donde se encuentra el elemento que deja a su izquierda el 30% de la población (30% de 90 es 27). Observando la tabla de frecuencias, el intervalo (20,30] contiene al individuo que ocupa el lugar 27, y aplicando la fórmula de los percentiles:

D3=P30=20+10

201009030. − =27

MEDIDAS DE DISPERSIÓN

RANGO O RECORRIDOEs la diferencia entre el valor mayor y el menor si la variable es no agrupada. Si la variable es agrupada, se calcula la diferencia entre el límite superior del último intervalo y el límite inferior del primer intervalo.El valor del recorrido sólo tiene en cuenta los valores extremos; en su valor no influyen los demás elementos de la distribución.Cuanto menor es el rango o recorrido de una distribución, mayor es el grado de representatividad de los valores centrales Ejemplo: Mercedes y Paco miden 169 y 171 respectivamente. Ana y Luís es otra pareja que miden 145 y 195 respectivamente.

Ambas distribuciones tienen la misma media: 170, pero evidentemente nadie los confundirían por la calle. El rango de la pareja Mercedes y Paco: 171-169=2 El rango de la pareja Ana y Luís:195-145=50 Diremos por tanto que la 2ª pareja está más dispersa que la 1ª

Ejemplo 1:Se ha preguntado a un grupo de 70 alumnos sobre el número de zapatos que calzan, obteniendo los resultados de la siguiente tabla:

N. de calzado N. de alumnos35 436 1537 1738 2040 1042 4

El rango o recorrido será 42-35 = 7Ejemplo 2:El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

16

Page 17: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

Consumo Camiones(0,10] 8(10,20] 12(20,30] 10(30,40] 14(40,50] 21(50,60] 16(60,70] 9

Al ser agrupada, el rango o recorrido es 70-0 = 70

DESVIACIÓN MEDIAEs la media de las desviaciones de los valores de la variable respecto a la media de la distribución (siendo la desviación respecto de la media: |xi- x | ):

DM=N

f.xx

Nf.xx...........f.xxf.xx

k

1iii

kk2211∑

=−

=−++−+−

Es una medida muy poco utilizada por la complicación de su cálculo.Si la DM es muy pequeña, indica que hay una gran concentración de valores en torno a la media.Si la variable está agrupada en intervalos, tomamos xi la marca de la clase.

VARIANZAEs la media aritmética de los cuadrados de las desviaciones respecto de la media. Se representa por σ2, y viene dada por la expresión:

N

f.)xx(

f

f.)xx(

f............fff.)xx(f.)xx(f.)xx(

n

1ii

2i

n

1ii

n

1ii

2i

n21

n2

n22

212

12∑

∑=

=

=−

=−

=+++

−+⋅⋅⋅⋅⋅⋅+−+−=σ

(vamos a obtener una segunda expresión para σ2 que vamos a utilizar con frecuencia) ( ) ( ) ( )

−+++

++++

++++++

=+++

−++−+−

n21

n2

22

12

n21

n2

n22

212

1

n21

n2

n22

212

1

f...fffx...fxfx

f.....fff.x....f.xf.x

f.....fffxx.......fxxfxx

2

i

i2

i22

i

i2

i

i

ii2

i

i2

i

n21

nn2211 xf

f.xx2x

ff.x

ffx

x2xf

f.xf...ff

fxx2....fxx2fxx2−=−+=−+=

++++++

−∑

∑∑

∑∑

∑∑

17

Page 18: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

DESVIACIÓN TÍPICAEs la raíz cuadrada de la varianza. Se representa por S

N

f.)xx(

f

f.)xx(

f............fff.)xx(f.)xx(f.)xx(

S 1i

2i

n

1ii

1i

2i

n21

n2

n22

212

1∑

∑=

=

=−

=−

=+++

−+⋅⋅⋅⋅⋅⋅+−+−=

n

i

n

i

Es la unidad de dispersión más usada. Es siempre positiva. Se calcula directamente en las calculadoras científicas.

Ejemplo 1:Se ha preguntado a un grupo de 70 alumnos sobre el número de zapatos que calzan, obteniendo los resultados de la siguiente tabla:

N. de calzado N. de alumnos35 436 1537 1738 2040 1042 4

Haced un cuadro donde aparezca la desviación media, la desviación típica y la varianza.

xi fi |xi- x | |xi- x |.fi (xi- x )2 (xi- x )2.fi

35 4 |35-37.67|=2.67 10.68 7.1298 28.519236 15 |36-37.67|=1.67 25.05 2.7889 41.833537 17 |37-37.67|=0.67 11.39 0.4489 7.631338 20 |38-37.67|=0.33 6.6 0.1089 2.17840 10 |40-37.67|=2.33 23.3 5.4289 54.28942 4 |42-37.67|=4.33 17.32 18.7489 74.9956

70 94.34 34.6543 209.4466Por tanto:La desviación media DM = 94.34/70 = 1.348

18

Page 19: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

La varianza S2 = 209.4466/70 = 2.992La desviación típica S = 1.72973

Ejemplo 2:El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

Consumo Camiones(0,10] 8(10,20] 12(20,30] 10(30,40] 14(40,50] 21(50,60] 16(60,70] 9

Haced un cuadro donde aparezca la desviación media, la desviación típica y la varianza.Calculamos x = 37.44

Consumo xi Camiones=fi |xi- x | |xi- x |.fi (xi- x )2 (xi- x )2.fi

(0,10] 5 8 32.44 259.52 1052.3536 8418.848(10,20] 15 12 22.44 269.28 503.5536 6042.6432(20,30] 25 10 12.44 124.4 154.7536 1547.536(30,40] 35 14 2.44 34.16 5.9536 83.3504(40,50] 45 21 7.56 158.78 57.1536 1200.2256(50,60] 55 16 17.56 280.96 308.3536 4933.6576(60,70] 65 9 27.56 248.04 759.5536 6835.9824

90 1375.12 29062.241

DM = 1375.12 / 90 = 15.279S2 = 29062.241 / 90 = 322.9138S = 17.9698

Ejemplo 3:Se ha anotado el peso de 88 personas, obteniéndose los siguientes resultados:

Peso (Kg) [38,44) [44,50) [50,56) [56,62) [62,68) [68,74) [74,80) Nº personas 7 8 15 25 18 9 6

Calcula el rango, la desviación media, la varianza y la desviación típica.

Calculemos primeramente la media aritmética: = 5204/88 = 59,14

19

Page 20: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

Rango: rango=80 - 38 = 42 Kg Desviación media: D = 639,08/88 = 7,26 Kg Varianza: s2= 7846,23/88 = 89,16 Kg2 Desviación típica: s = 9,44 Kg

20

Page 21: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

EJERCICIOS RESUELTOS

1) Un inspector de autobuses toma nota de los minutos de retraso con que llegan los autobuses a una parada. Su trabajo queda reflejado en el siguiente diagrama de barras:

Halla la varianza y el rango.Resolución: Formemos la siguiente tabla:

Media, x = 445/42 = 10.6 minutosRango = 30 – 0 = 30 minutosS2= 1910.12 / 42 = 45.47 min2

2) Elaborad una tabla de frecuencias con las estaturas de 40 adolescentes:168 160 167 175 175 167 168 158 149 160178 166 158 163 171 162 165 163 156 174160 165 154 163 165 161 162 166 163 159170 165 150 167 164 165 173 164 169 170

Resolución: El nº de valores distintos que hay es grande (mayor que 20), por eso lo adecuado es clasificarlos en intervalos. Para ello procedemos así:

- localizamos los valores extremos: el menor 149 y el mayor 178. Hallamos su diferencia: 178-149=29 (este es el valor del recorrido).

- Puesto que el nº de datos es pequeño (solo 40), decidimos que el nº de intevalos sea pequeño (por ej, 6). Buscamos un nº mayor que el recorrido y que sea múltiplo de 6, por ej. 30 (el recorrido era 29). De este modo, cada uno de los seis intevalos tendrá una longitud igual a 5

21

Page 22: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

- Formamos los intervalos comenzando por un nº algo menor que el 149 y de modo que los seis intervalos abarquen a la totalidad de los datos.

- Repartimos los cuarenta datos en los seis intervalos. (Es conveniente tomar los intervalos con extremos no enteros para que no haya duda de si un valor pertenece a un intervalo o al siguiente.

Intervalos frecuencias(148.5, 153.5] 2(153.5, 158.5] 4(158.5, 163.5] 11(163.5, 168.5] 14(168.5, 173.5] 5(173.5, 178.5] 4

3) Calcula la media y la desviación típica del ejercicio anterior.Resolución: construyamos la siguiente tabla

Intervalos xi fi fixi fixi2

(148.5, 153.5] 151 2 302 45602(153.5, 158.5] 156 4 624 97344(158.5, 163.5] 161 11 1771 285131(163.5, 168.5] 166 14 2324 385784(168.5, 173.5] 171 5 855 146205(173.5, 178.5] 176 4 704 123904

40 6580 1083970

Media: cm5.16440

6580fx.f

xi

ii ===∑

Varianza: 395.16440

1083970xfx.f 22

i

2ii2 =−=−=σ

∑∑

Desviación Típica: cm24.639 ==σVemos en este ejemplo la ventaja de la segunda expresión de σ2 para hallar su valor numérico a partir de una tabla de frecuencias.

4) . Construir la tabla estadística de las edades de las personas que acuden a un logopeda a lo largo de un mes, sabiendo que son:

3, 2, 11, 13, 4, 3, 2, 4, 5, 6, 7, 3,4, 5, 3, 2, 5, 6, 27, 15, 4, 21, 12, 4,3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26

Como hay 36 datos, el número de clases que debemos formar puede ser aproximadamente la raíz cuadrada de 36, es decir 6 clases. Si el intervalo los extendemos de 0 hasta 30, al dividir por 6 se tiene que la amplitud de cada clase debe ser 5.

Este sería un ejemplo de tabla estadística para una variable estadística continua (la edad de una persona no tiene por qué ser un número entero).

22

Page 23: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

Clases Marcasde clase

f i hi Fi Hi

[ )0 5, 2’5 13 1336

13 1336

[ )5 10, 7’5 11 1136

24 2436

[ )10 15, 12’5 6 636

30 3036

[ )15 20, 17’5 2 236

32 3236

[ )20 25, 22’5 1 136

33 3336

[ )25 30, 27’5 3 336

36 1

36 1

5- Las calificaciones en la asignatura de historia de los/as 40 alumnos/as de una clase viene dada por la siguiente tabla:

Calificaciones 1 2 3 4 5 6 7 8 9Nº de alumnos/as 2 2 4 5 8 9 3 4 3

Calcula la mediana.xi f i Fi

1 2 22 2 43 4 84 5 13 < 205 8 21 > 206 9 307 3 338 4 379 3 40

40

La mediana es Me = 5 , dado que es el primer valor de la variable cuya frecuencia absoluta acumulada, 21, excede la mitad del número de datos, 20.

6- Consideremos la siguiente tabla de frecuencias:

xi 3 6 7 8 9f i 15 20 15 40 10

Calcula la mediana.xi f i Fi

23

Page 24: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

3 15 156 20 357 15 50 ≤ 508 40 90 > 509 10 100

100

Como 50 coincide con la frecuencia acumulada del valor 7, la mediana vendrá

dada por la semisuma de 7 y el valor siguiente, 8. Por tanto Me = + =7 82

7 5' .

7- Se ha aplicado un test sobre satisfacción en el trabajo a 88 empleados/as de una fábrica, obteniéndose los siguientes resultados:

PuntuacionesNº de trabajadores/as

[ )38 44, 7

[ )44 50, 8

[ )50 56, 15

[ )56 62, 25

[ )62 68, 18

[ )68 74, 9

[ )74 80, 6Calcula la mediana.

xi f i Fi

[ )38 44, 7 7

[ )44 50, 8 15

[ )50 56, 15 30 < 44

[ )56 62, 25 55 > 44

[ )62 68, 18 73

[ )68 74, 9 82

[ )74 80, 6 8888

La clase mediana es el intervalo [ )56 62, .

M

882

- 30e = + ⋅ =56 6

2559 36'

Observaciones1. La mediana es particularmente útil en los siguientes casos:

24

Page 25: ESTADÍSTICA - STICA+CURSO+03-0 · PDF fileSe llama variable estadística a cada uno de los ... Frecuencia absoluta de ... cual es conveniente ordenarlos en una tabla y resumirlos

a) Cuando entre los datos existe alguno muy extremo que afecta a la media.

b) Cuando los datos están agrupados en clases y alguna de ellas es abierta.

2. Como consecuencia de definición de mediana, se tiene que el 50% de los datos son menores o iguales que ella y el 50% restante son mayores o iguales.

3. La mediana depende del orden de los datos y no de su valor.

8- Las calificaciones en la asignatura de historia del arte de los 40 alumnos/as de una clase viene dada por la siguiente tabla:

Calificaciones 1 2 3 4 5 6 7 8 9Nº de alumnos/as 2 2 4 5 8 9 3 4 3

Rango: 9-1=8Varianza y desviación típica:

xi f i x fi i x fi i2

1 2 2 22 2 4 83 4 12 364 5 20 805 8 40 2006 9 54 3247 3 21 1478 4 32 2569 3 27 243

40 212 1296

Media: x = 53'

Varianza: ( )s2 2129640

53 4 31= − =' '

Desviación típica: s = =4 31 2 08' '

25