Estadística
Tipos de Variables
• Aleatorias• Continuas• Discretas• Cuantitativas• Cualitativas
Intervalos y Límites de Clase
• DATOS SUELTOS– Se les llama datos sueltos o brutos a los datos recolectados
que no han sido organizados numéricamente. Un ejemplo es el conjunto de las estaturas de 100 estudiantes hombres , obtenidas del registro universitario, que está ordenado en forma alfabética.
• ORDENACIÓN– Una ordenación es un conjunto de datos numéricos en orden
creciente o decreciente de magnitud. A la diferencia entre el número mayor y el menor se le conoce como Rango de los datos. Por ejemplo, si la estatura mayor de los 100 estudiantes es 74 plg y la menor es 60, el rango es 74 – 60 = 14.
Intervalos y Límites de Clase
• DISTRIBUCIONES DE FRECUENCIA– Si se reúnen grandes cantidades de datos sueltos
es útil distribuirlos en clases ó categorías, y determinar el número de individuos que pertenecen a cada categoría, a lo que se llama Frecuencia de Clase. A una disposición de tabular de los datos por clases, con sus correspondientes frecuencias de clase, se les conoce como distribución de frecuencias o tabla de frecuencias.
Intervalos y Límites de Clase• La siguiente tabla es una distribución de frecuencias de las estaturas
de 100 estudiantes hombres de la Universidad Estatal:
• A los datos organizados y reunidos en clases, como la anterior distribución de frecuencias, se les llama datos agrupados. Aunque el proceso de agrupamiento generalmente quita detalles originales en los datos, es muy ventajosa pues proporciona una visión muy amplia y clara, además de que se obtienen relaciones evidentes.
Estatura en pulgadas Número de estudiantes
60 – 62 5
63 – 65 18
66 – 68 42
69 – 71 27
72 – 74 8
Total 100
Intervalos y Límites de Clase
• El símbolo que define a una clase, como 60-62 de la tabla anterior, se llama intervalo de clase.
• A los números 60 y 62 se les conoce como límites de clase;– el número mas pequeño (60) es el límite inferior de clase,– mientras que el mas grande (62) es el límite superior de clase.
• A un intervalo de clase que, por lo menos teóricamente, no tiene límite de clase inferior o superior se le llama Intervalo de Clase Abierto. – Por ejemplo, en grupos de edades de individuos, el intervalo de
clase “65 años o más” es un Intervalo de Clase Abierto.
Distribuciones de Frecuencia
• FRECUENCIAS RELATIVAS– La Frecuencia Relativa de una clase es su frecuencia dividida
entre la frecuencia total de todas las clases y se expresa generalmente como un porcentaje.
– Por ejemplo, la frecuencia relativa de la clase 66-68 de la tabla de estaturas de estudiantes del tema anterior es 42/100 = 42%.
– Es claro que la suma de todas las frecuencias relativas de las clases es 1, o sea 100%.
– Si se sustituyen las frecuencias de esa tabla por las correspondientes frecuencias relativas, a la tabla resultante se le llama Distribución de Frecuencias Relativas, Distribución de Porcentajes o Tabla de Frecuencias Relativas.
Distribuciones de Frecuencia
• FRECUENCIAS ACUMULADAS.– La frecuencia total de todos los valores menores que la
frontera de clase superior de un intervalo de clase dado se conoce como Frecuencia acumulada hasta ese intervalo de clase.
– Por ejemplo, la frecuencia acumulada, incluyendo hasta el intervalo de clase 66 -68 de la tabla de estudiantes es 5+18+42=65, lo que significa que 65 estudiantes tienen estaturas por debajo de 69 plg.
– Una tabla que presenta tales frecuencias acumuladas se llama Distribución de Frecuencias Acumuladas, Tabla de Frecuencias Acumuladas o, brevemente, una Distribución Acumulada.
Distribuciones de Frecuencia
• En la siguiente tabla se muestra una tabla de distribuciones acumuladas para las estaturas de los estudiantes:
Estatura FrecuenciaFrecuencia
relativa porcentual
Número de estudiantes
Frecuencia acumulada
60 – 62 5 5% Menor que 60 0
63 – 65 18 18% Menor que 63 5
66 – 68 42 42% Menor que 66 23
69 – 71 27 27% Menor que 69 65
72 – 74 8 8% Menor que 72 92
Total 100 100% Menor que 75 100
Construcción de Tablas de Frecuencias
• Criterios para la determinación del número de clases– Es recomendable que no sean pocos los intervalos
ó clases debido a que al condensar la pérdida de información sería importante con relación a los datos originales.
– Por otra parte, el número excesivo de clases, si bien produce poca pérdida de la información no simplifica el trabajo.
Construcción de Tablas de Frecuencias
• Un criterio para determinar el número de clases es el propuesto por Ryan en 1982 presentado en la siguiente tabla:
No. de datos No. de clases
8 a 16 4
17 a 32 5
33 a 64 6
65 a 128 7
129 a 256 8
257 a 512 9
513 a 1024 10
Ejercicios
• Se tiene un conjunto de 50 datos que representan el peso en kilogramos de los bebes nacidos en un hospital durante el mes de febrero y se desea representar mediante una tabla de frecuencias. Determine el número de clases que se requieren para construir dicha tabla.
• Solución: 6 clases, de acuerdo a la tabla de Ryan.
Ejercicios
• La siguiente tabla muestra el peso de 50 estudiantes entrevistados.a) Ordenar los datos de menor a mayor.b) Determinar el rango.c) Construir los intervalos de clase con su respectiva
frecuencia.d) Determinar las frecuencias relativas.e) Determinar las frecuencias relativas porcentuales.f) Determinar las frecuencias acumuladas.g) Determinar las frecuencias acumuladas relativas.h) Determinar las marcas de clase de cada intervalo.
Ejercicios
50 67 50 58 61 59 41 59 42 6055 48 45 58 69 46 51 52 40 6553 52 68 53 46 60 50 54 54 4044 41 49 45 47 56 48 53 55 5147 53 51 58 54 51 52 55 60 58
Peso de los estudiantes en kilogramos
Ejercicios
• Rango = Valor Mayor – Valor Menor• Tamaño de clase = Rango/Número de Clases• Marca de clase = (Límite inferior + Límite
superior)/2
Ejercicios• La siguiente distribución de frecuencias muestra el número de
minutos semanales que pasan viendo televisión 400 estudiantes de secundaria.
Tiempo de ver TV No. de estudiantes
300 – 399 14
400 – 499 46
500 – 599 58
600 – 699 76
700 – 799 68
800 – 899 62
900 – 999 48
1000 – 1099 22
1100 – 1199 6
Total 400
Ejercicios
• Con referencia a esta tabla, determinar:a) El límite superior de la 5a. clase.b) El límite inferior de la 8a. Clase.c) La marca de clase de la 7a. Clase.d) El tamaño de los intervalos de clase.e) La frecuencia de la 4a. Clase.f) La frecuencia relativa de la 6a. Clase.g) El porcentaje de estudiantes cuyo tiempo de ver TV no excede de
900 minutos.h) El porcentaje de estudiantes cuyo tiempo de ver TV es mayor o
igual a 900 minutos.i) Porcentaje de estudiantes cuyo tiempo de ver TV es mayor a 500
minutos pero menor a 1000 minutos.
La Media Aritmética
• La media aritmética, o simplemente media de un conjunto N de números X1, X2, X3,…, Xn se denota por X, se define por:
1 2 ... nX X XX
n
Ejercicio
• Encuentra la media de los números 8, 3, 5, 12 y 10.
Cálculo de la Media para Datos Agrupados
• Obtención de la medida por las Marcas de Clase
• Obtención de la media por el método de Codificación
Obtención de la media por las Marcas de Clase
• Ejemplo:– Utilice la distribución de frecuencias mostrado en
la siguiente tabla para determinar la estatura promedio de los 100 estudiantes de una universidad estatal
Estatura en pulgadas Número de estudiantes
60 – 62 5
63 – 65 18
66 – 68 42
69 – 71 27
72 – 74 8
Total 100
Obtención de la media por las Marcas de Clase
Estatura en pulgadas Marcas de Clase Frecuencia fx
60 – 62 5
63 – 65 18
66 – 68 42
69 – 71 27
72 – 74 8
Total 100
Obtención de la media por las Marcas de Clase
Suma de fxMedia Aritmética
n
Obtención de la media por el método de Codificación
• Para calcular la media por este método utilizaremos la fórmula:
• Donde:
0
Suma de w u fX X
n
0
: Media de la muestra.
: Marca de la clase a la cual se le asigna el código 0.
: Amplitud del intervalo de clase.
: Código asignado a cada clase.
: Frecuencia de cada clase.
: Total de datos.
X
X
w
u
f
n
Obtención de la media por el método de Codificación
• Este método se caracteriza por colocar códigos enteros positivos y negativos a todos los intervalos. Los negativos se colocan arriba de la marca de clase asignada por el código cero (X0). El código 0 se puede colocar en cualquier intervalo pero por lo regular se asigna en la clase que esté mas al centro. Para este caso se colocará en el intervalo 66-68.
Obtención de la media por el método de Codificación
Estatura en pulgadas Marcas de Clase Frecuencia Código
(u) u∙f
60 – 62 5
63 – 65 18
66 – 68 42
69 – 71 27
72 – 74 8
Total 100
La Mediana
• La mediana es una medida de tendencia central diferente de la media que hemos venido explicando hasta ahora. La mediana es solo un valor del conjunto de datos que mide el elemento central de los datos. El elemento es el mas central en el conjunto de números. La mitad de los elementos se encuentran por arriba de este punto y la otra mitad cae debajo de él.
Cálculo de la Mediana a Partir de Datos No Agrupados
• NÚMERO DE DATOS IMPAR.– La siguiente serie de números tiene 7 elementos
(número impar) 3, 5, 9, 11, 14, 21, 23 por lo que el valor central (mediana) es 11. Nótese también que la serie ya está ordenada en forma ascendente.
Cálculo de la Mediana a Partir de Datos No Agrupados
• NÚMERO DE DATOS PAR. • Examinemos los datos que aparecen en la
siguiente tabla concernientes al número de pacientes atendidos diariamente durante ocho días en la sala de urgencias de un hospital. Los datos se disponen en orden descendente:
• No. de pacientes: 86, 52, 49, 43, 35, 31, 30, 11• La mediana será el valor promedio de los dos
valores centrales, que en este caso son 43 y 35:– Me = 43+35/2 = 39 pacientes
Cálculo de la Mediana a Partir de Datos Agrupados
• Para calcular la mediana, los estadísticos aplican una ecuación que les permita calcular la mediana de los datos agrupados. En el caso de una muestra, dicha ecuación será:
Me = {W[(n+1)/2 - (F + 1)]/Fm} + Lm– Me = Mediana de la muestra.– n = Número total de elementos de la distribución.– F = Suma de todas las frecuencias de clase hasta un intervalo antes
de la mediana de clase.– Fm = Frecuencia de la mediana de clase.– W = Amplitud de intervalo de las clases.– Lm = Límite inferior del intervalo de mediana de clase.
Cálculo de la Mediana a Partir de Datos Agrupados
• Ejemplo. Determinar la mediana de los saldos mensuales en dólares por 600 clientes de una ciudad.– Los datos se muestran en la siguiente tabla:
Clases en dólares Frecuencia (f)
0 – 49.99 78
50 – 59.99 123
100 – 149.99 187
150 – 199.99 82
200 – 249.99 51
250 – 299.99 47
300 – 349.99 13
350 – 399.99 9
400 – 449.99 6
450 – 499.99 4
TOTAL 600
Cálculo de la Mediana a Partir de Datos Agrupados
• Localización de la mediana de clase.– Primeramente de esos 600 clientes se debe determinar cuál de los 10
intervalos contiene la mediana.– Para hacerlo es preciso sumar las frecuencias en la columna
correspondiente a ellas en la tabla anterior.– Para esto, se suma el total de los elementos mas 1 y se divide entre dos
como sigue: puesto que hay 600 cuentas, el valor (n+1)/2 = (600+1)/2 = 300.5 (o sea, la mediana se encuentra entre los elementos 300 y 301).
– El problema reside en encontrar los intervalos de clase que contienen a esos elementos. La frecuencia acumulativa de las dos primeras clases es apenas 78+123=201. Pero cuando llegamos al tercer intervalo, se suman 187 elementos al 201 dándonos un total de 388. Por tanto, las observaciones 300 y 301 deben situarse en esta tercera clase (el intervalo entre $100.00 y $149.00).
Cálculo de la Mediana a Partir de Datos Agrupados
• Al aplicar la ecuación anterior para calcular la mediana de los saldos de las cuentas de cheques, entonces n = 600, F=201, Fm = 187, w = $50 y Lm=$100.
Me = {W[(n+1)/2 - (F + 1)]/Fm} + LmMe = {50[(600+1)/2 - (201 + 1)]/187} + 100
Me = $126.33
Moda• La moda es el valor que mas se repite dentro del conjunto de datos.• Por ejemplo, la tabla siguiente muestra el número de viajes de reparto
que diariamente hizo una planta de concreto.
• El valor modal es 15 por ocurrir mas a menudo que los demás (3 veces). Una moda de 15 implica que la actividad de la planta es mayor a 6.7 (esta es la respuesta que obtendríamos si calculáramos la media). La moda nos indica que 15 es el número mas frecuente de viajes, pero no nos permite conocer que la mayor parte de los valores son menores que 10.
0 2 5 7 150 2 5 7 151 4 6 8 151 4 6 12 19
Cálculo de la Moda a partir de datos agrupados
• Cuando los datos ya están agrupados en una distribución de frecuencia, debemos suponer que la moda se halla en la clase que tenga mas elementos, es decir, que posea la frecuencia mas elevada.
• El método de calcular la moda cuando contamos con datos agrupados consiste en aplicar la siguiente ecuación:
Mo = LM0 + [D1 W]/(D∙ 1 + D2)
Donde:Mo = Moda para datos agrupados.LM0 = Límite inferior de la clase modal.
D1 = Frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente arriba de ella.D2 = Frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente debajo de ella.W = Amplitud del intervalo de la clase modal.
Cálculo de la Moda a partir de datos agrupados
• Ejemplo. Calcular la moda de los saldos de las cuentas de cheques de la tabla donde se obtuvo la mediana.
Clases en dólares Frecuencia (f)
0 – 49.99 78
50 – 59.99 123
100 – 149.99 187
150 – 199.99 82
200 – 249.99 51
250 – 299.99 47
300 – 349.99 13
350 – 399.99 9
400 – 449.99 6
450 – 499.99 4
TOTAL 600
Cálculo de la Moda a partir de datos agrupados
• Se tiene que:LM0 = $100
D1 = 187 – 123 = 64
D2 = 187 – 82 = 105
W = 50• Así que:
Mo =100 + [64 50]/(64 + 105)∙Mo = 118.93Redondeando el valor de la moda es $119
Gráficas
• Una gráfica es una relación pictórica de la relación entre dos variables.
• En estadística se emplean muchos tipos de gráficas, de acuerdo a la naturaleza de los datos y el propósito que se tenga. Entre ellas están las gráficas de barras, las gráficas de pastel, etc.
Gráficas
• Ejemplo 1:– La siguiente tabla muestra el número de una
muestra de 100 estudiantes y sus intervalos de estatura de cierta universidad. Realizar:a) Una gráfica de barras horizontal.b) Un diagrama de barras vertical.
Estatura (plg) No. de estudiantes
60 – 62 5
63 – 65 18
66 – 68 42
69 – 71 27
72 – 74 8
Gráficas
Gráficas
Gráficas
• Ejemplo 2:– La siguiente tabla muestra el área de los cinco
grandes lagos bajo jurisdicción de los Estados Unidos. Graficar los datos utilizando un diagrama de pastel.
Gran Lago Área (en millas cuadradas)
Michigan 22342
Superior 20557
Hurón 8800
Erie 5033
Ontario 3446
Total 60178
Gráficas
• A la figura mostrada se le llama gráfica de pastel, gráfica circular ó diagrama circular.• Para construirla, se hace corresponder el área total, 60178 millas cuadradas,
equivalente a los 360o del círculo.• De este modo, una milla cuadrada corresponde a 360o/60178. • Se deduce que el Lago Superior, con 20557 millas cuadradas, ocupa un arco de
20557(360o/ 60178 = 123o), mientras que los lagos Michigan, Hurón, Erie y Ontario ocupan arcos de 134o, 53o, 30o y 20o respectivamente.
• Las líneas divisorias se pueden trazar usando un transportador o bien graficando en papel polar.