Estadística Descriptiva SESIÓN 4
Estadística Descriptiva
Contextualización de la sesión 4
Como se analizó en la sesión anterior, una parte
fundamental de la Estadística es la organización
de los datos, esta se puede llevar a cabo a través
de la realización de tablas de datos agrupados, el
conocimiento de la construcción de estas tablas es
imprescindible para la correcta organización o
para la creación de representaciones graficas de
la información.
Al terminar esta sesión deberás de conocer los
pasos para la conformación de una tabla de datos
agrupados.
En la sesión anterior se abordaron los pasos iniciales en
la construcción de una tabla de grupo de datos, ahora
darás continuidad a la construcción de dicha tabla
estudiando los procedimientos para determinar los
intervalos de clase, sus límites, su frecuencia y las
respectivas marcas de clase.
Introducción de la sesión 4
Explicación: Distribución de
frecuencias
Retomando el ejemplo de la bebida de la sesión anterior,
para el cual se obtuvo una muestra de 100 personas de las
que se investigó su edad, se ordenaron los elementos de la
muestra e hicieron cálculos para agruparlos en cinco
categorías denominados intervalos de clase.
Explicación: Distribución de
frecuencias
Recordemos que, aplicando la fórmula correspondiente, se
obtuvo la longitud c de cada clase, que en este caso tuvo un
valor igual a cinco. Cada intervalo de clase queda definido por
valores numéricos llamados límites, que indican su comienzo y
su final. A estos límites se les conoce como límites de clase y
deben calcularse para cada uno de los intervalos de clase.
Explicación: Distribución de
frecuencias
Para construir el primer intervalo de clase, se toma como valor
inicial el menor de los datos de la muestra, que en este caso
corresponde al valor cinco. Dicho valor marca el límite inferior
de clase (o valor en donde comienza el intervalo de clase).
Para determinar el valor en el que termina el intervalo, se
suma al valor inicial (5) la longitud c del intervalo (5), con lo
que se obtiene el valor 10.
Explicación: Distribución de
frecuencias
Ambos valores constituyen los límites del primer intervalo
de clase, en donde 5 corresponde al límite inferior de
clase y 10 al límite superior. En consecuencia, este
primer intervalo de clase comprenderá a todas las
edades o valores de la muestra que sean mayores o
iguales a 5 años pero menores de 10, lo que se expresa
con la siguiente notación:
[5,10)
Explicación: Distribución de
frecuencias
La expresión anterior se conoce como intervalo cerrado
por la izquierda y abierto por la derecha (denominado de
forma general intervalo semi-cerrado), lo que significa
que los elementos que formarán parte del intervalo son
aquellos mayores o iguales al valor que se encuentra a
la derecha del corchete, pero menores al valor que se
encuentra a la izquierda del paréntesis.
Para determinar el segundo intervalo de clase, se toma el límite superior de clase del primer intervalo (10) como límite inferior de clase. Asimismo, a éste se le suma la longitud del intervalo, esto es: 10 + 5 = 15. Este valor es el límite superior de clase del segundo intervalo. Así, este segundo intervalo de clase comprenderá a todos los valores de la muestra que sean mayores o iguales a 10 pero menores a 15, lo que se expresa por:
[10,15)
Explicación: Distribución de
frecuencias
Para el tercer intervalo se procede de forma análoga a como
se determinaron los dos primeros: se considera el límite
superior del segundo intervalo (15) como el límite inferior de
clase del tercer intervalo. A éste se le suma la longitud c del
intervalo (15 + 5 = 20) para determinar el límite superior de
clase, con lo que se obtiene el siguiente intervalo:
[15,20)
Explicación: Distribución de
frecuencias
El proceso se repite hasta completar las cinco categorías
o intervalos de clase propuestas para el ejemplo:
Explicación: Distribución de
frecuencias
[5,10) [10,15) [15,20) [20,25) [25,30]
Note que el último intervalo de clase [25,30], es cerrado por la
izquierda y por la derecha, ya que si no fuera así quedarían
fuera de él los valores iguales a 30 de nuestra muestra. Debe
resaltarse que los intervalos obtenidos de acuerdo al proceso
anterior se determinan para que ningún dato de la muestra
quede fuera de alguna categoría o intervalo y para que ninguno
pertenezca a más de un intervalo.
Explicación: Distribución de
frecuencias
Una vez definidos todos los intervalos de clase y
sus respectivos límites, se determina la frecuencia
de clase, que es el número de casos u
observaciones de la muestra que caen dentro de
cada intervalo. Para ello, se revisa cada elemento y
se realiza el conteo del número de elementos de la
muestra que caen en cada intervalo.
Explicación: Distribución de
frecuencias
Cada elemento pertenecerá al intervalo en cuestión
únicamente si su valor es igual o mayor que el expresado en
el límite inferior de clase y menor que el del límite superior
del intervalo. La frecuencia de clase se denota por f1, que
significa el número de elementos del intervalo i.
Explicación: Distribución de
frecuencias
En nuestra muestra, entrarán en el primer intervalo únicamente
los elementos que sean mayores o iguales a 5 y que sean
menores que 10, es decir aquellos valores que pertenezcan al
intervalo [5,10). Observamos entonces que los valores de la
muestra que cumplen esta condición son: 5, 6, 6, 9 y 9, es
decir, cinco elementos. Este valor corresponde a la frecuencia
del primer intervalo de clase, es decir, f1 = 5. Repitiendo este
procedimiento para todos los elementos de la muestra, se
obtienen las siguientes frecuencias:
Explicación: Distribución de
frecuencias
f1 = 5 f2 = 10 f3 = 30 f4 = 40 f5 = 15
Que se resumen en la siguiente tabla:
Explicación: Distribución de
frecuencias
Como es de esperarse, la suma de las frecuencias de
cada intervalo de clase es igual al número total de
elementos de la muestra, esto es:
Explicación: Distribución de
frecuencias
El siguiente paso es calcular las marcas de clase, que se denotan por
el símbolo 1 x el cual significa “la marca de la clase i”. Una marca de
clase corresponde al punto medio de cada intervalo de clase. Para
determinar las marcas de clase, se suman el límite inferior de clase y
su respectivo límite superior, y el resultado obtenido se divide entre
dos. Para nuestra muestra, las marcas se calculan mediante las
siguientes operaciones:
Explicación: Distribución de
frecuencias
Resumiendo:
Explicación: Distribución de
frecuencias
Conclusión
Para el correcto desarrollo de las tablas de datos
agrupados es necesario tener conocimiento y calcular
diversos elementos como: los intervalos de clase, que
son las categorías en las que se agrupan los elementos
de la muestra, los límites de clase, que son los limites
inferior y superior de cada intervalo de clase.
Conclusión
Al determinar estos dos datos, es necesario conocer también la frecuencia y marca de clase, que son el número de casos de la muestra que se comprenden dentro de cada intervalo y el punto medio de cada intervalo respectivamente; conocimiento que debes haber adquirido al término de esta sesión.
En la siguiente sesión conocerás los temas correspondientes a las representaciones graficas utilizadas en la Estadística Descriptiva.