ANÁLISIS EXPLORATORIO DE DATOS.
TABLAS DE FRECUENCIAS, RESÚMENES NUMÉRICOS Y
GRÁFICOSMariló Páyer Pérez
Macarena ASubgrupo 3
Ejercicio 1 El ejercicio es el siguiente: selecciona dos variables cualitativas-factor
del fichero “activossalud.RData”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las mismas.
En primer lugar, vamos a cargar nuestra base de datos a R
Nos piden que describamos dos variables en una tabla de frecuencias. En este caso, hemos seleccionado las variables “botellón” y “cerveza”
Analizando estos datos, observamos que:
El porcentaje de los bebedores diarios de botellón es muy semejante al de los bebedores diarios de cerveza (1'05% frente a 1'38%), lo que nos lleva a pensar que los individuos de la muestra propensos a beber diariamente no distinguen entre cerveza o bebidas destiladas.
Por el contrario, el porcentaje de individuos que nunca ha bebido cerveza es más del doble (37'02%) que el de quienes nunca han probado botellón (17'82%), por lo que podemos establecer la hipótesis de que es más frecuente salir de botellón que beber cerveza en fiestas, donde suelen beber los jóvenes.
Ya puestos, podemos comprobar cómo el porcentaje de individuos que beben botellón sólo los fines de semana (31'58%) es superior a los que beben cerveza los fines de semana (20'76%), lo que corrobora nuestra hipótesis anterior.
Ejercicio 2 Selecciona dos variables numéricas del fichero “activossalud.RData”, y mediante
resúmenes numéricos describe e interpreta la distribución de las mismas.En este caso hemos seleccionado las variables “altura” y “peso”, y vamos a seleccionar medidas de tendencia central (media), de dispersión (desviación típica, rango) y de posición (cuartiles)
Este es el resultado:
• Así, los datos nos indican que la media de la muestra es de 1’67 m de altura y de unos 62’76 kg de peso
• La desviación típica de la altura es muy baja (0’08), mientras que la del peso es más alta (12’66), lo que nos indican que los primeros valores no están muy dispersos (muestra homogénea), mientras sí lo están los del peso (muestra heterogénea)
• La muestra estudiada en la altura ha sido de 290 individuos, mientras que la del peso ha sido de 275
• 1 individuo no ha respondido con respecto a su altura, mientras que los que no lo han hecho con respecto al peso son 16
Este es el resultado:
• En cuanto a los cuartiles, nos da información sobre los máximos y los mínimos. El mínimo de altura se sitúa en 1’46m, siendo el máximo de 2m. En cuando al peso, el mínimo se sitúa en 38 kg y el máximo en 130 kg.
• Esto nos lleva a corroborar que la muestra es más homogénea con respecto a la altura que con respecto al peso.
Ejercicio 3 Debes realizar al menos un gráfico de cada tipo con variables
adecuadamente seleccionadas del fichero “activossalud.RData”, describe e interpreta la distribución los mismos.
1. Gráfico de sectores Este tipo de gráficos de sectores no son útiles cuando la variable tiene múltiples
categorías, por lo que vamos a utilizar una variable dicotómica: el sexo
Así, podemos ver claramente como el número de mujeres de la muestra es muy superior al de varones
2. Gráfico de barras Útil para las variables cualitativas Las alturas son proporcionales a las frecuencias (absolutas, porcentajes) Al eje de las abscisas (X/ horizontal) se le asignan los valores de las variables El eje de las ordenadas (Y, vertical) informa de las frecuencias Vamos a analizar el consumo de dulces en nuestra muestra
2. Gráfico de barras En este gráfico podemos ver como la mayoría de individuos consumen dulces 2 o
menos de una vez a la semana. Podemos establecer la hipótesis de que esto es debido a que la población estudiada son estudiantes de Enfermería, rama de Ciencias de la Salud
Los individuos que consumen dulces diariamente son la minoría, menos incluso que los individuos que nunca los consumen
3. Histograma de frecuencias Consisten en rectángulos unidos cuya área es proporcional a la
frecuencia absoluta del intervalo correspondiente Se utiliza para variables cuantitativas, como las horas que le dedican al
deporte los individuos de nuestra muestra Para visualizarlos mejor, vamos a seleccionar la opción de mostrarlos
por porcentajes
3. Histograma de frecuencias
Observando este gráfico, podemos afirmar que no sigue una distribución normal, pues los valores, en lugar de centrarse en los valores centrales, se central en los valores mínimos (entre 0 y 5)
Esto nos indica que la gran mayoría de individuos no dedican ninguna hora al deporte, o le dedican muy pocas.
3. Diagrama de cajas Expresan valores atípicos Los casos atípicos (outliers) son observaciones con valores extremos Notablemente diferentes de las restantes observaciones A veces, pueden convertirse en observaciones influyentes que
distorsionan los resultados (relaciones entre variables, normalidad, etc.) En variables cuantitativas, como el peso
3. Diagrama de cajas (boxplot)
A la izquierda, nuestro diagrama de cajas.A la derecha, la interpretación de un diagrama de cajas
3. Diagrama de cajas (boxplot) El 25% de individuos tienen un peso
de (aproximadamente) 55 kg o menos El 50% de la población (mediana)
tienen un peso de unos 60 kg o menos El 75% de los alumnos tienen un peso
de 70 kg (aproximadamente) o menos Por último, casi el 100% de los
individuos pesan 90 kg o menos. Sin embargo, encontramos diversos valores atípicos que superan los 100 kg, llegando a alcanzar más de 120 kg.
Así mismo, los valores están muy concentrados entre 55 y 65 kg.