16
Seminario 6: Análisis exploratorio de datos Tablas de frecuencias, resúmenes numéricos y gráficos. María Jesús Rodríguez Macarena grupo 1 (Subgrupo 3)

Seminario 6

Embed Size (px)

Citation preview

Page 1: Seminario 6

Seminario 6: Análisis exploratorio de datos

Tablas de frecuencias, resúmenes numéricos y

gráficos.

María Jesús RodríguezMacarena grupo 1 (Subgrupo 3)

Page 2: Seminario 6

Ejercicio 1:

• Selecciona dos variables cualitativas -factor del fichero “activossalud.RData”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las mismas.

Page 3: Seminario 6

En primer lugar cargamos el conjunto de datos “activossalud”

Page 4: Seminario 6

Cogemos dos variables cualesquiera, en este caso las variables “Botellón” y “Edad”, y analizamos los datos:

Page 5: Seminario 6

• En la muestra seleccionada existe un gran porcentaje de personas que realizan botellón los fin de semana (31.58%). Mientras que en la variable edad un 56.4% tiene edad de 18-20 años. Podemos concluir que la mayoría de la población joven realiza botellón los fin de semanas.

• También es significativo el porcentaje de la muestra que realiza botellón en algún momento del año un 82.11%.

• Muy poco porcentaje de la muestra realiza botellón a diario (1%), lo que no quita importancia a la gran cantidad de botellones que se realizan y la peligrosidad que conlleva para la población.

Page 6: Seminario 6

Ejercicio 3:

Selecciona dos variables numéricas del fichero “activossalud.RData”, y mediante resúmenes numéricos describe e interpreta la distribución de las mismas.

Page 7: Seminario 6

• Podemos observar que la media de horas de deporte es 2.48 y la media del peso es de 62.75.• El máximo de peso es de 130 y el mínimo es de 38• El máximo de horas de deporte son 16h y el mínimo de 0h• Existe 1 persona que no contesta la variable práctica deportiva, mientras que 16 personas no

contestan la variable peso.

Este es el resultado

Page 8: Seminario 6

Ejercicio 3:

Debes realizar al menos un gráfico de cada tipo con variables adecuadamente seleccionadas del fichero “activossalud.RData”, describe e interpreta la distribución los mismos.

1. Histograma2. Boxplot3. Diagrama de barras4. Diagrama de sectores

Page 9: Seminario 6
Page 10: Seminario 6

Histograma• Representación gráfica de una

variable en forma de barras, cuya superficie de es proporcional a la frecuencia de los valores representados, ya sea en forma diferencial o acumulada.

• Se usan variables cuantitativas, como la altura

• Podemos observar que esta variable sigue una distribución normal, al centrarse en los valores centrales.

• Los valores que mas se repiten son 1.6 y 1.7

Page 11: Seminario 6

BoxplotPresentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.

Interpretación del Boxplot

Page 12: Seminario 6

Boxplot• Podemos observar desde el valor 1 (aprox)

a 4 se encuentra un 25% de la muestra.• De 4 a 6 se encuentra el 50% de la muestra

y la mediana en el 5.• Del 6 a 9 existe otro 25%• El rango llega de 1 a 9• No sigue una distribución normal porque la

caja se encuentra desplazada

Page 13: Seminario 6

Diagrama de barras

• Representar gráficamente un conjunto de datos o valores

• Conformado por barras rectangulares de longitudes proporcionales a los valores representados.

• Los gráficos de barras son usados para comparar dos o más valores. Pueden orientarse verticalmente u horizontalmente

Page 14: Seminario 6

Diagrama de barras

• Podemos observar qu ecerca de 100 personas de la muestra nunca ha tomado cerveza. En cambio 5 personas de la muestra aproximadamente toman cerveza a diario.

• La gran mayoría de la muestra toma cerveza de 2 o 3 veces semanas a alguna vez.

Page 15: Seminario 6

Diagrama de sectores

• Se utiliza para todo tipo de variables, pero se usa frecuentemente para las variables cualitativas.

• Los datos se representan en un círculo, de modo que el ángulo de cada sector es proporcional a la frecuencia absoluta correspondiente.

Page 16: Seminario 6

Diagrama de sectores

• Según el diagrama la mayoría de la muestra posee padres con estudios ninguno o primarios.

• Mientras que aparentemente existe una misma frecuencia de padres con estudios de bachiller y universitarios.