19
ANÁLISIS EXPLORATORIO DE DATOS Ana Bautista Garrote Enfermería Grupo A Macarena, subgrupo 1

Seminario 6

Embed Size (px)

Citation preview

Page 1: Seminario 6

ANÁLISIS EXPLORATORIO DE

DATOS

Ana Bautista GarroteEnfermería

Grupo A Macarena, subgrupo 1

Page 2: Seminario 6

PRIMER EJERCICIO:

Page 3: Seminario 6

Cargamos el conjunto de datos de activos en salud que hemos descargado anteriormente de la enseñanza virtual:

Page 4: Seminario 6

En estadísticos le damos a resúmenes y después a distribución de frecuencia y ahí elegimos dos variables:

Yo he elegido la de botellón y la de combinados.

Page 5: Seminario 6

Las tablas de frecuencia que obtenemos de cada variable son las siguientes:

BOTELLÓN

COMBINADOS

Page 6: Seminario 6

o En primer lugar podemos observar que los resultados obtenidos en cuanto a las personas que NUNCA han consumido combinados y que nunca han ido a algún botellón se asemejan mucho, solo tienen algo más de un 2% de diferencia.

o También nos fijamos en que sólo un 0,35% consume combinados y un 2,11% acuden a botellones 2 o 3 VECES POR SEMANA.

o Finalmente nos fijamos en el porcentaje de aquellos encuestados que consumen combinados y aquellos que asisten a los botellones SÓLO LOS FINES DE SEMANA y observamos que hay una diferencia de un 8% aproximadamente.

Interpretación de los resultados:

Page 7: Seminario 6

SEGUNDO EJERCICIO:

Page 8: Seminario 6

Para este ejercicio vamos a seleccionar al igual que en el otro dos variables, pero esta vez se van a tratar de dos variables cuantitativas, para ello le damos a estadísticos->resúmenes->resúmenes numericos:

Seleccionamos horas de practicas deportivas y peso

Antes de darle a aceptar nos aseguramos de que tenemos seleccionados dichos estadísticos:

Page 9: Seminario 6

El resultado que hemos obtenido es el siguiente:

INTERPRETACIÓN DE LOS RESULTADOS:

o Nos fijamos en la hora practica deportiva: podemos decir que se trata de una distribución simétrica puesto que la media es aproximadamente 2 y media (2,48). También observamos que la desviación media es mayor que la media, esto nos lleva a sospechar que hay puntuaciones extremas que subieron la media, lo que quiere decir que no sería del todo representativa de la muestra.

Page 10: Seminario 6

o Fijándonos en los cuartiles podemos decir que se trata de una distribución homogénea puesto que la diferencia entre 25% y 50% es igual que la que existe entre el 50% y 75%.

o A continuación nos fijamos en la variable peso: sigue una distribución más o menos simétrica puesto que hay poca diferencia entre la media (62,75) y la mediana (60).

o Debemos decir que la desviación típica es muy grande por lo que la media no es muy representativa.

o Al fijarnos en los cuartiles podemos decir que también sigue una distribución homogénea puesto que las diferencias entre 25%-50% y 50%-75% son muy parecidas.

Page 11: Seminario 6

TERCER EJERCICIO:

Page 12: Seminario 6

GRÁFICO DE SECTORES:

Seleccionamos una variable dicotómica como es la del sexo.

Page 13: Seminario 6

Se trata de un gráfico de sectores en el que vemos representado la variable cualitativa sexo.Se puede observar como claramente que la mayor parte de la muestra son mujeres.

Page 14: Seminario 6

GRÁFICO DE BARRAS:

Elegimos una variable cualitativa como es la de la marcha atrás.

Page 15: Seminario 6

Se trata de un gráfico de barras en el cual hemos utilizado una variable cualitativa como es la de la marcha atrás.Observamos que la mayor parte de los individuos no han utilizado nunca la marcha atrás.

Page 16: Seminario 6

HISTOGRAMA DE FRECUENCIA:

Para que nos sea más fácil la interpretación de la gráfica seleccionamos la opción de porcentajes.

Page 17: Seminario 6

Se trata de un histograma en el que se utilizan variables cuantitativas, en este caso el mantenimiento del hogar.Observamos que los valores más concentrados se encuentran entre las 10 y 20 h que son las que se dedican al mantenimiento del hogar.

Page 18: Seminario 6

DIAGRAMA DE CAJAS (BOXPLOT)

Seleccionamos una variable cuantitativa como es la de hora de practica deportiva.

Page 19: Seminario 6

Se trata de un diagrama de caja utilizado en variables cuantitativas, en este caso las horas de práctica deportiva.De este obtenemos:-Valor máximo: 10-El 50% de los individuos dedican entre 0 y 4,5 h a la práctica deportiva.-Además observamos que existen 5 valores atípicos que son: 155, 230, 115, 276, 273.