Análisis exploratorio de datos

Embed Size (px)

Citation preview

Presentacin de una novedad

Anlisis exploratorio de datos

Tarea Seminario 6Nieves Domnguez LpezGrupo 13 Virgen del Roco

Para comenzar, desde R- commander seleccionamos cargar conjunto de datos, ya que el archivo est en
formato R

Se aade el archivo de activos en salud 2

El primer ejercicio es: seleccionar dos variables cualitativas-factor del fichero activossalud.RData, describirlas en tablas de frecuencias e interpretar al menos 3 aspectos en relacin a la distribucin de las mismas.

Las variables a elegir sern:

Dulces y edad

Para elegir las variables, seleccionamos estadsticos, resmenes, distribucin de frecuencias y pasamos a seleccionar la variable

Se presenta la variable dulces

De los datos, sacamos las siguientes conclusiones:

El 85% de la muestra, la cual contiene 290 individuos, realiza la ingesta de dulces.

El 14,48% de los individuos nunca comen dulces.

El porcentaje ms alto 31,72%, representa a los individuos que comen dulces menos de una vez en semana.

La siguiente variable es edad

Las conclusiones que podemos sacar de esta variable:

Nuestra muestra contiene a 289 individuos.

Destaca que el 38,41% de la poblacin tenga 18 aos, por lo que son 111 personas.

Ms de 25 aos lo tienen pocos individuos exactamente 10,03% de la muestra, 29 individuos.

El segundo ejercicio consiste en: seleccionar dos
variables numricas del fichero y mediante resmenes numricos decribir e interpretar la distribucin de las mismas.

Las variables elegidas son:

Peso y comunicacin familiar

Volvemos a repetir los pasos para la eleccin de otra variable: estadsticos, resmenes, resmenes numricos y eleccin de la variable.

La primera variable peso

Las conclusiones de la tabla de datos son:

Esta variable tiene una media de 62.75571 y una desviacin tpica de 12.65981. Esto dar lugar una grfica ancha y algo ms dispersa.

Hay 16 casos no disponibles por una razn cualquiera.

La mediana es 60 y coincide con el 50% de los datos y con el segundo cuartil (Q2).

La media y la mediana presentan valores parecidos y muy cercanos, por lo que la distribucin es simtrica.

Se vuelve a repetir el procedimiento con la variable
comunicacionfamiliar

Las conclusiones del estudio de esta variable:

Esta variable tiene una media de 7.829932 y una desviacin tpica de 2.824487. La grfica de esta variable ser ms estrecha porque la desviacin tpica es menor.

Hay 144 casos no disponibles debido a una razn desconocida.

La mediana posee un valor de 7 que coincide con Q2.

La mediana y a media son parecidas por lo que la distribucin ser simtrica.

Como ltimo ejercicio: realizar al menos un grfico de cada tipo con variables adecuadamente seleccionadas del fichero,
describe e interpreta la distribucin los mismos.

Encontraremos distintos grficos:

Grficos de barras

Grfico de sectores

Histogramas

Diagrama de cajas

Grficas de barras: variable cualitativa embutidos

Con esta grfica podemos ver que sigue en gran medida una distribucin normal.Casi las mismas personas comen y no comen embutidos, y la gran mayora una o dos veces por semana

Grfico de sectores : variable cualitativa fruta

Se representa claramente en el diagrama que la mayora de la gente come fruta a diario, seguidamente le siguen las que comen una o dos veces a la semana. Poca gente no toma nunca o casi nunca.

Histograma: variable cuantitativa altura

Se refleja que en la muestra destacan aquellas personas que miden entre 1,60 y 1,65.Muy pocas personas miden menos de 1,50 o ms de 1,90.La distribucin es medianamente asimtrica.

Diagrama de cajas: variable cualitativa peso

En este diagrama se observa como el rango itercuartlico es pequeo, la mediana no se encuentra justo en el centro, y los valores extemos e dispersan bastante de los centrales.Hay valores atpicos bastante alejados de la distribucin normal