9
UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELLÍN ESCUELA DE ESTADÍSTICA SEGUNDO TRABAJO Pruebas de Hipótesis (15%) SEM. 01 – 2015 Grupo 02 Nombre Completo Hugo Alejandro Márquez Aristizábal D. I. 1.017.231.914 La base de datos con la que le corresponde trabajar, se obtiene como una muestra aleatoria de una gran base de datos. La base original corresponde a la información de 200 estudiantes de la Universidad Nacional Sede Medellín. Dicha base contiene las variables: GENERO (HOMBRE o MUJER), ESTATURA (en cm. del estudiante), EDAD (en años), PAPA (obtenido en el semestre anterior), ESTRATO y TRAB (trabaja SI o NO). Cada pareja debe generar una base de datos, que corresponderá a una muestra de tamaño 60 de la base original. Los datos originales están en el archivo: “base.txt”, el cual está disponible en Moodle. Para hacerlo debe seguir los siguientes pasos: # Procedimiento para generar archivo de datos para el trabajo # Primero leer el archivo de datos. uno <- read.table(file.choose(), header=T) # Copiar el siguiente código en R genera <- function(1017231914){ set.seed(1017231914) data <- uno[sample(1:200,60),] data } # Para crear la base de datos con la cual trabajara, debe ejecutar la siguiente línea: datos <- genera(1017231914) # cedula representa el número de cedula de uno de los dos integrantes. En el trabajo debe indicar cuál número de cédula usó.

ESTADISTICA

Embed Size (px)

DESCRIPTION

ESTADISTICA

Citation preview

Page 1: ESTADISTICA

UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELLÍNESCUELA DE ESTADÍSTICA

SEGUNDO TRABAJO Pruebas de Hipótesis (15%)

SEM. 01 – 2015

Grupo 02

Nombre Completo Hugo Alejandro Márquez Aristizábal D. I. 1.017.231.914

La base de datos con la que le corresponde trabajar, se obtiene como una muestra aleatoria de una gran base de datos. La base original corresponde a la información de 200 estudiantes de la Universidad Nacional Sede Medellín. Dicha base contiene las variables: GENERO (HOMBRE o MUJER), ESTATURA (en cm. del estudiante), EDAD (en años), PAPA (obtenido en el semestre anterior), ESTRATO y TRAB (trabaja SI o NO).

Cada pareja debe generar una base de datos, que corresponderá a una muestra de tamaño 60 de la base original. Los datos originales están en el archivo: “base.txt”, el cual está disponible en Moodle. Para hacerlo debe seguir los siguientes pasos:

# Procedimiento para generar archivo de datos para el trabajo# Primero leer el archivo de datos. uno <- read.table(file.choose(), header=T)

# Copiar el siguiente código en Rgenera <- function(1017231914){set.seed(1017231914)data <- uno[sample(1:200,60),]data}

# Para crear la base de datos con la cual trabajara, debe ejecutar la siguiente línea:datos <- genera(1017231914)

# cedula representa el número de cedula de uno de los dos integrantes. En el trabajo debe indicar cuál número de cédula usó.

Con la base ya creada debe resolver las siguientes preguntas:

1. Se tiene la creencia de que la Estatura media de los estudiantes es inferior a 170 cms. ¿Es esto cierto? Justifique su respuesta.

2. ¿Puede afirmarse que el PAPA promedio de las mujeres es superior al de los Hombres? Justifique su respuesta

Page 2: ESTADISTICA

3. ¿Se puede afirmar que el porcentaje de personas que trabajan es inferior al 30%? Justifique su respuesta.

4. ¿Puede afirmarse que la distribución de estudiantes por estrato es la que se muestra en la siguiente tabla?

Consideraciones sobre el trabajo.

1. Para la solución de cada pregunta se deben plantear todas las hipótesis de interés, definir claramente los parámetros a ser utilizados y probar los supuestos que se requieran. Finalmente la conclusión debe hacerse SOLO usando el valor P.

2. El trabajo debe contener máximo 7 páginas incluyendo estas dos páginas de instrucciones.

3. El trabajo debe ser entregado impreso al profesor el día 26 de mayo hasta las 5:00 p.m.

4. La solución a las preguntas deben hacerse SOLO en R (con comando o usando R-Commander).

SOLUCIÓN

1. Se quiere saber si la estatura media de los estudiantes es inferior a 170 cm.

Primero se realizará una prueba para saber si la variable tiene una distribución normal. Para esto se utiliza el test Shapiro-Wilks. Estadístico de prueba:

Ho: Las estaturas se distribuyen normalmente.Ha: Las estaturas no se distribuyen normalmente.

Page 3: ESTADISTICA

El valor p es menor que 0.05 e indica que se debe rechazar Ho y por tanto la evidencia muestral es acorde con que las estaturas no se distribuyen normalmente.

Ahora se procede a realizar la prueba de hipótesis para la media de una población no normal. Se plantean las hipótesis.

Ho: µ = 170Ha: µ < 170

Estadístico de prueba:

µ0=170

Región de rechazo: Zc < -Zα Valor p: P(Z < Zc)

Zc = -0.5815545 Zα = 1.64 Vp = P(Z<-0.5815545)=0.280957

En el gráfico, la línea morada representa la región de rechazo y el punto azul el Z calculado. Como el Z calculado no está dentro de la región de rechazo, no se puede rechazar la hipótesis nula.

Además se tiene un valor p grande entonces no hay suficiente evidencia para rechazar la hipótesis nula. Por lo tanto no es correcto afirmar que la estatura media de los

Page 4: ESTADISTICA

estudiantes es inferior a 170 cm, y esto a su vez permite afirmar que la media de las estaturas debe ser superior o igual a dicho valor.

2. Se quiere saber si el PAPA promedio de las mujeres es superior al de los hombres.

Antes de realizar la prueba de hipótesis se debe saber si las variables se distribuyen normalmente. Se separan las variables por Género para realizar posteriormente el test Shapiro-Wilks y verificar si son o no normales.

Para el PAPA promedio de las mujeres se tiene:

Ho: El PAPA promedio de las mujeres se distribuye normalmenteHa: El PAPA promedio de las mujeres no se distribuye normalmente

El valor p nos dice que no se tiene suficiente evidencia para rechazar la hipótesis nula, por lo tanto la variable se distribuye normalmente.

Análogamente para los hombres:

Ho: El PAPA promedio de los hombres se distribuye normalmenteHa: El PAPA promedio de los hombres no se distribuye normalmente

Del valor p se deduce que la variable se distribuye normalmente, pues no hay suficiente evidencia muestral para rechazar la hipótesis nula.Ahora se debe proceder a realizar una prueba de hipótesis para la diferencia de medias de poblaciones normales, pero como las varianzas son desconocidas, primero se debe verificar si estas son iguales o diferentes.

Page 5: ESTADISTICA

Para esto se realiza un test de hipótesis para el cociente de varianzas. Estadístico de prueba:

Debido a que se tiene un valor p grande, no se puede rechazar Ho y se concluye que la información está más acorde con asumir que las varianzas poblacionales de ambas muestras son iguales.

Ahora se procede a la prueba de hipótesis para la diferencia de medias de poblaciones normales con varianzas iguales.

Estadístico de prueba:

µx: PAPA promedio de los hombresµy: PAPA promedio de las mujeres

Ho: µx - µy = 0 Ha: µx - µy <0

Page 6: ESTADISTICA

El valor p que se tiene es muy pequeño, lo cual permite rechazar la hipótesis nula y confirmar que el PAPA promedio de las mujeres es superior al de los hombres según la información presente en la muestra.

3. ¿Se puede afirmar que el porcentaje de personas que trabajan es inferior al 30%?

La variable de distribuye binomial.Trabaja ~ Bin(60,p)

Ho: p=0.3 Ha: p<0.3

Como n=60 es grande, entonces el estadístico de prueba es:

p0=0.3Antes de proceder a realizar la prueba en R, se deben reordenar los niveles de factor de la variable Trabaja, para que la prueba se haga sobre los que si trabajan.

Page 7: ESTADISTICA

El valor p indica que no hay suficiente evidencia para rechazar la hipótesis nula y por lo tanto permite concluir que la proporción de estudiantes que trabajan debe ser superior o igual a 0.3, por lo tanto no es correcto afirmar que el porcentaje de estudiantes que trabajan es inferior al 30%.

4. ¿Puede afirmarse que la distribución de estudiantes por estrato es la que se muestra en la siguiente tabla?

Ho: p1=0.05, p2=0.15, p3=0.38, p4=0.28, p5=0.08, p6=0.06

Ha: Alguna de las proporciones no corresponde

Estrato 1 2 3 4 5 6

Frec – Obs 4 9 22 14 7 4

Frec – Esp 3 9 22.8 16.8 4.8 3.6

Se deben unir las últimas dos clases para que se cumpla np>5

Estrato 1 2 3 4 5

Frec – Obs 4 9 22 14 11

Frec – Esp 3 9 22.8 16.8 8.4

Estadístico de prueba:

Valor p:

Es necesario recodificar la variable en R, para aplicar el cambio que se hizo en la anterior tabla.

Page 8: ESTADISTICA

El valor p indica que se incurriría en un error grande al rechazar la hipótesis nula. Debido a esto se puede concluir que las proporciones dadas en la tabla del enunciado son correctas y los estudiantes se distribuyen por estratos en dichas proporciones.