Upload
trankhuong
View
214
Download
0
Embed Size (px)
Citation preview
PostData Curso de Introduccioacuten a la Estadiacutestica
Tutorial 09 Inferencia sobre dos poblaciones
Atencioacuten
Este documento pdf lleva adjuntos algunos de los cheros de datos necesarios Y estaacute pensadopara trabajar con eacutel directamente en tu ordenador Al usarlo en la pantalla si es necesariopuedes aumentar alguna de las guras para ver los detalles Antes de imprimirlo piensa sies necesario Los aacuterboles y nosotros te lo agradeceremos
Fecha 10 de septiembre de 2015 Si este chero tiene maacutes de un antildeo puede resultar obsoletoBusca si existe una versioacuten maacutes reciente
Iacutendice
1 Diferencia de proporciones en dos poblaciones 1
2 Diferencia de medias en dos poblaciones muestras grandes 4
3 Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor 9
4 Diferencia de medias en dos poblaciones muestras pequentildeas 13
5 Datos en bruto con R 22
6 Ejercicios adicionales y soluciones 29
PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA 44
Introduccioacuten
Este tutorial contiene la parte praacutectica del Capiacutetulo 9 del libro Como hemos dicho en la introduc-cioacuten de ese capiacutetulo las ideas baacutesicas (intervalos de conanza y contrastes) resultan ya conocidasy aquiacute de lo que se trata es de aplicarlas al caso en el que estudiamos una misma variable aleatoriaen dos poblaciones independientes Las operaciones necesarias en la praacutectica son muy parecidasa las que hemos visto en anteriores capiacutetulos y tutoriales para el caso de una poblacioacuten Para usarel ordenador en estos problemas soacutelo necesitamos en principio ser capaces de resolver problemasde probabilidad (directos e inversos) en las distribuciones correspondientes la normal Z la t deStudent la χ2 y como novedad de este capiacutetulo la F de Fisher Cualquiera de las herramientascon las que nos hemos familiarizado podriacutea ser suciente para este trabajo R por supuesto oGeoGebra Wolfram Alpha incluso Calc permita calcular los valores de cualquiera de esas distri-buciones Pero como ya sabe el lector algunas herramientas son mucho maacutes coacutemodas y ables queotras En este tutorial se incluye en la Tabla 1 (paacuteg 44) una coleccioacuten de plantillas de R quejunto con los de los anteriores tutoriales cubren todos los casos que aparecen en las Tablas delApeacutendice B del libro Ilustraremos el uso de cada una de estas plantillas con un ejemplo detalladoy aprovecharemos algunos de esos ejemplos para abordar el uso de otras herramientas como laCalculadora de Probabilidades de GeoGebra
1 Diferencia de proporciones en dos poblaciones
Ver la Seccioacuten 91 del libro (paacuteg 296)
1
Usando la plantilla de R
Vamos a usar las plantillas de R de la la Tabla 1 para obtener los resultados que aparecen enel Ejemplo 911 del libro (paacuteg 300) Recordemos que en ese ejemplo se trata de contrastar lahipoacutetesis nula
H0 = p1 = p2
Y que para ello se han obtenido dos muestras independientes de tamantildeos n1 = 456 y n2 = 512 enlas que los respectivos nuacutemeros de eacutexitos eran 139 y 184 con lo que las proporciones muestralesde eacutexitos son
p1 =139
456asymp 03048 p2 =
184
512asymp 03594
mientras que las proporciones de fracasos son
q1 asymp 06952 q2 asymp 06406
El caacutelculo del p-valor de este contraste se obtiene muy faacutecilmente con el chero plantilla
de la la Tabla 1 Incluimos aquiacute soacutelo la parte inicial del chero en la que hemos introducido losdatos de este ejemplo Fiacutejate especialmente en que las proporciones muestrales se introducen comococientes no mediante el nuacutemero de eacutexitos Esto se ha hecho asiacute por si en alguacuten caso el enunciadodel problema contiene directamente la proporcioacuten sin mencionar expliacutecitamente el nuacutemero de eacutexitos
PRIMERA MUESTRA Numero de elementos(n1 = 456)
[1] 456
proporcion muestral(pMuestral1 = 139456)
[1] 030482
SEGUNDA MUESTRA Numero de elementos(n2 = 512)
[1] 512
proporcion muestral(pMuestral2 = 184512)
[1] 035938
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateralTipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
El nal del chero plantilla contiene las instrucciones que producen los resultados del contraste(no incluimos la regioacuten de rechazo porque no la vamos a usar)
2
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 00723854663297254
Estadistico
[1] -17967
Como puede verse el p-valor coincide con lo que aparece en ese ejemplo
Usando la funcioacuten proptest
Esta funcioacuten que ya conocimos en el Tutorial08 sirve tambieacuten para este tipo de contrastes Parael Ejemplo 911 del libro que acabamos de calcular el comando a ejecutar seriacutea
proptest(c(139 184) c(456 512) correct=FALSE
alternative=twosided conflevel=095)
2-sample test for equality of proportions without continuity
correction
data c(139 184) out of c(456 512)
X-squared = 323 df = 1 p-value = 0072
alternative hypothesis twosided
95 percent confidence interval
-01138167 00047159
sample estimates
prop 1 prop 2
030482 035938
Como ves
Se introducen dos vectores conteniendo cada uno de ellos respectivamente los eacutexitos y lostamantildeos muestrales frac12Cuidado con este formato
La hipoacutetesis alternativa se indica como en otros casos eligiendo entre less para Ha = p1 ltp2 greater para Ha = p1 gt p2 y twosided para Ha = p1 6= p2
Es necesario incluir la opcioacuten correct=FALSE si queremos obtener el mismo resultado quecon la plantilla De lo contrario R aplica una correccioacuten de continuidad para mejorar laaproximacioacuten de la binomial por la normal
Por uacuteltimo como producto secundario del contraste bilateral obtenemos un intervalo deconanza para p1 minus p2 al nivel de conanza que hayamos indicado
Vamos a usar ese intervalo de conanza como excusa para proponerte un ejercicio
Ejercicio 1
1 Usa el chero plantilla de R de la Tabla 1 (paacuteg 44) para obtener este mismo intervalo deconanza
2 Haz lo mismo usando la pestantildea Estadiacutesticas de la Calculadora de Probabilidades de Geo-Gebra La opcioacuten que tienes que usar tiene un nombre poco claro se llama Z estimadadiferencia de proporciones Luego usa el comando
IntervaloProporcionesZ[ ltProporcioacuten (muestra 1)gt ltTamantildeo (muestra 1)gt
ltProporcioacuten (muestra 2)gt ltTamantildeo (muestra 2)gt ltNivelgt ]
3
para hacer la misma cuenta directamente
3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos
2 Diferencia de medias en dos poblaciones muestras gran-des
Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro
Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)
Ha = micro1 lt micro2
que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)
n1 = 245
X1 = 273
s1 = 04
n2 = 252
X2 = 281
s2 = 03
Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla
Incluimos los datos del problema en las primeras liacuteneas de este chero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2
PRIMERA MUESTRA
Numero de elementos
(n1 = 245)
[1] 245
Media muestral
(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s1 = 04)
[1] 04
(sigma1 = )
SEGUNDA MUESTRA
Numero de elementos
(n2 = 252)
[1] 252
4
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
Media muestral
(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s2 = 03)
[1] 03
(sigma2 = )
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
Los resultados de la ejecucioacuten del chero son (de nuevo excluimos la regioacuten de rechazo)
pValor(Estadistico TipoContraste)
[1] El p-Valor es 000591772613290591
Estadistico
[1] -2517
Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten
Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de conanza asociados
Ejercicio 2
1 Usa el chero plantilla de R
de la la Tabla 1 (paacuteg 44) para obtener un intervalo de conanza al 95 para la diferenciamicro1 minus micro2
2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando
IntervaloMediasZ[ ltMedia (muestra 1)gt lts1gt ltTamantildeo (muestra 1)gt
ltMedia (muestra 2)gt lts2gt ltTamantildeo (muestra 2)gt ltNivelgt ]
3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test for
the difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the difference
between two means podraacutes calcular intervalos de conanza para micro1 minus micro2 usando Z
4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 305) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto
Soluciones en la paacutegina 30
5
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
frac34Y el caso de datos en bruto Advertencia sobre dataframes
No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla
X F
735 A823 A775 B
La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria
21 El caso de datos emparejados
El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada
Tut07-Contraste-Media-UsandoT-DatosEnBrutoR
en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante
(muestra = despues - antes)
En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07
6
Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos
CASO sigma desconocida muestra pequentildea nlt30
rm(list = ls())
antes = c(180 248 233 328 124 249 244 254 259 390)
despues = c(331 233 265 216 162 315 214 401 242 291)
Una posibilidad es que tengas la muestra como un vector
(muestra = despues - antes)
[1] 151 -015 032 -112 038 066 -030 147 -017 -099
Si lees la muestra de un fichero csv
1 Recuerda seleccionar el directorio de trabajo
2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc
muestra = scan(file=sep= dec=)
Valor a contrastar de la media (aparece en la hipotesis nula)
(mu0 = 0)
[1] 0
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0
(TipoContraste = 1)
[1] 1
Nivel de significacion
(nSig = 095)
[1] 095
NO CAMBIES NADA DE AQUIacute PARA ABAJO
7
(alfa = 1 - nSig)
[1] 005
Numero de elementos en la muestra
(n = length(muestra))
[1] 10
Grados de libertad
(k = n - 1)
[1] 9
Media muestral
(xbar = mean(muestra))
[1] 0161
Cuasidesviacion tipica muestral
(s = sd(muestra))
[1] 089691
Calculo del estadistico del contraste
(Estadistico = (xbar - mu0) (ssqrt(n)))
[1] 056764
Funcion para el calculo del p-valor
pValor = function(EstadCon tipoCon)
if(tipoCon == 1)
(pV = 1 - pt(EstadCon df=k ))
if(tipoCon == 2)
(pV = pt(EstadCon df=k ))
if(tipoCon == 3)
pV = 2 (1 - pt(abs(EstadCon) df=k ))
return(paste0(El p-Valor es pV collapse=))
Funcion para el calculo del liacutemite de la regioacuten de rechazo
RegionRechazo = function(alfa tipoCon)
if(tipoCon == 1)
(regionRech = paste(mayores que
qt(1 - alfa df=k)))
8
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Usando la plantilla de R
Vamos a usar las plantillas de R de la la Tabla 1 para obtener los resultados que aparecen enel Ejemplo 911 del libro (paacuteg 300) Recordemos que en ese ejemplo se trata de contrastar lahipoacutetesis nula
H0 = p1 = p2
Y que para ello se han obtenido dos muestras independientes de tamantildeos n1 = 456 y n2 = 512 enlas que los respectivos nuacutemeros de eacutexitos eran 139 y 184 con lo que las proporciones muestralesde eacutexitos son
p1 =139
456asymp 03048 p2 =
184
512asymp 03594
mientras que las proporciones de fracasos son
q1 asymp 06952 q2 asymp 06406
El caacutelculo del p-valor de este contraste se obtiene muy faacutecilmente con el chero plantilla
de la la Tabla 1 Incluimos aquiacute soacutelo la parte inicial del chero en la que hemos introducido losdatos de este ejemplo Fiacutejate especialmente en que las proporciones muestrales se introducen comococientes no mediante el nuacutemero de eacutexitos Esto se ha hecho asiacute por si en alguacuten caso el enunciadodel problema contiene directamente la proporcioacuten sin mencionar expliacutecitamente el nuacutemero de eacutexitos
PRIMERA MUESTRA Numero de elementos(n1 = 456)
[1] 456
proporcion muestral(pMuestral1 = 139456)
[1] 030482
SEGUNDA MUESTRA Numero de elementos(n2 = 512)
[1] 512
proporcion muestral(pMuestral2 = 184512)
[1] 035938
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateralTipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
El nal del chero plantilla contiene las instrucciones que producen los resultados del contraste(no incluimos la regioacuten de rechazo porque no la vamos a usar)
2
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 00723854663297254
Estadistico
[1] -17967
Como puede verse el p-valor coincide con lo que aparece en ese ejemplo
Usando la funcioacuten proptest
Esta funcioacuten que ya conocimos en el Tutorial08 sirve tambieacuten para este tipo de contrastes Parael Ejemplo 911 del libro que acabamos de calcular el comando a ejecutar seriacutea
proptest(c(139 184) c(456 512) correct=FALSE
alternative=twosided conflevel=095)
2-sample test for equality of proportions without continuity
correction
data c(139 184) out of c(456 512)
X-squared = 323 df = 1 p-value = 0072
alternative hypothesis twosided
95 percent confidence interval
-01138167 00047159
sample estimates
prop 1 prop 2
030482 035938
Como ves
Se introducen dos vectores conteniendo cada uno de ellos respectivamente los eacutexitos y lostamantildeos muestrales frac12Cuidado con este formato
La hipoacutetesis alternativa se indica como en otros casos eligiendo entre less para Ha = p1 ltp2 greater para Ha = p1 gt p2 y twosided para Ha = p1 6= p2
Es necesario incluir la opcioacuten correct=FALSE si queremos obtener el mismo resultado quecon la plantilla De lo contrario R aplica una correccioacuten de continuidad para mejorar laaproximacioacuten de la binomial por la normal
Por uacuteltimo como producto secundario del contraste bilateral obtenemos un intervalo deconanza para p1 minus p2 al nivel de conanza que hayamos indicado
Vamos a usar ese intervalo de conanza como excusa para proponerte un ejercicio
Ejercicio 1
1 Usa el chero plantilla de R de la Tabla 1 (paacuteg 44) para obtener este mismo intervalo deconanza
2 Haz lo mismo usando la pestantildea Estadiacutesticas de la Calculadora de Probabilidades de Geo-Gebra La opcioacuten que tienes que usar tiene un nombre poco claro se llama Z estimadadiferencia de proporciones Luego usa el comando
IntervaloProporcionesZ[ ltProporcioacuten (muestra 1)gt ltTamantildeo (muestra 1)gt
ltProporcioacuten (muestra 2)gt ltTamantildeo (muestra 2)gt ltNivelgt ]
3
para hacer la misma cuenta directamente
3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos
2 Diferencia de medias en dos poblaciones muestras gran-des
Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro
Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)
Ha = micro1 lt micro2
que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)
n1 = 245
X1 = 273
s1 = 04
n2 = 252
X2 = 281
s2 = 03
Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla
Incluimos los datos del problema en las primeras liacuteneas de este chero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2
PRIMERA MUESTRA
Numero de elementos
(n1 = 245)
[1] 245
Media muestral
(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s1 = 04)
[1] 04
(sigma1 = )
SEGUNDA MUESTRA
Numero de elementos
(n2 = 252)
[1] 252
4
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
Media muestral
(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s2 = 03)
[1] 03
(sigma2 = )
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
Los resultados de la ejecucioacuten del chero son (de nuevo excluimos la regioacuten de rechazo)
pValor(Estadistico TipoContraste)
[1] El p-Valor es 000591772613290591
Estadistico
[1] -2517
Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten
Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de conanza asociados
Ejercicio 2
1 Usa el chero plantilla de R
de la la Tabla 1 (paacuteg 44) para obtener un intervalo de conanza al 95 para la diferenciamicro1 minus micro2
2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando
IntervaloMediasZ[ ltMedia (muestra 1)gt lts1gt ltTamantildeo (muestra 1)gt
ltMedia (muestra 2)gt lts2gt ltTamantildeo (muestra 2)gt ltNivelgt ]
3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test for
the difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the difference
between two means podraacutes calcular intervalos de conanza para micro1 minus micro2 usando Z
4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 305) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto
Soluciones en la paacutegina 30
5
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
frac34Y el caso de datos en bruto Advertencia sobre dataframes
No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla
X F
735 A823 A775 B
La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria
21 El caso de datos emparejados
El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada
Tut07-Contraste-Media-UsandoT-DatosEnBrutoR
en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante
(muestra = despues - antes)
En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07
6
Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos
CASO sigma desconocida muestra pequentildea nlt30
rm(list = ls())
antes = c(180 248 233 328 124 249 244 254 259 390)
despues = c(331 233 265 216 162 315 214 401 242 291)
Una posibilidad es que tengas la muestra como un vector
(muestra = despues - antes)
[1] 151 -015 032 -112 038 066 -030 147 -017 -099
Si lees la muestra de un fichero csv
1 Recuerda seleccionar el directorio de trabajo
2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc
muestra = scan(file=sep= dec=)
Valor a contrastar de la media (aparece en la hipotesis nula)
(mu0 = 0)
[1] 0
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0
(TipoContraste = 1)
[1] 1
Nivel de significacion
(nSig = 095)
[1] 095
NO CAMBIES NADA DE AQUIacute PARA ABAJO
7
(alfa = 1 - nSig)
[1] 005
Numero de elementos en la muestra
(n = length(muestra))
[1] 10
Grados de libertad
(k = n - 1)
[1] 9
Media muestral
(xbar = mean(muestra))
[1] 0161
Cuasidesviacion tipica muestral
(s = sd(muestra))
[1] 089691
Calculo del estadistico del contraste
(Estadistico = (xbar - mu0) (ssqrt(n)))
[1] 056764
Funcion para el calculo del p-valor
pValor = function(EstadCon tipoCon)
if(tipoCon == 1)
(pV = 1 - pt(EstadCon df=k ))
if(tipoCon == 2)
(pV = pt(EstadCon df=k ))
if(tipoCon == 3)
pV = 2 (1 - pt(abs(EstadCon) df=k ))
return(paste0(El p-Valor es pV collapse=))
Funcion para el calculo del liacutemite de la regioacuten de rechazo
RegionRechazo = function(alfa tipoCon)
if(tipoCon == 1)
(regionRech = paste(mayores que
qt(1 - alfa df=k)))
8
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 00723854663297254
Estadistico
[1] -17967
Como puede verse el p-valor coincide con lo que aparece en ese ejemplo
Usando la funcioacuten proptest
Esta funcioacuten que ya conocimos en el Tutorial08 sirve tambieacuten para este tipo de contrastes Parael Ejemplo 911 del libro que acabamos de calcular el comando a ejecutar seriacutea
proptest(c(139 184) c(456 512) correct=FALSE
alternative=twosided conflevel=095)
2-sample test for equality of proportions without continuity
correction
data c(139 184) out of c(456 512)
X-squared = 323 df = 1 p-value = 0072
alternative hypothesis twosided
95 percent confidence interval
-01138167 00047159
sample estimates
prop 1 prop 2
030482 035938
Como ves
Se introducen dos vectores conteniendo cada uno de ellos respectivamente los eacutexitos y lostamantildeos muestrales frac12Cuidado con este formato
La hipoacutetesis alternativa se indica como en otros casos eligiendo entre less para Ha = p1 ltp2 greater para Ha = p1 gt p2 y twosided para Ha = p1 6= p2
Es necesario incluir la opcioacuten correct=FALSE si queremos obtener el mismo resultado quecon la plantilla De lo contrario R aplica una correccioacuten de continuidad para mejorar laaproximacioacuten de la binomial por la normal
Por uacuteltimo como producto secundario del contraste bilateral obtenemos un intervalo deconanza para p1 minus p2 al nivel de conanza que hayamos indicado
Vamos a usar ese intervalo de conanza como excusa para proponerte un ejercicio
Ejercicio 1
1 Usa el chero plantilla de R de la Tabla 1 (paacuteg 44) para obtener este mismo intervalo deconanza
2 Haz lo mismo usando la pestantildea Estadiacutesticas de la Calculadora de Probabilidades de Geo-Gebra La opcioacuten que tienes que usar tiene un nombre poco claro se llama Z estimadadiferencia de proporciones Luego usa el comando
IntervaloProporcionesZ[ ltProporcioacuten (muestra 1)gt ltTamantildeo (muestra 1)gt
ltProporcioacuten (muestra 2)gt ltTamantildeo (muestra 2)gt ltNivelgt ]
3
para hacer la misma cuenta directamente
3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos
2 Diferencia de medias en dos poblaciones muestras gran-des
Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro
Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)
Ha = micro1 lt micro2
que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)
n1 = 245
X1 = 273
s1 = 04
n2 = 252
X2 = 281
s2 = 03
Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla
Incluimos los datos del problema en las primeras liacuteneas de este chero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2
PRIMERA MUESTRA
Numero de elementos
(n1 = 245)
[1] 245
Media muestral
(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s1 = 04)
[1] 04
(sigma1 = )
SEGUNDA MUESTRA
Numero de elementos
(n2 = 252)
[1] 252
4
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
Media muestral
(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s2 = 03)
[1] 03
(sigma2 = )
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
Los resultados de la ejecucioacuten del chero son (de nuevo excluimos la regioacuten de rechazo)
pValor(Estadistico TipoContraste)
[1] El p-Valor es 000591772613290591
Estadistico
[1] -2517
Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten
Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de conanza asociados
Ejercicio 2
1 Usa el chero plantilla de R
de la la Tabla 1 (paacuteg 44) para obtener un intervalo de conanza al 95 para la diferenciamicro1 minus micro2
2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando
IntervaloMediasZ[ ltMedia (muestra 1)gt lts1gt ltTamantildeo (muestra 1)gt
ltMedia (muestra 2)gt lts2gt ltTamantildeo (muestra 2)gt ltNivelgt ]
3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test for
the difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the difference
between two means podraacutes calcular intervalos de conanza para micro1 minus micro2 usando Z
4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 305) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto
Soluciones en la paacutegina 30
5
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
frac34Y el caso de datos en bruto Advertencia sobre dataframes
No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla
X F
735 A823 A775 B
La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria
21 El caso de datos emparejados
El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada
Tut07-Contraste-Media-UsandoT-DatosEnBrutoR
en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante
(muestra = despues - antes)
En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07
6
Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos
CASO sigma desconocida muestra pequentildea nlt30
rm(list = ls())
antes = c(180 248 233 328 124 249 244 254 259 390)
despues = c(331 233 265 216 162 315 214 401 242 291)
Una posibilidad es que tengas la muestra como un vector
(muestra = despues - antes)
[1] 151 -015 032 -112 038 066 -030 147 -017 -099
Si lees la muestra de un fichero csv
1 Recuerda seleccionar el directorio de trabajo
2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc
muestra = scan(file=sep= dec=)
Valor a contrastar de la media (aparece en la hipotesis nula)
(mu0 = 0)
[1] 0
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0
(TipoContraste = 1)
[1] 1
Nivel de significacion
(nSig = 095)
[1] 095
NO CAMBIES NADA DE AQUIacute PARA ABAJO
7
(alfa = 1 - nSig)
[1] 005
Numero de elementos en la muestra
(n = length(muestra))
[1] 10
Grados de libertad
(k = n - 1)
[1] 9
Media muestral
(xbar = mean(muestra))
[1] 0161
Cuasidesviacion tipica muestral
(s = sd(muestra))
[1] 089691
Calculo del estadistico del contraste
(Estadistico = (xbar - mu0) (ssqrt(n)))
[1] 056764
Funcion para el calculo del p-valor
pValor = function(EstadCon tipoCon)
if(tipoCon == 1)
(pV = 1 - pt(EstadCon df=k ))
if(tipoCon == 2)
(pV = pt(EstadCon df=k ))
if(tipoCon == 3)
pV = 2 (1 - pt(abs(EstadCon) df=k ))
return(paste0(El p-Valor es pV collapse=))
Funcion para el calculo del liacutemite de la regioacuten de rechazo
RegionRechazo = function(alfa tipoCon)
if(tipoCon == 1)
(regionRech = paste(mayores que
qt(1 - alfa df=k)))
8
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
para hacer la misma cuenta directamente
3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos
2 Diferencia de medias en dos poblaciones muestras gran-des
Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro
Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)
Ha = micro1 lt micro2
que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)
n1 = 245
X1 = 273
s1 = 04
n2 = 252
X2 = 281
s2 = 03
Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla
Incluimos los datos del problema en las primeras liacuteneas de este chero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2
PRIMERA MUESTRA
Numero de elementos
(n1 = 245)
[1] 245
Media muestral
(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s1 = 04)
[1] 04
(sigma1 = )
SEGUNDA MUESTRA
Numero de elementos
(n2 = 252)
[1] 252
4
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
Media muestral
(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s2 = 03)
[1] 03
(sigma2 = )
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
Los resultados de la ejecucioacuten del chero son (de nuevo excluimos la regioacuten de rechazo)
pValor(Estadistico TipoContraste)
[1] El p-Valor es 000591772613290591
Estadistico
[1] -2517
Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten
Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de conanza asociados
Ejercicio 2
1 Usa el chero plantilla de R
de la la Tabla 1 (paacuteg 44) para obtener un intervalo de conanza al 95 para la diferenciamicro1 minus micro2
2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando
IntervaloMediasZ[ ltMedia (muestra 1)gt lts1gt ltTamantildeo (muestra 1)gt
ltMedia (muestra 2)gt lts2gt ltTamantildeo (muestra 2)gt ltNivelgt ]
3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test for
the difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the difference
between two means podraacutes calcular intervalos de conanza para micro1 minus micro2 usando Z
4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 305) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto
Soluciones en la paacutegina 30
5
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
frac34Y el caso de datos en bruto Advertencia sobre dataframes
No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla
X F
735 A823 A775 B
La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria
21 El caso de datos emparejados
El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada
Tut07-Contraste-Media-UsandoT-DatosEnBrutoR
en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante
(muestra = despues - antes)
En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07
6
Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos
CASO sigma desconocida muestra pequentildea nlt30
rm(list = ls())
antes = c(180 248 233 328 124 249 244 254 259 390)
despues = c(331 233 265 216 162 315 214 401 242 291)
Una posibilidad es que tengas la muestra como un vector
(muestra = despues - antes)
[1] 151 -015 032 -112 038 066 -030 147 -017 -099
Si lees la muestra de un fichero csv
1 Recuerda seleccionar el directorio de trabajo
2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc
muestra = scan(file=sep= dec=)
Valor a contrastar de la media (aparece en la hipotesis nula)
(mu0 = 0)
[1] 0
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0
(TipoContraste = 1)
[1] 1
Nivel de significacion
(nSig = 095)
[1] 095
NO CAMBIES NADA DE AQUIacute PARA ABAJO
7
(alfa = 1 - nSig)
[1] 005
Numero de elementos en la muestra
(n = length(muestra))
[1] 10
Grados de libertad
(k = n - 1)
[1] 9
Media muestral
(xbar = mean(muestra))
[1] 0161
Cuasidesviacion tipica muestral
(s = sd(muestra))
[1] 089691
Calculo del estadistico del contraste
(Estadistico = (xbar - mu0) (ssqrt(n)))
[1] 056764
Funcion para el calculo del p-valor
pValor = function(EstadCon tipoCon)
if(tipoCon == 1)
(pV = 1 - pt(EstadCon df=k ))
if(tipoCon == 2)
(pV = pt(EstadCon df=k ))
if(tipoCon == 3)
pV = 2 (1 - pt(abs(EstadCon) df=k ))
return(paste0(El p-Valor es pV collapse=))
Funcion para el calculo del liacutemite de la regioacuten de rechazo
RegionRechazo = function(alfa tipoCon)
if(tipoCon == 1)
(regionRech = paste(mayores que
qt(1 - alfa df=k)))
8
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Media muestral
(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s2 = 03)
[1] 03
(sigma2 = )
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
Los resultados de la ejecucioacuten del chero son (de nuevo excluimos la regioacuten de rechazo)
pValor(Estadistico TipoContraste)
[1] El p-Valor es 000591772613290591
Estadistico
[1] -2517
Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten
Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de conanza asociados
Ejercicio 2
1 Usa el chero plantilla de R
de la la Tabla 1 (paacuteg 44) para obtener un intervalo de conanza al 95 para la diferenciamicro1 minus micro2
2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando
IntervaloMediasZ[ ltMedia (muestra 1)gt lts1gt ltTamantildeo (muestra 1)gt
ltMedia (muestra 2)gt lts2gt ltTamantildeo (muestra 2)gt ltNivelgt ]
3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test for
the difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the difference
between two means podraacutes calcular intervalos de conanza para micro1 minus micro2 usando Z
4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 305) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto
Soluciones en la paacutegina 30
5
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
frac34Y el caso de datos en bruto Advertencia sobre dataframes
No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla
X F
735 A823 A775 B
La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria
21 El caso de datos emparejados
El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada
Tut07-Contraste-Media-UsandoT-DatosEnBrutoR
en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante
(muestra = despues - antes)
En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07
6
Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos
CASO sigma desconocida muestra pequentildea nlt30
rm(list = ls())
antes = c(180 248 233 328 124 249 244 254 259 390)
despues = c(331 233 265 216 162 315 214 401 242 291)
Una posibilidad es que tengas la muestra como un vector
(muestra = despues - antes)
[1] 151 -015 032 -112 038 066 -030 147 -017 -099
Si lees la muestra de un fichero csv
1 Recuerda seleccionar el directorio de trabajo
2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc
muestra = scan(file=sep= dec=)
Valor a contrastar de la media (aparece en la hipotesis nula)
(mu0 = 0)
[1] 0
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0
(TipoContraste = 1)
[1] 1
Nivel de significacion
(nSig = 095)
[1] 095
NO CAMBIES NADA DE AQUIacute PARA ABAJO
7
(alfa = 1 - nSig)
[1] 005
Numero de elementos en la muestra
(n = length(muestra))
[1] 10
Grados de libertad
(k = n - 1)
[1] 9
Media muestral
(xbar = mean(muestra))
[1] 0161
Cuasidesviacion tipica muestral
(s = sd(muestra))
[1] 089691
Calculo del estadistico del contraste
(Estadistico = (xbar - mu0) (ssqrt(n)))
[1] 056764
Funcion para el calculo del p-valor
pValor = function(EstadCon tipoCon)
if(tipoCon == 1)
(pV = 1 - pt(EstadCon df=k ))
if(tipoCon == 2)
(pV = pt(EstadCon df=k ))
if(tipoCon == 3)
pV = 2 (1 - pt(abs(EstadCon) df=k ))
return(paste0(El p-Valor es pV collapse=))
Funcion para el calculo del liacutemite de la regioacuten de rechazo
RegionRechazo = function(alfa tipoCon)
if(tipoCon == 1)
(regionRech = paste(mayores que
qt(1 - alfa df=k)))
8
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
frac34Y el caso de datos en bruto Advertencia sobre dataframes
No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla
X F
735 A823 A775 B
La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria
21 El caso de datos emparejados
El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada
Tut07-Contraste-Media-UsandoT-DatosEnBrutoR
en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante
(muestra = despues - antes)
En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07
6
Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos
CASO sigma desconocida muestra pequentildea nlt30
rm(list = ls())
antes = c(180 248 233 328 124 249 244 254 259 390)
despues = c(331 233 265 216 162 315 214 401 242 291)
Una posibilidad es que tengas la muestra como un vector
(muestra = despues - antes)
[1] 151 -015 032 -112 038 066 -030 147 -017 -099
Si lees la muestra de un fichero csv
1 Recuerda seleccionar el directorio de trabajo
2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc
muestra = scan(file=sep= dec=)
Valor a contrastar de la media (aparece en la hipotesis nula)
(mu0 = 0)
[1] 0
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0
(TipoContraste = 1)
[1] 1
Nivel de significacion
(nSig = 095)
[1] 095
NO CAMBIES NADA DE AQUIacute PARA ABAJO
7
(alfa = 1 - nSig)
[1] 005
Numero de elementos en la muestra
(n = length(muestra))
[1] 10
Grados de libertad
(k = n - 1)
[1] 9
Media muestral
(xbar = mean(muestra))
[1] 0161
Cuasidesviacion tipica muestral
(s = sd(muestra))
[1] 089691
Calculo del estadistico del contraste
(Estadistico = (xbar - mu0) (ssqrt(n)))
[1] 056764
Funcion para el calculo del p-valor
pValor = function(EstadCon tipoCon)
if(tipoCon == 1)
(pV = 1 - pt(EstadCon df=k ))
if(tipoCon == 2)
(pV = pt(EstadCon df=k ))
if(tipoCon == 3)
pV = 2 (1 - pt(abs(EstadCon) df=k ))
return(paste0(El p-Valor es pV collapse=))
Funcion para el calculo del liacutemite de la regioacuten de rechazo
RegionRechazo = function(alfa tipoCon)
if(tipoCon == 1)
(regionRech = paste(mayores que
qt(1 - alfa df=k)))
8
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos
CASO sigma desconocida muestra pequentildea nlt30
rm(list = ls())
antes = c(180 248 233 328 124 249 244 254 259 390)
despues = c(331 233 265 216 162 315 214 401 242 291)
Una posibilidad es que tengas la muestra como un vector
(muestra = despues - antes)
[1] 151 -015 032 -112 038 066 -030 147 -017 -099
Si lees la muestra de un fichero csv
1 Recuerda seleccionar el directorio de trabajo
2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc
muestra = scan(file=sep= dec=)
Valor a contrastar de la media (aparece en la hipotesis nula)
(mu0 = 0)
[1] 0
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0
(TipoContraste = 1)
[1] 1
Nivel de significacion
(nSig = 095)
[1] 095
NO CAMBIES NADA DE AQUIacute PARA ABAJO
7
(alfa = 1 - nSig)
[1] 005
Numero de elementos en la muestra
(n = length(muestra))
[1] 10
Grados de libertad
(k = n - 1)
[1] 9
Media muestral
(xbar = mean(muestra))
[1] 0161
Cuasidesviacion tipica muestral
(s = sd(muestra))
[1] 089691
Calculo del estadistico del contraste
(Estadistico = (xbar - mu0) (ssqrt(n)))
[1] 056764
Funcion para el calculo del p-valor
pValor = function(EstadCon tipoCon)
if(tipoCon == 1)
(pV = 1 - pt(EstadCon df=k ))
if(tipoCon == 2)
(pV = pt(EstadCon df=k ))
if(tipoCon == 3)
pV = 2 (1 - pt(abs(EstadCon) df=k ))
return(paste0(El p-Valor es pV collapse=))
Funcion para el calculo del liacutemite de la regioacuten de rechazo
RegionRechazo = function(alfa tipoCon)
if(tipoCon == 1)
(regionRech = paste(mayores que
qt(1 - alfa df=k)))
8
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
(alfa = 1 - nSig)
[1] 005
Numero de elementos en la muestra
(n = length(muestra))
[1] 10
Grados de libertad
(k = n - 1)
[1] 9
Media muestral
(xbar = mean(muestra))
[1] 0161
Cuasidesviacion tipica muestral
(s = sd(muestra))
[1] 089691
Calculo del estadistico del contraste
(Estadistico = (xbar - mu0) (ssqrt(n)))
[1] 056764
Funcion para el calculo del p-valor
pValor = function(EstadCon tipoCon)
if(tipoCon == 1)
(pV = 1 - pt(EstadCon df=k ))
if(tipoCon == 2)
(pV = pt(EstadCon df=k ))
if(tipoCon == 3)
pV = 2 (1 - pt(abs(EstadCon) df=k ))
return(paste0(El p-Valor es pV collapse=))
Funcion para el calculo del liacutemite de la regioacuten de rechazo
RegionRechazo = function(alfa tipoCon)
if(tipoCon == 1)
(regionRech = paste(mayores que
qt(1 - alfa df=k)))
8
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13
X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13
13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313