9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 165
Problema 1
Vamos a calcular un límite de velocidad de una carretera recientemente inaugurada,
para ello supondremos que la mayor parte de los conductores limita, de motu propio, su
velocidad en función de las características de la misma (curvas, estado del firme, lluvia,
luminosidad ambiente,...) y sólo un pequeño porcentaje de conductores circula a velocidades
peligrosas. Antes de imponer un límite en un tramo se toman datos de velocidades y se
determina el percentil que corresponde a ese límite a partir del cual la velocidad se considera
peligrosa. Normalmente se utiliza el percentil 85 aunque si las condiciones queremos que
sean muy estrictas puede utilizarse el percentil 80 o incluso el 75. Hemos medido la
velocidad de 80 vehículos en un determinado tramo de carretera y hemos obtenido:
Velocidad
(km/h)
Número de
automóviles
Velocidad
(km/h)
Número de
automóviles
50 1 110 24
60 1 120 10
70 4 130 5
80 5 140 2
90 8 150 2
100 16 160 2
Se pide:
a. Haz una tabla que tenga las siguientes seis columnas: xi, fi, xi·fi, xi-M, (xi-
M)2, fi·(xi-M)
2
b. Calcula la media, varianza, la desviación típica y el coeficiente de variación
c. Calcula los tres cuartiles
d. Calcula los percentiles 85, 80 y 75
e. ¿Cuál sería el límite de velocidad que recomendarías poner en ese tramo?
f. Calcula el coeficiente de asimetría de Pearson de este conjunto de datos.
9. Cuestionario de Autoevaluación.
166 Fundamentos de Bioestadística
Solución problema 1
a)
Rellenemos la tabla
xi
(km/h)
fi frecuencia
acumulada
fi ·xi
(km/h)
M
(km/h)
xi-M
(km/h)
fi·(xi-M)
(km/h)
(xi-M)2
(km/h)2
fi·(xi-M)2
(km/h)2
50 1 1 50 106.25 -56.25 -56.25 3164 3164
60 1 2 60 106.25 -46.25 -46.25 2139 2139
70 4 6 280 106.25 -36.25 -145 1314 5256
80 5 11 400 106.25 -26.25 -131.25 689 3445
90 8 19 720 106.25 -16.25 -130 264 2113
100 16 35 1600 106.25 -6.25 -100 39 625
110 24 59 2640 106.25 3.75 90 14 338
120 10 69 1200 106.25 13.75 137.5 189 1891
130 5 74 650 106.25 23.75 118.75 564 2820
140 2 76 280 106.25 33.75 67.5 1139 2278
150 2 78 300 106.25 43.75 87.5 1914 3828
160 2 80 320 106.25 53.75 107.5 2889 5778
80 8500 -15 0.0 33675
b)
La media es 8500
106.25 106 km/h80
M
La moda es Moda= 110 km/h
La varianza es22 33675
420.9 km/h80
S
La desviación típica es 2 420.9 =20.5 km/hS S
El coeficiente de variación es20.5
100 100 19.3%106
SCV
M
c)
Los cuartiles son
20 211
100 100100 /
2 2
x xQ km h
40 412
110 110110 /
2 2
x xQ km h
60 613
120 120120 /
2 2
x xQ km h
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 167
d)
Los percentiles son
68 6985
120 120120 /
2 2
x xP km h
P85 se usa en condiciones normales de tráfico
64 6580
120 120120 /
2 2
x xP km h
P80 se usa con condiciones estrictas de tráfico: lluvia o viento
60 6175 3
120 120120 /
2 2
x xP km h Q
P75 se usa con condiciones muy estrictas de tráfico: lluvia intensa o viento fuerte o
nieve o la mezcla de lluvia y viento
e)
Es un tramo muy estable y seguro (probablemente sea plano, sin curvas y con buena
visibilidad), por lo que su velocidad límite es aconsejable que sea 120 km/h
f)
El coeficiente de asimetría de Pearson
106 1100.2
20.5
oP
M MA
S
La distribución tiene asimetría negativa, es decir, hay muchos datos que superan la
media, más de la mitad, en este caso hay 45 de 80.
Pero como Ap es pequeño (en porcentaje sería un 20%) la distribución de datos es
bastante cercana a la simétrica.
Media= 106 km/h, Mediana= 110 km/h,
Recordemos que la mediana siempre está entre la media y la moda, es decir:
0
5
10
15
20
25
30
50 60 70 80 90 100 110 120 130 140 150 160
Nú
mero
de v
eh
ícu
los
velocidad (km/h)
Histograma de las velocidades de 80 coches en un cierto tramo de carretera
9. Cuestionario de Autoevaluación.
168 Fundamentos de Bioestadística
Problema 2
Las baterías Blink para los todoterreno duran una media de 3.0 años con una
desviación típica de 0.5 años. Suponiendo que las duraciones de dichas baterías están
distribuidas de manera normal, calcula qué porcentaje de ellas duran menos de 2.3 años.
Solución problema 2
En este problema se manejan datos cuya distribución se supone que es la normal
N(3.0, 0.5).
Tipificamos la variable para pasar a trabajar con N(0,1)
2.3 31.4
0.5z
-1.4) = P(z 1.4) = 1- -0.9192 = 0.0808
Damos la probabilidad en tanto por uno, como es habitual.
Si la multiplicamos por 100 obtenemos la probabilidad en tanto por ciento. En este
caso es 8.08%.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 169
Problema 3
Lámparas Muchaluz fabrica focos que tienen una duración distribuida normalmente
con una media de 800 horas y una desviación típica de 40 horas. Calcula la probabilidad de
que un foco dure entre 778 y 834 horas.
Solución problema 3
La normal de las lámparas es N(800, 40).
Tipificamos los dos valores de la variable para trabajar con N(0,1)
1
778 8000.55
40z
2
834 8000.85
40z
La probabilidad que deseamos encontrar coincide con el área de la zona sombreada.
El área desde hasta 0.85 vale 0.8023. El área desde hasta -0.55 coincide con
el área desde +0.55 hasta , que vale 1-0.7088=0.2912. Recuerda que en la tabla de áreas de
la distribución normal no aparecen las z<0, por lo que hay que hacer uso de las propiedades
de simetría de la distribución normal.
Por tanto, podemos escribir:
- - -0.55) =
- (1 - = 0.8023 - (1 - 0.7088)=
= 0.8023 - 0.2912 = 0.5111
-0.55 0.85
0.55
9. Cuestionario de Autoevaluación.
170 Fundamentos de Bioestadística
Problema 4
Un investigador publica un artículo en el que informa a la comunidad científica que
los ratones que ha utilizado en su experimento han vivido un promedio de 40 meses cuando
su dieta fue severamente restringida y posteriormente se enriqueció con un suplemento de
vitaminas y proteínas.
Suponiendo que los tiempos de vida de estos ratones se distribuyen normalmente con
una desviación típica de 6.3 meses, calcula la probabilidad de que un ratón dado viva
a. más de 32 meses
b. menos de 28 meses
c. entre 37 y 49 meses
Solución problema 4
a) En este problema trabajaremos con la distribución normal que describe el tiempo de
vida de los ratones, es decir, con la normal N(40, 6.3).
Como siempre vamos a manejar la N(0,1) porque su tabla de áreas acumuladas es
la que disponemos.
Tipificamos el primer valor de la variable, que es 32:
32 401.27
6.3z
El área que buscamos es
que coincide con
por lo que
-1.27) = 0.8980
-1.27
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 171
b) Volvemos a tipificar el segundo valor de la variable, que es 28:
28 401.90
6.3z
28) -1.90) = 1 - 1.90) = 1- 0.9713 = 0.0287
c) Ahora tipificamos los dos valores de la variable de este apartado, que son 37 y 49:
1
37 400.48
6.3z
2
49 401.43
6.3z
- - -0.48) =
- (1 - 0.9236 - (1 - 0.6844) = 0.9236 - 0.3156 = 0.6080
9. Cuestionario de Autoevaluación.
172 Fundamentos de Bioestadística
-0.6 0.6
Problema 5
Una máquina expendedora de agua está regulada de modo que descarga un promedio
de 200 mL por vaso. Si la cantidad de líquido descargado está distribuida normalmente con
una desviación típica de 15 mL. Calcula
a. El porcentaje de vasos que contendrá más de 224 mL
b. La probabilidad de que un vaso contenga entre 191 y 209 mL
c. El número de vasos que se derramarán si hemos comprado 1000 vasos de 230
mL para colocarlos en el depósito interior de la máquina
d. Calcula el volumen de agua que haga que el 25% de los vasos con menor
contenido no lo superen.
Solución problema 5
a) Ahora vamos a considerar la distribución normal que describe el volumen de líquido
que descarga la máquina expendedora, que es N(200 mL, 15 mL).
Como siempre queremos trabajar con N(0,1) porque su tabla de áreas acumuladas
es la que disponemos.
Tipificamos el primer valor de la variable, que es 224:
224 2001.6
15z
) = 1 - 1.6) = 1 - 0.9452 = 0.0548
b) Calculamos los dos nuevos valores de la variable tipificada:
1
191 2000.6
15z
2
209 2000.6
15z
El área que deseamos calcular es:
Y nos damos cuenta que es el doble de esta otra
- – 0.5) =
- 1 = 2·0.7257 - 1 = 0.4514
0 0.6
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 173
c) Tipificamos ahora el valor de la variable, que es 230:
230 2002
15z
P(x 230) = P(z 2)= 1 - P(z 2) = 1 - 0.9772 = 0.0228
Como disponemos de 1000 vasos, los que se derramarán serán:
Nderramarán = Número de vasos · Prob. de derramarse = 1000·0.0228 = 22.8
Al llegar aquí debemos pensar la respuesta. Seguro que se derraman 22 vasos, el
problema son los decimales.
Con los 1000 vasos que disponemos no hay suficientes, según el cálculo de
probabilidades, para que se derramen 23; por lo que la solución es truncar el número
22.8, obteniéndose 22
d) Este apartado del problema es ligeramente diferente a todo lo anterior.
Ahora buscamos el primer cuartil de la distribución, si leemos detenidamente el
apartado d). Buscamos un valor de x que sea superado el 75% de las veces.
Es decir, buscamos un valor de z que deje a su izquierda un área de 0.25 y a su
derecha 0.75.
Con toda seguridad que z debe ser negativo, porque el área a su izquierda es
menor que 0.5.
El valor simétrico de z, su valor positivo, -z (recuerda que z es negativo) debe
dejar a su izquierda un área de 0.75. Seguro que si te hacemos un sencillo dibujo lo
entiendes mejor.
En la tabla de la distribución normal hay que buscar 0.75 en los valores interiores
de dicha tabla y los valores sombreados nos darán el valor de –z.
Para –z=0.68 el área a la izquierda es 0.7486, por lo tanto tomaremos este valor.
En un problema más adelante haremos un pequeño refinamiento, interpolaremos
linealmente, pero ahora no es necesario ser tan preciso.
Por tanto podemos escribir:
2000.68
15
xz
Despejando la x se obtiene 15 200 15·( 0.68) 200 189.8 mLx z
0.250.75
0.250.75
z -z
Truncar un número significa quedarnos con su parte entera.
9. Cuestionario de Autoevaluación.
174 Fundamentos de Bioestadística
Problema 6
El coeficiente de intelectual de 600 solicitantes para ingresar en la universidad de
Vanderbilt tiene una distribución que se aproxima bastante a una normal de media 115 y
desviación típica de 12. Si Vanderbilt exige un coeficiente de inteligencia mínimo de 95.
¿Cuántos estudiantes serán rechazados independientemente de sus calificaciones?
Solución problema 6
La normal considerada es N(115,12)
Tipificamos la variable
95 1151.67
12z
Calculamos la probabilidad de ser rechazado
P(x -1.67) = 1 - 1.67) = 1 - 0.9525 = 0.0475
Rechazados = Número de solicitantes · Prob. de ser rechazado = 600·0.0475 = 28.5
Truncando, nuevamente volvemos a obtener la solución: 28 estudiantes de los 600
que lo han solicitado serán rechazados por la universidad de Vanderbilt
-1.67
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 175
Problema 7
La etiqueta de un bote de leche en polvo nos indica que la masa envasada en él es de
465 g, cantidad que consideraremos como valor medio. En la cadena de envasado se aceptan
como válidos los botes en los que se ha introducido leche en polvo entre 415 g y 520 g.
Suponiendo que la masa envasada está distribuida normalmente con una desviación
típica de 30 g. Si tomamos una muestra aleatoria de 200 botes de la cadena de envasado,
¿cuántos de ellos serán rechazados?
Solución problema 7
La normal considerada es N(465 g, 30 g)
Tipificamos los dos valores de la variable x
1
415 4651.67
30z
2
520 4651.83
30z
Calculamos la probabilidad de ser aceptado:
- - -1.67) =
- (1 - – (1-0.9525) = 0.9664-0.0475 = 0.9189
Luego la probabilidad de ser rechazado es la complementaria
Prechazo= 1-0.9189=0.0811
Por tanto, en esa muestra aleatoria de 200 botes, tenemos que la probabilidad de ser
rechazado es:
Probabilidad de ser rechazado = 200·0.0811 = 16.22
Truncando, nuevamente volvemos a obtener la solución: 16 botes de la muestra
aleatoria de 200 serán rechazados por tener un contenido que se considera defectuoso
-1.67 1.83
9. Cuestionario de Autoevaluación.
176 Fundamentos de Bioestadística
Problema 8
Se define el índice cefálico (IC) de una persona como un número adimensional que
resulta de dividir la anchura del cráneo por su longitud y multiplicarlo por 100. Esta variable,
IC, se distribuye normalmente con media µ y desviación típica . Sabiendo que hay un 58%
de dolicocéfalos (IC menor o igual que 75), un 38% de mesocéfalos (IC mayor que 75 y
menor o igual que 80) y un 4% de braquicéfalos (IC mayor que 80), calcula M y S.
Solución problema 8
En este problemas no conocemos ni la M ni la S de la distribución normal y debemos
calcularlas usando la información proporcionada por el enunciado.
Como tenemos dos incógnitas bastará con que planteemos un sistema de dos
ecuaciones con dos incógnitas y por eso la información sobre los mesocéfalos no la vamos a
tener en cuenta, porque resultaría redundante. Descartamos los mesocéfalos, pero igualmente
podríamos descartar cualquiera de los otros dos grupos.
La información que vamos a manejar es la siguiente
P(
P( P( – 0.04 = 0.96
Usando la primera de la dos probabilidades
P(
Debemos buscar un área de 0.58 en la tabla de la distribución normal, en el interior
de la tabla. Encontramos un valor muy aproximado que es 0.5793 que corresponde a un
valor de z de 0.20.
Usando el cambio de variable de tipificación
750.2
Mz
S
Quitando denominadores tenemos la primera ecuación de las dos que debo encontrar
75 0.2M S
La otra ecuación la vamos a obtener usando la otra probabilidad
P(
Buscando 0.96 en la tabla de área acumuladas encontramos un valor muy
aproximado, 0.9599, que corresponde a una z de 1.75.
Volviendo a tipificar
801.75
Mz
S
Quitamos denominadores
80 1.75M S
Juntamos las dos ecuaciones para que se vea claramente el sistema a resolver
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 177
75 0.2
80 1.75
M S
M S
Si a la segunda ecuación le restamos la primera obtenemos
55 1.55 3.22
1.55S S
Sustituyendo en la primera ecuación del sistema, podemos despejar M
75 0.2 75 0.2 75 0.2·3.22 74.4M S M S
El profesor de anatomía sueco Anders Retzius (1796–1860) usó por primera vez el
índice cefálico en la antropología física para clasificar los restos humanos antiguos hallados
en Europa.
Retzius clasificó los cráneos en tres categorías principales: «dolicocéfala» (del griego
antiguo kephalê, ‘cabeza’, y dolikhos, ‘largo y delgado’), «braquiocéfala» (corta y ancha) y
«mesocéfala» (largo y ancho intermedios).
9. Cuestionario de Autoevaluación.
178 Fundamentos de Bioestadística
Problema 9
La estatura de 1000 estudiantes de un Instituto de Enseñanza Secundaria está
distribuida normalmente con una media de 168 cm y una desviación típica de 5 cm. Calcula:
a. El número de estudiantes con estatura entre 165 y 175 cm
b. El número de estudiantes con estatura superior a 180 cm
Solución problema 9
a)
Las alturas satisfacen la distribución normal N(168 cm, 5 cm)
Tipificamos los dos valores
1
165 1680.6
5z
2
175 1681.4
5z
Buscamos la siguiente probabilidad
- - -0.6) =
- (1 -
= 0.9192 – (1-0.7257) =0.9192-0.2743=0.6449
Como hay 100 estudiantes en el IES, los que están en este intervalo de alturas son
Nalumnos=1000·0.6449=644.9
Nuevamente truncando encontramos la solución: 644 alumnos
b)
Tipificando
180 1682.4
5z
P(x 180) = P(z 2.4)= 1 - P(z 2.4) = 1 - 0.9918 = 0.0082
Conocida la probabilidad podemos obtener cuántos alumnos satisfacen esta condición
Nalumnos=1000·0.0082=8.2
Truncando encontramos la solución: 8 alumnos
-0.6 1.4
2.4
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 179
Problema 10
Calcula la media y a desviación típica de una variable aleatoria, x, que cumple una
distribución normal, sabiendo que la probabilidad de que x sea mayor o igual que 3 es
0.8413 y que la probabilidad de que x sea menor o igual que 9 es 0.9772.
Solución problema 10
Las probabilidades de las que habla el enunciado son
P(x1 3) = 0.8413 P(x1 3) = 1 - 0.8413 = 0.1587
P(x2 9) = 0.9772
La distribución normal de este problema es de media y desviación típica
desconocidas
Buscamos un valor z1, correspondiente a x1, que deja un área de 0.1587 a su
izquierda.
Como este área es menor que 0.5, z1 debe ser negativo.
Usando las propiedades de simetría de la distribución normal, el simétrico de z1 (que
será positivo y lo escribiremos como –z1) debe dejar a su izquierda 1-0.1587=0.8413.
Buscándolo en la tabla, encontramos que -z1= 1 y por tanto z1=-1.
Tipificando el primer valor
1
31 3
Mz M S
S
El segundo valor que buscamos es z2, correspondiente a x2, que deja un área de
0.9772 a su izquierda.
Buscándolo en la tabla, encontramos que z2= 2.
Tipificando el segundo valor
2
92 9 2
Mz M S
S
Hemos obtenido dos ecuaciones que forman un sistema de dos ecuaciones con dos
incógnitas.
3
9 2
M S
M S
Vamos a resolverlo.
Restándole a la segunda la primera
6=3S S=2
Sustituyendo en la primera (por ejemplo)
3 3 3 2 5M S M S
Por tanto la normal solicitada es N(5, 2)
9. Cuestionario de Autoevaluación.
180 Fundamentos de Bioestadística
Problema 11
La media de una variable aleatoria normal, x, es 5 veces la desviación típica y
además la probabilidad de que x sea menor o igual que 6 es 0.8413. Calcula la media y la
desviación típica.
Solución problema 11
Tenemos dos incógnitas M y S.
El propio enunciado nos proporciona una de las ecuaciones que necesitamos
M=5S
La otra ecuación la debemos sacar de la probabilidad
P(x 9) = 0.8413
Buscando 0.8413 en la tabla de la distribución normal, obtenemos que z=1
Tipificando la x
61 6
Mz M S
S
Por tanto, el sistema de ecuaciones es
M=5S
6-M=5
Sustituyendo M por 5S en la segunda ecuación podemos escribir
6 6 5 6 6 1M S S S S S
Si la desviación típica vale 1, la media vale
M=5S=5
Por tanto la normal de este problema es
N(5, 1)
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 181
Problema 12
En una distribución N(163,12) calcula dónde están los percentiles 10 y 90.
Solución problema 12
El percentil 90 es un valor de x (lo llamaremos x90) que deja a la izquierda el 90% de
los valores.
Hay que buscar, en la tabla de áreas acumuladas de la distribución normal, el valor
0.9000 en la parte interior de la tabla. Encontramos 0.8997 (muy cercano al valor deseado)
correspondiente a z= 1.28.
Tipificando la x
9090 90
1631.28 12·1.28 163 178.36
12
xz x
Usando las propiedades de simetría de la distribución normal, nos podemos dar
cuenta que la z correspondiente al percentil 10 (la llamaremos z10) debe ser la simétrica de la
z90. Es decir
10 90 1.28z z
Tipificando
1010 10
1631.28 12·( 1.28) 163 147.64
12
xz x
Por tanto, el percentil 90 vale 178.36 y el percentil 10 vale 147.64:
90
10
178.36
147.64
P
P
z90
9. Cuestionario de Autoevaluación.
182 Fundamentos de Bioestadística
Problema 13
Calcula el rango intercuartílico de una distribución normal de media M y desviación
típica S, comprobando que es independiente de M y sólo depende de S.
Solución problema 13
El rango intercuartílico se define como 3 1RI Q Q
Si llamamos x3 al valor de la variable x que corresponde al cuartil 3, su z3
correspondiente deja a la izquierda un área de 0.75.
Buscamos en la tabla de áreas acumuladas de la distribución normal el valor de 0.75.
Hay dos valores muy próximos
La z más pequeña es: z1= 0.67 cuya área es 0.7486
La z más grande es: z2 =0.68 cuya área es 0.7517
El valor que estamos buscando está justo en medio de estos dos. A este hecho de
obtener un valor que no aparece en una tabla, se le denomina interpolación lineal y es la
interpolación más sencilla (hay interpolaciones parabólicas y de orden superior; pero no las
vamos a considerar).
Por tanto podemos escribir
1 23
0.67 0.680.675
2 2
z zz
En un problema anterior no hicimos la interpolación lineal, no calculamos la media
de los dos valores, simplemente nos quedamos con el valor más cercano. Aquí hemos
refinado un poco más nuestro cálculo.
Tipificando x3
33 30.675 0.675
x Mz x S M
S
Si llamamos x1 al valor de la variable x que corresponde al cuartil 1, su z1
correspondiente deja a la izquierda un área de 0.25. Usando las propiedades de simetría de la
distribución normal, nos podemos dar cuenta que la z1 correspondiente al cuartil 1 debe ser
la simétrica de la z3 del cuartil 3. Es decir
1 3 0.675z z
Tipificando
11 10.675 0.675
x Mz x S M
S
Por tanto, el rango intercuartílico es
3 1 3 1 (0.675 ) ( 0.675 ) 2 0.675 1.35RI Q Q x x S M S M S S
Podemos comprobar que el RI no depende de M y es directamente proporcional a S.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 183
Veamos dos ejemplos, aunque el problema no los pide, pero para aclarar mejor este
último hecho.
La normal N(150, 20) tiene un RI que vale
11.35 1.35·20 27RI S
Otra normal N(400,20) tiene el mismo RI que es
21.35 1.35·20 27RI S
Ambas normales tienen el mismo RI porque tienen la misma S.
A fin de cuentas RI y S son estadígrafos que nos describen la dispersión de los datos.
Al tener las dos normales la misma S, pues tienen la misma RI.
9. Cuestionario de Autoevaluación.
184 Fundamentos de Bioestadística
Problema 14
Un restaurante de Segovia está especializado en el cochinillo asado. La materia prima
se la suministra una granja ecológica cercana. El cocinero del restaurante, tras varios años de
experiencia, ha llegado a la conclusión de que la masa de los cerdos sigue una distribución
normal. Recientemente ha comprado 1000 animales de los cuales 330 tenían menos de 2780
g y sólo 75 rebasaron los 3720 g.
a. Calcula la media y la desviación típica de esta distribución normal.
b. El cocinero considera impresentable todo cochinillo que tenga menos de 2600
g, el cual devuelve a la granja para que lo engorden. ¿Cuántos habrá devuelto
de los 1000 que compró?
Solución problema 14
Este problema encierra una dificultad, no conocemos ni la media ni la desviación
típica de la distribución normal de los cochinillos y nos piden que calculemos el número de
cochinillos devueltos. Vayamos paso a paso.
a)
En este apartado vamos a calcular M y S.
El enunciado del problema primero dice que 330 cochinillos de los 1000 tienen una
masa inferior a 2780 g. Esto se puede expresar matemáticamente como
330( 2780) 0.33
1000
casos favorablesP x
casos posibles
A continuación el enunciado del problema afirma que 75 cochinillos de los 1000
tienen una masa superior a 3720 g. Esto se puede expresar matemáticamente como
75( 3720) 0.075
1000
casos favorablesP x
casos posibles
La primera probabilidad nos permitirá obtener una z1 que deje a su izquierda un área
de valor 0.33. Esto quiere decir que z1 es negativa al ser esta área menor que 0.5. Si
buscamos su simétrico, -z1 (que es positivo), dejará a su izquierda 1-0.33=0.67. Buscando en
la tabla de áreas acumuladas de la distribución normal obtenemos
-z1= 0.44 z1=-0.44
Tipificando
2780-M 0.44 2780 - 0.44
S
x Mz M S
S
La segunda probabilidad nos permitirá obtener una z2 que deje a su derecha un área
de valor 0.075. A su izquierda deja 1-0.075= 0.925. Buscando en la tabla de áreas
acumuladas de la distribución normal obtenemos
z2=1.44
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 185
Tipificando:
3720-M 1.44 3720 - 1.44
S
x Mz M S
S
Hemos obtenido 2 ecuaciones con 2 incógnitas
2780 - 0.44
3720 - 1.44
M S
M S
Restándole a la segunda ecuación la primera se obtiene
9401.88 940 500
1.88S S
Despejando M de la primera ecuación, podemos escribir
2780 - 0.44 2780 0.44 2780 0.44·500 3000M S M S
Por tanto los 1000 cochinillos suministrados tienen una masa que está distribuida
según la normal N(3000 g, 500 g).
b)
La probabilidad de que un cochinillo sea devuelto es igual a la probabilidad de que x
sea menor o igual que 2600.
Tipificando
2600 30000.8
500
x Mz
S
Debemos buscar el área a la izquierda de esta z=-0.8.
Usando las propiedades de simetría de la distribución normal, el área es la misma que
la que deja z=0.8 a su derecha. En la tabla nos aparece el área que tiene z=0.8 a la izquierda
-0.8) = - -0.7881 = 0.2119
Luego la probabilidad que tiene un cochinillo de ser rechazado
Prechazo= 0.2119
Rechazados = Tamaño de la muestra · Probabilidad de ser rechazado =
=1000·0.2119 = 211.9
Truncando, nuevamente volvemos a obtener la solución:
211 cochinillos de los 1000 comprados serán rechazados por tener una masa que les
hace poco presentables al ser cocinados.
9. Cuestionario de Autoevaluación.
186 Fundamentos de Bioestadística
Problema 15
En la tabla adjunta aparecen los varones entre 23 y 52 años que contrajeron
matrimonio, por primera vez, en el año 1995
intervalo
de edad
Varones (miles)
23-27 40
28-32 100
33-37 40
38-42 10
43-47 8
48-52 2
Calcula el coeficiente de asimetría de Pearson de esta distribución.
Ayuda: Toma como representante de cada intervalo de datos el valor central, por
ejemplo, 25 para el primer intervalo.
Solución problema 15
Rellenamos la tabla:
xi
(años)
fi frecuencia
acumulada
fi ·xi
(años)
M
(años)
xi-M
(años)
(xi-M)2
(años)2
fi·(xi-M)2
(años)2
25 40 40 1000 31.3 -6.3 39.69 1587.6
30 100 140 3000 31.3 -1.3 1.69 169
35 40 180 1400 31.3 3.7 13.69 547.6
40 10 190 400 31.3 8.7 75.69 756.9
45 8 198 360 31.3 13.7 187.69 1501.52
50 2 200 100 31.3 18.7 349.69 699.38
200 6260 37.2 5262
Calculamos los estadígrafos:
626031.3 años
200M
Mo= 30 años Mediana= 30 años
22 526226.31 años
200S
2 26.31 = 5.13 añosS S5.13
100 100 16.4%31.3
SCV
M
31.3 300.25
5.13P
M MoA
S
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 187
Asimetría positiva, la media se encuentra a la derecha de la moda y de la mediana.
La distribución de datos es claramente asimétrica como podemos ver en el siguiente
histograma:
Mientras que en este otro diagrama de sectores (también llamado circular o diagrama
de tarta) no se aprecia esta asimetría de los datos.
Este otro diagrama de sectores es igual que el anterior, pero nos muestra un efecto
tridimensional que resalta la clase 28-32 años como la más abundante, con un porcentaje del
50%.
0
20
40
60
80
100
23-27 28-32 33-37 38-42 43-47 48-52
Va
ron
es
(m
ile
s)
Edad de los varones (años)
Edad de los varones en su primer matrimonio
20%
50%
20%
5%
4% 1%
Edad de los varones primer matrimonio
23-2728-3233-3738-4243-4748-52
20% 50%
20% 5%
4%
1%
Estudio sobre la edad doscientos mil
varones en su primer matrimonio
23-27
28-32
33-37
38-42
43-47
9. Cuestionario de Autoevaluación.
188 Fundamentos de Bioestadística
Problema 16
La universidad de Hamburgo crea los estudios de Criminología con 120 plazas para
el primer curso. Para estas 120 plazas recibe 800 solicitudes y el único criterio para proceder
a la selección de los alumnos aspirantes es la nota de Selectividad de cada uno de ellos.
Suponiendo que esta nota de Selectividad es una distribución normal de media 7.3 y
desviación típica 0.7, calcula cuál será la nota de corte necesaria para obtener una de las 120
plazas. Da el resultado hasta las centésimas.
Solución problema 16
La distribución de la notas es una normal N(7.3, 0.7).
La probabilidad de entrar en la universidad de Hamburgo es
1200.15
800entrarP
De los 800 aspirantes a entrar sólo entran el 15% de los que tienen la nota más alta.
Queremos obtener un valor de z que deje a su derecha un 0.15 o lo que es lo mismo
un 0.85 a la izquierda.
Tomaremos como valor de z el más cercano a 0.85
z=1.04.
Tipificando y despejando obtenemos la nota de corte
7.31.04 7.3 1.04 0.7 8.03
0.7
x M xz x
S
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 189
Problema 17
La presión arterial en reposo de los escolares con edades comprendidas entre 10 y 13
años es una distribución normal de media 120 mm de Hg y de desviación típica 15 mm de
Hg. Calcula el porcentaje de escolares entre 10 y 13 años que tienen
a. Una presión arterial inferior a 104 mm de Hg
b. Una presión arterial superior a 110 mm de Hg
c. Calcula la presión arterial por debajo de la cual se encuentra el 80% de los
escolares entre 10 y 13 años, es decir, calcula el percentil 80 de esta
distribución normal.
Solución problema 17
a)
La presión arterial es una normal N(120, 15) medidos los datos en mm de Hg.
Tipificando
104 1201.07
15
x Mz
S
P(x -1.07) = 1 - 1.07) = 1 - 0.8577 = 0.1423
b)
Volvemos a tipificar
110 1200.67
15
x Mz
S
P(x 110) = P(z -0.67) = P(z 0.67) = 0.7486
c)
Calculemos el percentil 80
La z que tiene a su izquierda un área acumulada de 0.8 es
Z=0.84
Deshaciendo el cambio de variable de tipificación obtenemos el P80
120 0.58 15 132.6x M
z x M zSS
P80 = 132.6 mm Hg
9. Cuestionario de Autoevaluación.
190 Fundamentos de Bioestadística
Problema 18
De una población N(5,0.04) se obtienen muestras aleatorias de tamaño 2.
Determinar la distribución de la media muestral.
Solución problema 18
Tenemos una población N(5,0.04) de la que obtenemos muestras de tamaño 2, por lo
que podemos calcular la DMM de forma que:
SE = =.
= 0.028 y por tanto DMM será N(5,0.028).
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 191
Problema 19
Una empresa fabrica bombillas que tienen una duración distribuida en forma
aproximadamente normal, con media igual a 800 horas y desviación típica de 40 horas.
Obtener la probabilidad de que una muestra aleatoria de 16 focos tenga una duración de
menos de 775 horas.
Solución problema 19
La DMM de 16 focos será N(800,SE) = N(800,10) que obtenemos a partir de:
SE = = = 10
Tipificamos el valor que nos piden:
z = =
= -2.5
Buscamos en las tablas:
P(æ 775) = P(z -2.5) = P(z 2.5) = 1-P( z 2.5) =
= 1 - 0.9938 = 0.0062.
9. Cuestionario de Autoevaluación.
192 Fundamentos de Bioestadística
Problema 20
Supóngase que las alturas de 3000 estudiantes de una universidad se
distribuyen normalmente con media 172.7 cm y desviación típica 7.5 cm. Si se
toman 80 muestras de 25 estudiantes cada una, ¿cuál será la media y la
desviación típica esperada de la distribución muestral de medias resultante?
Solución problema 20
Nos dan los datos de la población, de manera que la DMM será N(µ,SE) donde
µ=172.7, por tanto calculamos SE para nuestras muestras que tienen N=25.
SE= =.
=1.5 cm
Por lo que N(172.7 cm, 1.5 cm)
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 193
Problema 21
¿En cuántas muestras del problema anterior cabría esperar una media
a. entre 169.7 cm y 173.5 cm,
b. menor que 168.7 cm?
Solución problema 21
a)
Tipificamos los dos valores que nos piden, de acuerdo a los datos del problema
anterior: N(172.7 cm, 1.5 cm), de manera que:
x = 169.7 z =. .
.= - 2
x = 173.5 z =. .
.= 0.53
Por lo que:
P ( - – (1- P (
= 0.7019 – 1 + 0.9772 = =0.6791
Como tenemos 80 muestras, cabría esperar que:
N° muestras = 0.6791·80 = 54.3 54
b)
De la misma manera:
x = 168.7 z = . .
.= -2.67
Calculamos la probabilidad con ayuda de las tablas:
P ( -2.67) = 1 – - 0.9962 = 0.0038
Por lo que, como tenemos 80:
N° muestras = 0.0038 80 = 0.3 Ninguna.
9. Cuestionario de Autoevaluación.
194 Fundamentos de Bioestadística
Problema 22
De una población normal de media y desviación típica desconocidas se ha
obtenido una muestra de 25 elementos que tiene como media aritmética 5 y
desviación típica 1.2 ¿Cuál es la probabilidad de que la media poblacional sea superior a
5.3?
Solución problema 22
Lo primero que hacemos es estimar el valor de la desviación típica de la población,
teniendo en cuenta que N<30:
S = 1.2 = 1.225
Así, podemos calcular el valor del error típico:
SE = =.
= 0.245
Para finalmente tipificar el valor que nos piden:
z = =.
.= 1.22
Y buscar el área en las tablas:
p (x 5.3) = p (z 1.22) = 1 – 0.8888 = 0.1112
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 195
Problema 23
Calcula el tamaño de la muestra si se tiene una población de 1000 enfermos y se
quiere estimar, al nivel de 0.95, la media del número de glóbulos rojos/mm3
en sangre, con
un error menor que 100000. Supóngase que la desviación típica de población es 600000
glóbulos rojos/mm3.
Solución problema 23
A partir de la expresión del error típico, podemos despejar N:
SE = N =
E imponer la condición del enunciado, esto es, que 10 SE, por tanto:
SE = .
Con lo que finalmente podemos calcular N:
= 10 /1.96
= 1.96
10=
1.96 · 6 · 10
10= 138.29
Por lo que N 139.
9. Cuestionario de Autoevaluación.
196 Fundamentos de Bioestadística
Problema 24
Los reproductores de DVD que produce un fabricante A tienen una vida media de
6.5 años con una desviación típica de 0.9 años; mientras que los del fabricante B tienen una
vida media de 6.0 años, con una desviación típica de 0.8 años. ¿Cuál es la probabilidad de
que una muestra aleatoria de 36 reproductores de DVD del fabricante A tengan una vida
media que sea por lo menos un año mayor que la vida media de una muestra de 49
reproductores de DVD del fabricante B?
Solución problema 24
Fabricante A A=6.5años, A=0.9años, N=36.
Fabricante B B=6.0años, B=0.8años, N=49
A partir de las dos muestras calculamos:
N(MA ,.
)
DMD N (0.5, 0.189)
N(MB ,
.)
Así:
A – B ) =0,5
SEdif= + =.
+.
=0.189
De donde podemos calcular el valor de z:
z = =.
.= 2.65
Buscando en las tablas, podemos determinar que la probabilidad será:
P(z 2.65) = 1-P(z - 0.9960= 0.0040
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 197
Problema 25
La longitud, en centímetros, de las piezas fabricadas por una cierta máquina se
distribuye según una distribución normal N(10, 0.5). Para muestras de tamaño 25, calcular:
P(9.68 x 10.1)
Solución problema 25
Nos caracterizan completamente la población de manera que se ajusta a N(10,0.5).
Lo primero que calculamos es:
Tipificamos la variable:
X=9.68 z1 =(x-M)/SE = (9.68-10)/0.1 = 3.2
X=10.1 z2 =(x-M)/SE = (10.1-10)/0.1 = 1
Por tanto:
- – (1- -1+0.9987 = 0.84
9. Cuestionario de Autoevaluación.
198 Fundamentos de Bioestadística
Problema 26
El contenido en mineral, medido en g/kg, de un cierto producto alimenticio se sabe
que se distribuye según una ley normal, cuya media y varianza son desconocidas. Para
determinar un intervalo de confianza para la media poblacional, a nivel del 0.95, se extrae
una muestra de tamaño 10 resultando los siguientes contenidos en mineral:
1 2 3 4 5 6 7 8 9 10
3.0 2.5 1.7 1.8 1.9 3.2 2.6 2.3 1.5 2.9
Obtener el mencionado intervalo para la media de la población.
Solución problema 26
Tenemos una muestra de N=10, lo primero que calculamos es su media y desviación:
M=2.34, S= 0.5643 N(2.34, 0.5643)
Sabemos que con una probabilidad del 95%, µ M±1.96•SE
Como N<30:
=S
N 1=
0,5643
10 1= 0.1881
Con lo que podemos determinar que µ 2.34 ± 0.37 µ [1.97, 2.71] g/kg
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 199
Problema 27
Se ha extraído una muestra de tamaño 40 de una población de 1000 individuos y se
han calculado la media y la varianza muestrales del número de glóbulos rojos/mm3
en
sangre, resultando M = 48·105; S
2=16·10
10. Calcular el intervalo de confianza de la media
poblacional, al nivel 0.95
Solución problema 27
Queremos calcular µ M ± 1.96 · SE. Como N 30 podemos calcular SE:
SE= =·
= 63246
1.96 · SE = 1.96 · 63246= 123961 = 120000 = 120 k glóbulos rojos /
De forma que µ 4800 ± 120 k./mm3
O lo que es lo mismo: µ [4680, 4920 ] kg/mm3
9. Cuestionario de Autoevaluación.
200 Fundamentos de Bioestadística
Problema 28
Las bombillas eléctricas de un fabricante A tienen una duración media de 1400 horas
con una desviación típica de 200 horas, mientras que las de otro fabricante B tienen una
duración media de 1200 horas con una desviación típica de 100 horas. Si se toman muestras
al azar de 125 bombillas de cada fabricante, ¿cuál es la probabilidad de que las bombillas de
A tengan una duración media que sea al menos
a. 160 horas más que las bombillas de B?
b. 250 horas más que las bombillas de B?
Solución problema 28
Tenemos dos poblaciones de bombillas “A” con una distribución N(1400, 200) y otra
“B” con una N(1200, 100), lo primero en este caso es calcular:
DMD N (Mdif, SEdif)
1º) Mdif = MA – MB = 1400 -1200 horas = 200 horas
2º) Calculamos SEdif mediante la fórmula SEA2+SEB
2teniendo en cuenta que
N>30 y por lo tanto S es un buen estimador de :
SEdif= SEA2+SEB
2 =A
A
+B
B
=2
+2
= 20
Una vez obtenidos SEdif y Mdif, ya podemos tipificar las variables mediante:
z =( A B)
Así, z1 = = -2
Así, z2 = = 2.5
Buscamos los valores de las áreas en las tablas:
Para 160 horas más: probabilidad: P (z -2) = 0.9772
Para 250 horas más: probabilidad: P (z - P (z -0.9938 = 0.0062
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 201
Problema 29
Los cojinetes de bolas de una determinada casa tienen una masa de 50 g con una
desviación típica de 2 g.¿Cuál es la probabilidad de que dos lotes de 1000 cojinetes cada uno
difieran en una masa total superior a 200 g?
Solución problema 29
Nos dicen que los cojinetes se distribuyen según N(50g, 2g) y que tenemos dos
muestras:
- Muestra A: 1000 cojinetes; N (50g, 2 1000 g)
- Muestra B: 1000 cojinetes; N (50g, 2 1000 )
DMD N (50-50, )
= ( ) +( ) ; sustituyendo obtenemos
= (2 1000) + (2 1000) = 0.08944.
Por tanto, DMD N (0, 0.8944). Así que tipificaremos según: z = ( )
Como entre los 1000 cojinetes hay una diferencia total de 200 g, la diferencia
existente entre dos cojinetes será de: 200 / 1000 = 0.2 g. Obtenemos por tanto un valor de z =
0.2 / 0.08944 = 2.24
Utilizando la tabla de frecuencias acumuladas podemos determinar que la proporción
de valores por dedajo de z = 2.24 es 0.9875 por tanto:
- - 0.9875 = 0.012
Nos dicen que la diferencia total debe ser mayor a 200 g, no nos dicen si una de las
muestras debe más pesada que la otra por lo que podremos tener los dos casos: que A pese
más que B y que B pese más que A, por lo que debemos aplicar el Test de las dos Colas:
-2.24) = 2 x 0.0125 = 0.0250 0.0250 x 100 = 2.5%
9. Cuestionario de Autoevaluación.
202 Fundamentos de Bioestadística
Problema 30
Dos distancias se han medido obteniéndose unos valores de 27.3 cm y 15.6 cm, con
errores típicos de 0.16 cm y 0.08 cm, respectivamente. Determinar la media y la desviación
típica de
a. la diferencia de las distancias,
b. la suma de las distancias.
Solución problema 30
a)
Diferencia de las medias: Mdif = 27.3-15.6 = 11.7 cm
SEdif = + + =.
+ .
= 0.18 cm
Por tanto: Mdif = 11.70, S= 0.18 cm
b)
Suma de las medias: Msuma= 27.3 + 15.6= 42.9 cm
SEsuma= SEdif= 0.18 cm
Por tanto: Msuma = 42.90, S = 0.18 cm
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 203
Problema 31
Un cierto tipo de bombilla eléctrica tiene una duración media de 1500 horas
y una desviación típica de 150 horas. Se conectan tres bombillas de forma que
cuando una se funde, otra sigue alumbrando. Suponiendo que las duraciones se distribuyen
normalmente, calcular la probabilidad de que se tenga luz
a. al menos 5000 horas,
b. como mucho 4200 horas
Solución problema 31
Este problema entraña cierta dificultad ya que disponemos tres bombillas de forma
que cuando una se apaga, ponemos otra. Así la duración media total de las tres bombillas
será la suma de la duración media de cada una de las bombillas.
NA (1500 , 150/ 1) horas Llamaremos XA a su duración
NB (1500 , 150/ 1) horas Llamaremos XB a su duración
NC (1500 , 150/ 1) horas Llamaremos XC a su duración
La duración total: D= XA + XB + XC N(MSUMA, SESUMA)
La distribución suma tendrá como media:
MSUMA= µA + µB + µC = 1500 + 1500 + 1500 = 4500
Al tener tres muestras, la SESUMA vendrá dada por la expresión:
SESUMA= SE + SE + SE = 150 + 150 + 150 = 150· 3 = 259,81 260 horas
a)
Al menos 5000 horas. Tipificamos la variable:
=D M
SE =
5000 4500
260=
500
260= 1, 92
- -0,9726=0,0274
b)
Como mucho 4200 horas. Tipificamos:
=D M
SE= =
4200 4500
260= =
300
260= 1,15
- - - 0,8749 = 0,1259
9. Cuestionario de Autoevaluación.
204 Fundamentos de Bioestadística
VEAMOS OTRA FORMA DE RESOLVERLO:
Consideramos una muestra de 3 bombillas con DMM N(1500, 150/ 3)
Para que la duración total sea de 5000 horas, la duración de cada bombilla debe ser
de 5000/3, es decir, consideramos que la media de las muestras de las 3 bombillas es 5000/3
para que la duración total sea 5000 h. Tipificamos:
=x M
S=
50003
1500
SE=
50003
1500
150/ 3= 1,92
Y todo sale igual.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 205
Problema 32
El voltaje medio de una batería es de 15.0 V y una desviación típica de 0.2V ¿Cuál
es la probabilidad de que cuatro de estas baterías conectadas en serie tengan un voltaje
conjunto de 60.80 o más voltios?
Solución problema 32
Sabemos que las baterías se ajustan a una N(15.0 V, 0.2 V).
Como tenemos cuatro baterías conectadas en serie, el voltaje total será la suma del
voltaje de todas las baterías. Es un problema similar al anterior.
Podemos obtener una nueva distribución normal suma (DMS) tal que: N(MSUMA,
SESUMA) donde MSUMA se corresponde a la suma de las medias de las cuatro baterías:
MSUMA= 15.0 + 15.0 + 15.0 + 15.0 = 60.0 V
Y SESUMA se calculará teniendo en cuenta que ahora son 4 elementos:
SESUMA= + + + = 0.2 + 0.2 + 0.2 + 0.2 = 0.4 V
Con lo que la DMD será: N (60.0 V, 0.4 V).
Tipificamos el valor que nos piden —probabilidad de que tengan un voltaje igual o
superior a 60.8 voltios— con los datos de la nueva distribución:
z= . .
. =
.
. = 2
Buscando en la tablas obtenemos un valor de 0.9772. Que nos daría la probabilidad
de que la media fuera igual o inferior al valor 60.8; para obtener la probabilidad de que fuera
igual o superior le restamos la probabilidad total (P=1).
P (z 2) = 1 – P (z 2) = 1 – 0.9772 = 0.0228
9. Cuestionario de Autoevaluación.
206 Fundamentos de Bioestadística
Problema 33
Se ha hecho un test de lectura en un colegio de educación primaria. La clase contaba
con 12 anglo-americanos y 10 hispanos. Los resultados del test han sido los siguientes:
- Anglo-americanos: M = 74, S = 8
- Hispanos: M = 70, S = 10
¿La diferencia entre ambos grupos es significativa al nivel de p = 0.05?
Solución problema 33
Estimamos la desviación típica de la población a partir de los datos de cada muestra,
teniendo en cuenta que N>30:
SN
N 1
Muestra A: Muestra B:
3557.811
128A 4868.9
9
1010B
La diferencia entre las dos medias será: D = MA-MB = 74 - 70 = 4
Calculamos los errores típicos de cada muestra para posteriormente calcular SEdif.
85.3
00.316.3
49,9
41.246.3
36,8
22
BAdif
B
A
SESESE
SE
NSE
Podemos calcular t:
038.185.3
4
dif
BA
SE
MMt
Y los grados de libertad v: v= (NA-1)+(NB-1) = 20.
Buscamos en la tabla el valor de tcrit, para v = 20 y p = 0.05 resultando ser 2.086.
Como en nuestro caso t < tcrit, podemos concluir en que la diferencia no es significativa, las
diferencias observadas se deben al muestreo y ambas muestras pertenecen a la misma
población.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 207
Problema 34
Tenemos dos muestras adecuadamente seleccionadas de la cuales medimos su
coeficiente intelectual (CI). Para el grupo 1 obtenemos: M1=104, S1=10 y N1= 16. Para el
grupo 2 obtenemos: M2=112, S2=8 y N1= 14. Averigua si, con un nivel de significación del
5%, hay una diferencia significativa entre ambos grupos.
Solución problema 34
Como nuestras muestras son inferiores a 30 debemos aplicar el test t y estimar a
partir de la desviación de cada muestra mediante:
Por tanto:
A = 10 = 10.3
B = 8 = 8.30
A continuación debemos hallar SE para poder calcular el estadígrafo t:
SE= , SEA =,
= 2.57 y SEB =,
= 2.21
Por lo que SEdif = + = 2.57 + 2.21 = 3.405
t=( )
=.
= 2.35
Ahora debemos calcular los grados de libertad: =( 1) + ( 1) = 28
Buscando en la tabla, no aparece el valor para 28, sino que los más cercanos son 25
y 30 para p=0,05: =25 tcrit = 2,060 y =30 tcrit =2.042
Como nuestro valor está justo entre medias de ambos, debemos interpolar el valor t
tcrit para v = 28:
tcrit
9. Cuestionario de Autoevaluación.
208 Fundamentos de Bioestadística
Trazando un triangulo representando en el eje x los grados de libertad, y en el eje y
los valores tcrit, podremos calcular la pendiente de la recta = m-tan , m=.
= -0.0036
Formula de la recta es: y-y0=m(x-x0)
y-2.060=-0.0036(x-25)
y=-0.0036x+2.15
x=28; y=-0.0036*28+2.15=2.049
=28 tcrit=2.119
Como tcrit<t la diferencia es significativa con una significación del 5%. Por lo que
podemos concluir que puesto que t=2.35 no pertenece al intervalo [-2.049,2.049];
rechazamos H0 ya que las diferencias observadas son significativas, ambos grupos no
pertenecen a la misma población con un nivel de significación del 5%.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 209
Problema 35
Se ha realizado un test a dos grupos diferentes. El grupo experimental
(Grupo E) tiene 10 sujetos; el grupo control (Grupo C) tuvo 9 sujetos. Los resultados
pertenecen a una distribución normal y son los siguientes:
1 2 3 4 5 6 7 8 9 10
Grupo E 12 13 16 14 15 12 15 14 13 16
Grupo C 10 13 14 12 15 16 12 14 11 -
Determina si la diferencia existente entre los dos grupos es significativa
al 0.05 de nivel de significación.
Solución problema 35
Para determinar si existe una diferencia significativa entre los dos grupos
realizaremos un test t.
Primero calculamos los grados de libertad y buscamos en la tabla el valor de
para una p = 0.05:
= + 2 = 10 + 9 2 = 17
= 0.05
Como el valor que necesitamos no está en la tabla, en esta ocasión vamos a interpolar
de una forma más sencilla: restando ambos valores y dividiendo entre 5:
= 15 = 2.131
= 20 = 2.086
0.0450.045
5= 0.009
Y con este valor ya se puede calcular para = 17
= 17 (17) = (15) (2 0.009) = 2.131 0.018 = 2.113
= 2.113
A continuación, calcularemos la media y la desviación típica de ambos grupos, junto
con el error estándar: ME = 14 y MC = 13.
= 1.41 = =1
=1
=1.48
9= 0.49
= 1.83 = =1
=1
=1.83
8= 0.64
Y a continuación el error típico de la diferencia entre medias:
9. Cuestionario de Autoevaluación.
210 Fundamentos de Bioestadística
= + = 0.49 + 0.68 = 0.81
Con este último valor se puede calcular el valor de t
=( ) ( )
=(14 13) 0
0.81=
1
0.81= 1.23
Y comprobamos que [ , ]; 1.23 [ 2.113, 2.113] por lo que
aceptamos H0, lo que significa que las medias de ambos grupos no difieren
significativamente al 5%.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 211
Problema 36
Se quiere contrastar al nivel p=0.10 la hipótesis nula de que la media de
las resistencias de las probetas de un cierto origen tienen media 250 kg/cm2
frente a la alternativa de que es distinta de dicho valor. Para ello se
obtiene una muestra de 20 probetas, siendo sus resistencias:
1 2 3 4 5 6 7 8 9 10
243 333 272 341 314 287 267 263 275 259
11 12 13 14 15 16 17 18 19 20
322 370 316 300 329 250 304 217 376 364
¿Qué podemos concluir sobre la media de estas probetas?
Solución problema 36
En primer lugar calcularemos la media, la desviación típica y el error típico de la
muestra de 20 probetas, obteniendo:
M= 300.1 kg/cm2
S= 43.41 kg/cm2
SEA= =
= 9.96
Para comprobar si se cumple H0 (la resistencia media de las probetas es 250 kg/cm2),
comparamos las medias de la muestra y de la población.
La población hace el papel de la segunda muestra y como su tamaño es mucho mayor
que la muestra:
SEB= 0 por lo que SEdif= + SEA= 9.96
t= =.
.= 5.03
= 20-1= 19
tcrít (
Nuestro valor de t es mayor que el valor de su tcrít, por lo que rechazamos la hipótesis
H0 y concluimos que la media no es 250 kg/cm2
al 90% (p=0.1).
Veamos otra forma de hacerlo. Para comprobar si H0 (la resistencia media de las
probetas es 250 kg/cm2) es cierta, calculamos cuál será el intervalo en el que se va a
encontrar la media de la población con un 90% de probabilidad (p= 0.10).
9. Cuestionario de Autoevaluación.
212 Fundamentos de Bioestadística
µ se encontrará en el intervalo (300.1-1.65·SEA, 300.1+1.65·SEA) en el 90% de los
casos. Así: 1.65·SEA= 1.65·9.96= 16.434
Por tanto, el intervalo es (283.6, 316.5). Como ese intervalo no comprende el valor
250, rechazamos con un nivel de p= 0.10 la hipótesis nula y concluimos que la media no es
250 kg/cm2
al 90% (p<0.10).
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 213
Problema 37
Un fabricante de focos anuncia que sus productos durarán en promedio 500 horas.
Para corroborar esto, prueba 10 focos cada mes. Si el grado de significación es el 5%
(p=0.05), el fabricante quedará satisfecho de su afirmación. ¿Qué conclusión se debe deducir
a partir de una muestra con una media M=518 horas y una desviación típica S=40 horas?
Supóngase que la distribución de tiempos de duración es aproximadamente normal.
Solución problema 37
En este problema, en el que realizaremos un test t, la población hará el papel de
segunda muestra. lo pr -1= 10-1= 9.
Puesto que queremos realizar el estudio con p = 0.05, buscamos en la tabla el valor
del tcrit: 2.262
Con los datos que tenemos, calculamos el valor de t:
= 40 = 42.164 SEA= =.
.= 13.3
SEdif= + A
t= .
= 1.35
La diferencia entre las medias de las 2 muestras (la de 10 focos y la de la población)
no es significativa en términos estadísticos ya que t [ í , í ] por lo que el fabricante
puede estar satisfecho.
9. Cuestionario de Autoevaluación.
214 Fundamentos de Bioestadística
Problema 38
Una muestra aleatoria de 100 muertes registradas en los Estados Unidos el año
pasado mostró un promedio de vida de 71.8 años, con una desviación estándar de 8.9 años.
¿Podría esto indica que el promedio de vida actual es mayor que 70 años? Utilícese un nivel
de significación de 0.05 (p=0.05).
Solución problema 38
Es un problema similar al anterior, utilizamos la población como segunda muestra.
La primera muestra se caracteriza por N1 = 100, M1= 71.8 años, S1= 8.9 años y la población:
N2 = desconocido (muy grande), M2 = µ = 70 años, S2
con las siguientes hipótesis nula y alternativa:
Hipótesis nula (H0): µ = 70
Hipótesis alternativa (H1
Para aplicar el test z calculamos en primer lugar el error típico de la diferencia entre
las medias (SEdif):
SE = + = + 0 = =
.= 0.89
Una vez calculado SEdif estimamos el estadígrafo z:
= =71.8 70
0.89= 2.02
Consultando la tabla de distribución normal tipificada comprobamos que la
probabilidad de observar un resultado mayor o igual a z es de 0.0217:
– – 0.9783 = 0.0217
Como dicha probabilidad es menor a 0.05, la diferencia es significativa y podemos
rechazar H0 con un nivel de confianza del 95%; sin embargo, la diferencia no es muy
significativa (esto es, no podemos rechazar H0 con un nivel de confianza del 99%) ya que la
probabilidad de observar un resultado mayor que z es mayor de 0.01.
Otra alternativa para llegar a esta conclusión es que z = 2.02 > 1.96·SE = 1.74 y por
lo tanto la diferencia es significativa (rechazamos H0 y aceptamos H1).
Podemos concluir que la vida media de la población en EEUU es diferente de 70
años.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 215
Problema 39
Un fabricante de equipos deportivos ha desarrollado un nuevo hilo sintético para
pescar del cual afirma que tiene un coeficiente de ruptura de 8 kg con una desviación típica
de 0.5 kg
muestra aleatoria de 50 hilos y se encuentra que tiene un coeficiente medio de ruptura de 7.8
kg. ¿Qué se puede deducir con un nivel de significación del 0.01?
Solución problema 39
Otro ejemplo similar: la población hace el papel de la segunda muestra.
Aplicamos el test z con las siguientes hipótesis:
Ho
H1
Muestra 1: N1=50 M1=7.8 kg
Muestra 2: Población =8 kg =0.5 kg.
No conocemos la desviación típica de la muestra pero no nos hace falta al conocer la
de la población.
Como estamos interesados en comparar la diferencia entre las medias, usamos la
DMD que es una normal N(0,SEdif), donde:
= +
Como la población tiene un gran número de datos podemos suponer, que su SE2 es
prácticamente despreciable, comparado con SE1. Por lo que:
= + 0= SE1
Como conocemos la desviación típica de la población ( ) podemos calcular SE1:
= =,
= 0.071
Tipificamos:
= ,
,= -2.83
Analizamos el resultado con un nivel de significación de 0,01 (99%):
-al 99%: -2.83< -2.58·SE Rechazamos H0 y aceptamos H1. Podemos
concluir que el coeficiente de ruptura promedio NO es igual a 8, probablemente será
menor que 8.
9. Cuestionario de Autoevaluación.
216 Fundamentos de Bioestadística
Problema 40
El Edison Electric Institute ha publicado cifras acerca del número anual de kWh
consumidos por diversos electrodomésticos. Se afirma que una aspiradora gasta en promedio
46 kWh al año. Si una muestra aleatoria de 12 hogares incluida en el estudio indica que una
aspiradora gasta en promedio 42 kWh al año con una desviación estándar de 11.9 kWh,
¿sugiere esto, con un nivel de significación de 0.05, que las aspiradoras gastan en promedio
menos de 46 kWh anualmente? Suponga que la población de kWh es normal.
Solución problema 40
Para contestar a la pregunta que nos plantea este problema (si las aspiradoras gastan
de promedio 46 kWh anualmente) tenemos que realizar un test t, ya que la muestra es menor
de 30.
N1 = 12, M1 = 42 kWh y S1 = 11.9 KWh.
Como segunda muestra tomaremos a la población: M2 = 46 kWh.
Las hipótesis que nos planteamos son:
H0 = la muestra pertenece a la población.
H1 = la muestra no pertenece a la población.
Para aplicar el test t, en primer lugar calcularemos el error típico de la DMD, SEdif,
para lo que necesitamos el SE calculado a partir de los datos de la muestra:
= = 1
=11.9
11= 3.587
= + = + 0 = = 3.587
Calculamos el valor de t:
=
= 42 46
= 1.115
Nos falta comparar el valor de t que hemos obtenido con el del tcrit que encontraremos
en las tablas, pero antes necesitamos calcular los grados de libertad. Como inicialmente sólo
teníamos una muestra de 12 datos: v = 12 1 = 11.
Para un nivel de significación p=0.05 y v = 11, necesitaríamos que nuestro t fuera
mayor a tcrit = 2.22 para que la diferencia fuera significativa. Como es menor, la diferencia
entre las medias no es significativa y por tanto aceptamos H0.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 217
Problema 41
En el artículo “Influence of Physical Restraint and Restraint- Facilitating drugs on
Blood Measurements of White-Tailed Deer and Other Selected Mammals”, realizado en el
Instituto Politécnico de Virginia y la Universidad Estatal por J.A. Wesson en 1976, se
examinó la influencia de la droga succinyl-choline16
en los niveles de circulación de
andrógenos en la sangre.
Se obtuvieron muestras de sangre de la vena yugular de ciervos salvajes, crecidos en
libertad, inmediatamente después de habérseles aplicado una inyección intramuscular de
suxametonio utilizando dardos y un revolver de captura. Aproximadamente 30 minutos
después se les tomó otra muestra de sangre y posteriormente fueron liberados. Los niveles de
andrógenos, de 15 ciervos, en el momento de la captura y 30 minutos después, medidos en
nanogramos por mililitro (ng/mL), se presentan en la tabla.
Andrógeno (ng/mL)
Ciervo En el momento de la
inyección de la droga
30 minutos después de
la inyección
Diferencia
di
1 2.76 7.02 4.26
2 5.18 3.10 -2.08
3 2.68 5.44 2.76
4 3.05 3.99 0.94
5 4.10 5.21 1.11
6 7.05 10.26 3.21
7 6.60 13.91 7.31
8 4.79 18.53 13.74
9 7.39 7.91 0.52
10 7.30 4.85 -2.45
11 11.78 11.10 -0.68
12 3.90 3.74 -0.16
13 26.00 94.03 68.03
14 67.48 94.03 26.55
15 17.04 41.70 24.66
Considerando que los niveles de andrógenos de los ciervos, en el momento de la
inyección y 30 minutos después, están distribuidas normalmente, probar con un nivel de
significación del 0.05 si las concentraciones de andrógenos se alteran después de treinta
minutos de haberles inyectado el suxametonio.
El ciervo de cola blanca (Odocoileus virginianus), es también conocido como
ciervo de Virginia. Llega a medir hasta 1.10 m de altura y 140 kg de masa. Tiene una
16El suxametonio es la denominación española de la succinyl-choline. Se utiliza en anestesia como un relajante
del músculo esquelético para facilitar intubación traqueal y ventilación mecánica. También vale para reducir la
intensidad de las contracciones musculares asociadas a convulsiones inducidas por medios farmacológicos o
eléctricos. El suxametonio actúa mediante inhibición de la transmisión neuromuscular despolarizando las
placas motoras terminales en el músculo esquelético. Su acción es ultracorta.
9. Cuestionario de Autoevaluación.
218 Fundamentos de Bioestadística
notable capacidad de adaptación a diferentes tipos de hábitats boscosos: sobrevive en los
bosques canadienses de la región subártica, en las áridas laderas montañosas de México, y en
las selvas húmedas y calurosas de América Central y del Sur. Una razón de su capacidad de
supervivencia es la diversidad de comidas con que puede alimentarse: cortezas, hojas y
frutos caídos. Existen alrededor de 35 subespecies de Odocoileus virginianus. Su pelaje es
rojizo en verano y gris en invierno, y debe su nombre a una mancha blanca que tiene bajo la
cola. Cuando se siente amenazado, corre con la cola levantada para ponerse a cubierto: se
cree que el destello blanco actúa como señal visual de alarma para otros ciervos. Sus cuernos
son ramificados y se encuentran inclinados hacia atrás. Por lo general, los ciervos de cola
blanca viven en grupos de hasta 15 individuos. Su período de gestación es de 7 meses.
Solución problema 41
Par comenzar, calculamos la media y la desviación típica de ambas muestras:
M1=11.81, M2=21.65, S1= 16.07 y S2= 29.87.
A continuación calculamos SEdif:
SEdif = 12 + 2
2 =S1
2
1-1+
S22
2-1 =
. 2
+. 2
= 9.06
En este caso, el número de grados de libertad del problema será v = N1 + N2 – 2 = 15
+ 15 – 2 = 28. Con este valor y una significación de p = 0.05 no tenemos un valor en las
tablas, por lo que interpolamos:
v = 25 tcrít = 2.060
v = 30 tcrít = 2.042
2.060 – 2.042 = 0.018 .
( ) = 0.0036 por lo que: 2.060 – (3 × 0.0036) tcrít =
2.049
Consideramos la diferencia entre las medias.
x = M2 – M1 = 21.65 – 11.81 = 9.84
M = 0 (suponemos H0)
t =SEdif
=.
.= 1.09
Como t -tcrítico, tcrítico Aceptamos H0 y podemos afirmar que no existe
diferencia entre los niveles de andrógeno en sangre en el momento de la inmovilización y 30
minutos después para los ciervos de cola blanca.
Hay que destacar que se trata de un problema en el que las muestras están
emparejadas, además las desviaciones típicas no son muy parecidas., así que hay que tomar
el resultado con cautela.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 219
Problema 42
Se desea comprobar si un nuevo medicamento es más eficaz como tratamiento para
una determinada enfermedad que el medicamento utilizado hasta la fecha. Para ello, se
eligen dos grupos al azar de enfermos que padecen la enfermedad.
Al grupo A (N= 61) se le administra el nuevo medicamento. Al grupo B (N= 61) se le
administra el medicamento antiguo. Tras el tratamiento, se realiza un examen médico para
comprobar el grado de mejoría experimentada por los enfermos con cada tratamiento. Los
resultados del examen se establecen en una escala continua de 0 a 10 puntos y se sabe que
satisfacen una distribución t de Student.
La mejoría media del grupo A es 5.4 puntos y la desviación típica 1.0 puntos. La
mejoría media del grupo B es 5.0 puntos, y la desviación típica 1.0 puntos. ¿Qué grado
mínimo de significación estadística tiene la diferencia observada?
a. 0.10, b. 0.05, c. 0.02, d. 0.01, e. 0.001
Solución problema 42
A NA = 61, N(5.4, 1.0)
B NB = 61, N(5.0, 1.0)
Puesto que N>30 podemos aplicar un test z, aunque recordemos que también
podemos realizar un test t, puesto que los resultados coincidirán.
Calculamos los errores estándar a partir de las desviaciones de cada muestra:
=N
=S
61=
1.0
61= 0.128 = SE
Con lo que podemos calcular el error estándar de la diferencia:
= + = 0.181
Podemos calcular el valor de z:
=5.4 5.0
0.181= 2.21
Con este valor de z, buscamos el valor del área en las tablas:
P(z 2.21) = 1 - 0.9864 = 0.0136 1.36%
Además, teniendo en cuenta las dos colas:
P(z [-2.21,2.21] = 1-2·0.0136 = 0.9728 97.28%
P(z [-2.21,2.21] = 1-0.9728 = 0.0272 2.72%
Debemos estudiar cuando nuestro valor de z estará en el intervalo que determina cada
uno de los niveles de significación:
p = 0.05 zcrit = 1.96 z fuera del intervalo Rechazamos H0 Aceptamos H1
9. Cuestionario de Autoevaluación.
220 Fundamentos de Bioestadística
p = 0.02 zcrit = 2.33 z dentro del intervalo Aceptamos H0, por tanto también
estará dentro del intervalo para p=0.01 y para p=0.001.
¿Qué está pasando?
P = 0.10 P = 0.05 Nuestro z P = 0.02 P = 0.01 P=0.0001
0.90 0.95
z = 2.21
0.98 0.99 0.999
Zcrit=1.645 Zcrit=1.96 Zcrit=2.33 Zcrit=2.575 Zcrit=3.29
0.9500 0.9750 0.9900 0.9950 0.9995
Diferencia significativa Diferencia no significativa
Por tanto la solución correcta es la b)
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 221
Problema 43
Un grupo de la Facultad de Medicina, formado por 24 alumnos, se dividió de manera
aleatoria en cuatro grupos de 6 alumnos cada uno (teniendo en cuenta el primer dígito de su
carnet de identidad, empezando por la izquierda, haciendo la siguiente asignación 1=grupo
A, 2=grupo B, 3=grupo C o 4=grupo D y haciendo los ajustes para que los grupos sean de
6). Una vez hecha esta división, cuatro profesores diferentes les explicaron el mismo módulo
de Base Físicas usando la misma presentación. A continuación se les sometió a la misma
prueba, obteniendo los siguientes resultados (puntuados sobre un máximo de 100 puntos):
Grupo A Grupo B Grupo C Grupo D
74 98 66 82
84 76 68 96
90 80 80 80
98 78 76 84
100 100 94 65
90 82 72 82
a. Aplica el test F con un nivel de significación del 5% y del 1% para averiguar
si la diferencia observada entre las medias es significativa, o no. ¿Qué
podemos concluir?
b. Debido a un error involuntario en el proceso de calificación todos los alumnos
del grupo C tienen su nota supervalorada en 5 puntos. Réstale 5 puntos a cada
uno de los alumnos del grupo C y vuelve a aplicar el test F trabajando con un
nivel de significación del 5%.
c. Si en el apartado b) te ha salido que debemos rechazar H0 con p<0.05,
averigua cuál de las cuatro muestras es la que no pertenece a la misma
población que las otras.
d. Hay un procedimiento más rápido que nos permite comprobar si tres muestras
pertenecen a la misma población y por tanto, si es cierto, sería la cuarta la que
no pertenecería a la misma población.
Solución problema 43
a)
Grupo A Grupo B Grupo C Grupo D
NA=6 NB=6 NC=6 ND=6
MA=89.3 MB=85.7 MC=76.0 MD=81.50
A2=90.67 B
2=111.07 C
2=104.00 D
2=98.30
Calculamos la varianza intra-muestral
42
1int
90.67 111.07 104.00 98.30101.01
4 4
i
iraV
9. Cuestionario de Autoevaluación.
222 Fundamentos de Bioestadística
Con las cuatro medias hacemos una serie de datos de tamaño 4, es decir, estamos
considerando que esta muestra pertenece a la DMM que es una normal de media y
desviación típica SE. Calculamos su desviación típica mediante Excel, dividiendo por N-1.
Medias
89.33
85.67
76.00
81.50
5.73 SE
32.80 SE2
Calculamos la varianza inter-muestral
2
int · 6·32.80 196.82erV N SE
El estadígrafo F es igual al cociente de estas dos varianza, dividiendo la mayor por la
menor
int
int
196.821.95
101.01
er
ra
VF
V
El inter es igual al número de muestras menos 1
int 4 1 3er
El intra es igual al número de total de datos de las 4 muestras menos el número de
muestras
int 4·6 4 20ra
Buscamos en las tablas los valores críticos de F con los grados de libertas 20 y 3
p=0.05 Fcrítico= 3.10
p=0.01 Fcrítico= 4.94
Por tanto podemos concluir:
p=0.05 F < Fcrítico nos quedamos con H0 las diferencias observadas no son
significativas (p<0.05)
p=0.01 F < Fcrítico nos quedamos con H0 Las diferencias observadas no son
significativas (p<0.01)
Las cuatro muestras son equivalentes (p<0.05). Los cuatro profesores explican de
forma equivalente a pesar de las diferencias observadas en las medias de las notas (p<0.05).
Los cuatro grupos, elegidos aleatoriamente, no son homogéneos, parece que los alumnos del
grupo C obtienen peores resultados en este control (p<0.05).
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 223
b)
La tabla queda, una vez corregidas las notas del grupo C es
Grupo A Grupo B Grupo C Grupo D
74 98 61 82
84 76 63 96
90 80 75 80
98 78 71 84
100 100 89 65
90 82 67 82
NA=6 NB=6 NC=6 ND=6
MA=89.3 MB=85.7 MC=71.00 MD=81.50
A2=90.67 B
2=111.07 C
2=104.00 D
2=98.30
A=9.52 B=10.54 C=10.2 D=9.91
42
1int
90.67 111.07 104.00 98.30101.01
4 4
i
iraV
Con las cuatro medias hacemos una serie de datos de tamaño 4, es decir, estamos
considerando que esta muestra pertenece a la DMM que es una normal de media y
desviación típica SE. Calculamos su desviación típica mediante Excel, dividiendo por N-1.
Medias
89.33
85.67
71.00
81.50
7.92 SE
62.80 SE2
Calculamos la varianza inter-muestral
2
int · 6·62.80 376.82erV N SE
El estadígrafo F es igual al cociente de estas dos varianza, dividiendo la mayor por la
menor
int
int
376.823.73
101.01
er
ra
VF
V
El inter es igual al número de muestras menos 1,int 4 1 3er
El intra es igual al número de total de datos de las 4 muestras menos el número de
muestrasint 4·6 4 4(6 1) 20ra
Buscamos en las tablas los valores críticos de F con los grados de libertas 20 y 3, de
forma que encontraremos:
9. Cuestionario de Autoevaluación.
224 Fundamentos de Bioestadística
p=0.05 Fcrítico= 3.10
p=0.01 Fcrítico = 4.94
Por tanto podemos concluir:
p=0.05 F > Fcrítico nos quedamos con H1 Las diferencias observadas son
significativas (p<0.05)
p=0.01 F < Fcrítico nos quedamos con H0 Las diferencias observadas no son
significativas (p<0.01)
Ahora las cuatro muestras no son equivalentes (p<0.05). Los cuatro profesores no
explican de forma equivalente debido a las diferencias observadas en las medias de las notas
(p<0.05). Los cuatro grupos, elegidos aleatoriamente, no son homogéneos, parece que los
alumnos del grupo C obtienen peores resultados en este control (p<0.05).
c)
Vamos a averiguar cuál es la muestra (o muestras) que no pertenece a la población.
Grupo A Grupo B Grupo C Grupo D
74 98 61 82
84 76 63 96
90 80 75 80
98 78 71 84
100 100 89 65
90 82 67 82
NA=6 NB=6 NC=6 ND=6
MA=89.3 MB=85.7 MC=71.00 MD=81.50
A2=90.67 B
2=111.07 C
2=104.00 D
2=98.30
A=9.52 B=10.54 C=10.2 D=9.91
SA=8.69 SB=9.62 SC=9.31 SD=9.05
Previamente calculamos las desviaciones típicas de las muestras, en las que las sumas
de las desviaciones al cuadrado se dividen por N y luego se extrae la raíz cuadrada:
1 5 59.52 8.69
6 6
AA A A
A
NS
N
1 5 510.54 9.62
6 6
BB B B
B
NS
N
1 5 510.20 9.31
6 6
CC C C
C
NS
N
1 5 59.91 9.05
6 6
DD D D
D
NS
N
Debemos hacer 6 test t
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 225
A con B B con C C con D
A con C B con D
A con D
PRIMER TEST - A con B
8.693.89
1 5
A AA
A A
SSE
N N
9.624.30
1 5
B BB
B B
SSE
N N
2 2 5.80dif A BSE SE SE
89.33 85.670.63
5.80
A B
dif
M Mt
SE
1 1 10A BN N
0.05 2.23critp t
0.01 3.17critp t
Por tanto:
p=0.05 t < tcrítico nos quedamos con H0 A y B pertenecen a la misma
población
p=0.01 t < tcrítico nos quedamos con H0 A y B pertenecen a la misma
población
SEGUNDO TEST - A con C
8.693.89
1 5
A AA
A A
SSE
N N
9.314.16
1 5
C CC
C C
SSE
N N
2 2 5.70dif A CSE SE SE
89.33 71.003.22
5.70
A C
dif
M Mt
SE
1 1 10A BN N
0.05 2.23critp t
0.01 3.17critp t
9. Cuestionario de Autoevaluación.
226 Fundamentos de Bioestadística
Por tanto:
p=0.05 t > tcrítico nos quedamos con H1 A y C no pertenecen a la misma
población
p=0.01 t > tcrítico nos quedamos con H1 A y C no pertenecen a la misma
población
TERCER TEST - A con D
8.693.89
1 5
A AA
A A
SSE
N N
9.055.61
1 5
D DD
D D
SSE
N N
2 2 5.70dif A CSE SE SE
89.33 81.501.40
5.61
A D
dif
M Mt
SE
1 1 10A BN N
0.05 2.23critp t
0.01 3.17critp t
Por tanto:
p=0.05 t < tcrítico nos quedamos con H0 A y D Pertenecen a la misma
población
p=0.01 t < tcrítico nos quedamos con H0 A y D pertenecen a la misma
población
CUARTO TEST - B con C
9.624.30
1 5
B BB
B B
SSE
N N
9.314.16
1 5
C CC
C C
SSE
N N
2 2 5.99dif B CSE SE SE
85.67 71.002.45
5.99
B C
dif
M Mt
SE
1 1 10A BN N
0.05 2.23critp t
0.01 3.17critp t
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 227
Por tanto:
p=0.05 t > tcrítico nos quedamos con H1 B y C no pertenecen a la misma
población
p=0.01 t < tcrítico nos quedamos con H0 B y C pertenecen a la misma
población
QUINTO TEST - B con D
9.624.30
1 5
B BB
B B
SSE
N N
9.054.05
1 5
D DD
D D
SSE
N N
2 2 5.91dif B DSE SE SE
85.67 81.500.71
5.91
B D
dif
M Mt
SE
1 1 10A BN N
0.05 2.23critp t
0.01 3.17critp t
Por tanto:
p=0.05 t < tcrítico nos quedamos con H0 B y C pertenecen a la misma
población
p=0.01 t < tcrítico nos quedamos con H0 B y C pertenecen a la misma
población
SEXTO TEST - C con D
9.314.16
1 5
C CC
C C
SSE
N N
9.054.05
1 5
D DD
D D
SSE
N N
2 2 5.81dif C DSE SE SE
81.50 71.001.81
5.81
D C
dif
M Mt
SE
9. Cuestionario de Autoevaluación.
228 Fundamentos de Bioestadística
1 1 10A BN N
0.05 2.23critp t
0.01 3.17critp t
Por tanto:
p=0.05 t<tcritico nos quedamos con H0 C y D pertenecen a la misma población
p=0.01 t<tcritico nos quedamos con H0 C y D pertenecen a la misma población
Por tanto podemos concluir lo siguiente (p<0.05)
A con B H0
A con C H1
A con D H0
B con C H1
B con D H0
C con D H0
Hay dos poblaciones, en una están las muestras A, B y D, y en la otra población están
C y D.
Gráficamente podemos representarlo
La muestra C es la que no pertenece a la misma población que las otras 3 (p<0.05).
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 229
Si ahora trabajamos con el 99% de nivel de confianza, podríamos concluir lo
siguiente
A con B H0
A con C H1
A con D H0
B con C Ho
B con D H0
C con D H0
Hay dos poblaciones, en una están las muestras A, B y D, y en la otra población están
B, C y D.
Gráficamente podemos representarlo
Vemos, claramente que o bien la muestra A o bien la muestra C son las que no
pertenecen a la misma población (p<0.01)
d)
Pero también se me podía haber ocurrido lo siguiente: como la muestra C es la que
menos media tiene, voy a aplicar el test F a las tres muestras A, B y D. Si me sale que son de
la misma población, ya lo tenemos resuelto.
32
1int
90.67 111.07 98.30100.01
3 3
i
iraV
Con las tres medias hacemos una serie de datos de tamaño 3, es decir, estamos
considerando que esta muestra pertenece a la DMM que es una normal de media y
desviación típica SE. Calculamos su desviación típica mediante Excel, dividiendo por N-1.
9. Cuestionario de Autoevaluación.
230 Fundamentos de Bioestadística
Continuemos:
Medias
89.33
85.67
81.50
3.92 SE
15.36 SE2
Calculamos la varianza inter-muestral
2
int · 6·15.36 92.17erV N SE
El estadígrafo F es igual al cociente de estas dos varianza, dividiendo la mayor por la
menor (sale al revés cuando lo hacíamos con 4 muestras)
int
int
100.011.09
92.17
ra
er
VF
V
El inter es igual al número de muestras menos 1
int 3 1 2er
El intra es igual al número de total de datos de las 4 muestras menos el número de
muestras
int 3·6 3 3(6 1) 15ra
Buscamos en las tablas los valores críticos de F con los grados de libertas 20 y 3
p=0.05 Fcrítico= 3.68
p=0.01 Fcrítico = 6.36
Por tanto podemos concluir:
p=0.05 F < Fcrítico nos quedamos con H0 Las diferencias observadas no son
significativas (p<0.05)
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 231
p=0.01 F < Fcrítico nos quedamos con H0 Las diferencias observadas no son
significativas (p<0.01)
Ahora las tres muestras son equivalentes, pertenecen a la misma población (p<0.05).
Los tres profesores explican de forma equivalente a pesar de las diferencias
observadas en las medias de las notas (p<0.05).
Los tres grupos, elegidos aleatoriamente, son homogéneos, los alumnos de los grupos
A, B y D C obtienen los mismos resultados en este control. Las diferencias observadas no
son significativas (p<0.05).
9. Cuestionario de Autoevaluación.
232 Fundamentos de Bioestadística
Problema 44
Sabemos que en España, sin tener en cuenta el factor RH, los grupos sanguíneos
están repartidos de la siguiente manera:
Grupo
sanguíneo
Porcentaje de españoles
0 39
A 44
B 13
AB 4
Nos desplazamos a la sierra de Alcaraz y tomamos una muestra de 200 individuos,
obteniendo los siguientes datos
Grupo
sanguíneo
Individuos
de la muestra
0 71
A 69
B 41
AB 19
Total 200
Decide si estos datos concuerdan con los datos de España con un nivel de
significación del 0.01.
Solución problema 44
Debemos comparar los datos de nuestra muestra con los teóricos/observados en toda
España. Para ello, lo primero que haremos es calcular los datos que habríamos observado si
la hipótesis de que ambas muestras provienen de las misma población se cumpliera.
Sabemos que el 39% de la población española es del grupo 0, por tanto, de nuestro grupo de
200 individuos deberíamos haber observado 78 individuos.
Grupo
sanguíneooi ei oi- ei (oi- ei)
2(oi- ei)
2/ ei
0 71 78 -7 49 0.62
A 69 88 -19 361 4.10
B 41 26 15 225 8.65
AB 19 8 11 121 15.12
Total 200 2=28.49
Debemos comparar el valor de la 2= 28.49 con el valor de crit
2para p=0.01 y 4-1 =
3 grados de libertad, que resulta ser crit2=11.35.Como
2=28.49 >> crit
2= 11.34, por lo que
se rechaza la hipótesis de partida, por tanto ambas muestras provienen de poblaciones (en el
sentido estadístico de la palabra) diferentes, las diferencias observadas son reales y no fruto
del muestreo. En definitiva, la muestra de la Sierra de Alcaraz presenta unas proporciones de
grupos sanguíneos diferentes a la media nacional.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 233
Problema 45
Queremos contrastar la hipótesis de igual probabilidad de que el sexo de hijos sea
masculino o femenino. Para ello estudiamos una muestra de 200 familias numerosas de
cuatro hijos, obteniendo los siguientes resultados
Número de
hijos varones
Número de
familias
4 13
3 52
2 90
1 39
0 6
Total 200
Contrasta estos datos con un nivel de significación del 0.05.
Solución problema 45
La dificultad de este problema reside, aunque no debiera, en la determinación de los
valores esperados. En una primera aproximación, podríamos estar tentados de pensar lo
siguiente: puesto que la probabilidad de tener chico o chica ha de ser de 0.5, podría calcular
el número total de hijos varones (427) y el de mujeres (373), proponer que los valores
esperados deberían ser, entonces, de mitad y mitad de los 800 hijos de la muestra,
construyendo así una tabla de contingencia 2x2. De hacerlo así, estaríamos obviando que la
probabilidad de tener 4 chicos es menor que la de tener 2 chicos y 2 chicas. De manera que
cualquier población en la que se cumpliera la proporción 427/373 daría el mismo resultado.
Por tanto, debemos tener en cuenta las diferentes probabilidades de tener las
diferentes combinaciones posibles.
Podemos hacerlo de dos maneras. La primera sería construirnos todas las
posibilidades (en total 16) de familias e hijos de diferentes sexos:
- 1
- 4
/ / - 4
/ / / / - 6
- 1
La segunda forma es aplicando la teoría combinatoria, de manera que las diferentes
posibilidades vendrán dadas por cada uno de los términos del desarrollo:
( + ) = · ( + ) =4
· =
= + 4 + 6 + 4 +
9. Cuestionario de Autoevaluación.
234 Fundamentos de Bioestadística
donde =!
!( )!siendo k!=k·(k-1)·(k-2)·(k-3)·····1
Supongamos que q es la probabilidad de nacer varón y p la probabilidad de nacer
hembra. Supondremos que = = , debido a H0.
El primer término, q4, es la probabilidad de que los 4 hijos sean varones, es decir,
=
El segundo término, 4pq3, es la probabilidad de que haya una hembra y 3 varones, es
decir, 4 · · =
Y así con los demás términos.
Como se puede comprobar, la suma de todas estas probabilidades da 1.
1
16+
4
16+
6
16+
4
16+
1
16=
16
16= 1
Podemos, ahora, construir la tabla con los valores esperados:
xi oi ei oi- ei (oi- ei)2
(oi- ei)2/ ei
0 6200 · 1
16= 12.5 -6.5 42.25 3.38
1 39200 · 4
16= 50 -11 121 2.42
2 90200 · 6
16= 75 15 225 3.00
3 52200 · 4
16= 50 2 4 0.08
4 13200 · 1
16= 12.5 0.5 0.25 0.02
Total 200 2=8.90
Para un nivel de significación p = 0.05 y 4 grados de libertad, (filas-1)·(columnas-1)
= 5-1 = 4, tenemos un crit2
= 9.48, por tanto 2
< crit2así que aceptamos la hipótesis de
partida, ambas muestras provienen de la misma población, las diferencias observadas no son
significativas y se deben al muestreo, la muestra de familias estudiada presenta una
probabilidad de tener hijos e hijas del 50%, ambos sexos son igualmente probables.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 235
Problema 46
El equipo médico de una agencia espacial europea sostiene que no existe relación
entre el tiempo de permanencia de los astronautas en el espacio y ciertos trastornos
psicológicos que se han observado en dichos astronautas. Para contrastar esta hipótesis se
estudió una muestra de 100 astronautas que dio los resultados de la tabla adjunta. ¿Se puede
aceptar, con un nivel de significación del 0.05, la opinión del equipo médico?
Tiempo de
permanencia
Astronautas
con trastornos
Astronautas
sin trastornos
Total
Menos de 1 mes 12 14 26
De 1 a 3 meses 11 10 21
De 3 a 6 meses 15 14 29
Más de 6 meses 13 11 24
Total 51 49 100
Solución problema 46
Suponemos que ambas muestras provienen de la misma población, así que la suma de
ambas muestras nos servirá para calcular los valores esperados. Por ejemplo, tendremos un
26% (26 de un total de 100) de astronautas que han estado menos de un mes, así de los 51
que presentan trastornos deberíamos haber medido 13.26 y de los 49 que no han tenido
trastornos deberíamos tener 12.74. Estos valores los podemos calcular con una simple regla
de tres o bien (26·51)/100.
Podemos construir la tabla de valores de la siguiente manera, poniendo todos los
valores en una misma columna:
oi ei (oi- ei)2/ ei
12 13.26 0.1179
14 12.74 0.1246
11 10.71 0.0078
10 10.29 0.0081
15 14.79 0.0029
14 14.21 0.0031
13 12.24 0.0471
11 11.76 0.0491
2=0.3624
Por tanto como 2= 0.36 < 7.81= crit
2para p=0.05 y (4-1)·(2-1) = 3 grados de
libertad se acepta H0 y deducimos que no hay diferencias significativas y por tanto se
acepta la opinión del equipo médico. Las diferencias observadas se deben al muestreo y no
son reales.
9. Cuestionario de Autoevaluación.
236 Fundamentos de Bioestadística
Problema 47
Una empresa multinacional desea saber si existen diferencias significativas entre sus
trabajadores en distintos países en cuanto al grado de satisfacción en el trabajo. Se
seleccionan muestras aleatorias de trabajadores en los tres países en los que opera la
empresa, obteniendo los siguientes resultados. ¿Se puede admitir, con un nivel de
significación del 5%, que la satisfacción en el trabajo es similar en los tres países?
País Muy
satisfecho
Satisfecho Insatisfecho Muy
insatisfecho
Total
España 200 300 300 100 900
Francia 300 400 350 150 1200
Italia 350 300 250 150 1050
Total 850 1000 900 400 3150
Solución problema 47
Calculemos los valores esperados. Para ello suponemos que todas las muestras
provienen de la misma población y nos basamos en los valores totales para calcularlos. De
manera que de 3150 trabajadores totales, 900 son de España, por tanto de los 850
trabajadores muy satisfechos debería haber observado 242.86 = 900·850/3150.
oi ei (oi- ei)2/ ei
200 242.86 7.56
300 285.71 0.71
300 257.14 7.14
100 114.29 1.79
300 323.81 1.75
400 380.95 0.95
350 342.86 0.15
150 152.38 0.04
350 283.33 15.69
300 333.33 3.33
250 300.00 8.33
150 133.33 2.08
2=49.52
2= 49.52 >12.59 (p=0.05 y (4-1)·(3-1) = 6 grados de libertad) Se rechaza H0 y
podemos concluir que la satisfacción en el trabajo depende del país.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 237
Problema 48
Una empresa que se dedica al estudio de la audiencia televisiva supone que el 30% de
la población prefiere el canal A, el 25% el B, el 20% el C, el 10% el D y el 15% el E. Para
confirmar esta hipótesis selecciona una muestra aleatoria de 5000 individuos de los cuales
1530 prefieren el canal A, 1210 el B, 1000 el C, 490 el D y 770 el E. Estudia si podemos
concluir que la hipótesis de la empresa es correcta con un nivel de significación del 5%.
Solución problema 48
En el enunciado se nos proporcionan los porcentajes de audiencia de cada canal, que
podemos expresar como proporciones y calcular los valores esperados:
Canal oi ei (oi- ei)2/ ei
A 1530 1500 0.60
B 1210 1250 1.28
C 1000 1000 0.00
D 490 500 0.20
E 770 750 0.53
Total 5000 2=2.61
Por tanto, como para p=0.05 y 5-1 = 4 grados de libertad, tenemos una 2
crit= 9.48
Se acepta H0 y por tanto la suposición de la empresa es correcta.
9. Cuestionario de Autoevaluación.
238 Fundamentos de Bioestadística
Problema 49
Dos grupos, A y B, formados cada uno por 100 individuos padecen una cierta
enfermedad. Se administra un suero al grupo A, pero no al grupo B (que se suele denominar
grupo control o testigo); siendo en todo lo demás los dos grupos tratados idénticamente. Se
encuentra que en los grupos A y B, 75 y 65 individuos, respectivamente, se han recuperado
de la enfermedad.
Se
Recuperan
No se
recuperanTotal
Grupo A
(utilizando el suero)75 25 100
Grupo B
(sin suero)65 35 100
Total 140 60 200
Ensaya la hipótesis de que el suero ayuda a curar la enfermedad con un nivel de
significación del:
a) 0.01
b) 0.05
c) 0.10
d) Aplicar la corrección de Yates
Solución problema 49
Suponemos que ambas muestras provienen de la misma población, y como tenemos
las proporciones de la población total, las utilizamos para calcular los valores esperados:
Se
Recuperan
No se
recuperanTotal
Grupo A
(utilizando el suero)
140
200· 100 = 70 30 100
Grupo B
(sin suero)70 30 100
Total 140 60 200
Obtendremos un valor de 2= 2.38.
Analicemos las posibilidades que nos plantea el enunciado teniendo en cuenta que
tenemos 1 grado de libertad:
a. p=0.01 aceptamos H0, es decir, el suero no es efectivo.
b. p=0.05 aceptamos H0, es decir, el suero no es efectivo.
c. p=0.10 aceptamos H0, es decir, el suero no es efectivo.
d.2 1.93Yates , seguimos aceptando H0.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 239
En todos los casos encontramos que a pesar de que a la vista de la tabla original
parecía que el suero podría ser efectivo, las diferencias observadas se deben al muestro,
ambas muestras provienen de la misma población, no hay diferencias significativas, etc.
Este problema puede resolverse también mediante un test z de proporciones. Lo
primero que hacemos es calcular las proporciones de cada posibilidad:
=75
100= 0.75
=65
100= 0.65
En este caso la hipótesis nula será que todas las proporciones son iguales P=PA=PB de
manera que:
= = =75 + 65
200= 0.7
Calculamos el erros estándar de la diferencia de las proporciones:
=P(1 P)
N y =
P(1 P)
N SE =
0.7 · 0.3
100+
0.7 · 0.3
100= 0.0648
Con lo que podemos calcular el valor de z:
=(P P ) 0
SE=
0.75 0.65
0.0648= 1.543
Podrás comprobar que 1.5432
=2=2.38.
De esta forma, a la hora de analizar el resultado, debemos atender al intervalo, de
manera que:
p=0.05 si z [-1.96,1.96] H0. Fíjate en que 1.962=3.841=
2crit.
p=0.01 si z [-2.54,2.54] H0. Fíjate en que 2.542=6.66=
2crit.
p=0.10 si z [-1.645,1.645] H0. Fíjate en que 1.6452=2.766=
2crit.
Lo que comprobamos es que la diferencia esté dentro de ese intervalo, por tanto no
será significativa y ambas muestras provienen de la misma población. Es equivalente a hacer
un test de las dos colas.
Veamos ahora qué debemos hacer si lo que queremos comprobar es si el
medicamento produce más mejoría que no tomarlo, esto es, un test de una cola. Para ello
buscamos en la tabla de valores de z, aquellos que dejan por debajo el 95%, el 99% y el 90%
de los valores...
Así:
z95 = 1.645 > 1.543 H0.
9. Cuestionario de Autoevaluación.
240 Fundamentos de Bioestadística
z99 = 2.33 > 1.543 H0.
z90 = 1.28 < 1.543 H1. Al 90% el suero es más efectivo.
Las conclusiones anteriores dependen de lo que estemos dispuestos a arriesgar al
tomar la decisión y poder tomar una decisión errónea.
1. Si los resultados se deben realmente al azar y se toma una decisión de que son
debidos al nuevo fármaco (error tipo I) se puede indicar un medicamente que realmente no
produce ningún efecto.
2. Podemos deducir que el suero no ayuda cuando realmente sí lo hace (error tipo II).
Esta decisión será sumamente importante si hay vidas humanas en juego.
Como hemos visto rechazar H0 al 0.05 utilizando 2
equivale a rechazar H0 con el
test de una cola con un nivel de significación del 0.10 y equivale a rechazar H0 con un test
bilateral al 0.05.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 241
Problema 50
En 360 lanzamientos de un par de dados se observó que en 74 ocasiones entre ambos
dados se sacó la puntuación de siete puntos y 24 veces once puntos. Ensaya la hipótesis de
que el dado esté bien hecho con un nivel de significación del 0.05 en los dos siguientes
casos:
a. Sin corrección de Yates
b. Con corrección de Yates
Solución problema 50
Al tirar un par de datos tendremos 62=36 posibilidades diferentes, de las cuales solo 6
sumarán 7 puntos y solo 2 sumarán 11 puntos, de manera que:
=6
36=
1
6
=2
36=
1
18
De manera que:
Observados Esperados
7 puntos 74 (360/6) = 60
11 puntos 24 (360/18) = 20
Para p=0.05 y un grado de libertad, obtenemos un valor de 2
crit = 3.84, de manera
que:
a.2
= 4.07 > 3.84 rechazamos H0, el dado está mal hecho o lo han trucado.
b.2
Yates =3.65 < 3.84 aceptamos H0, el dado está bien hecho.
9. Cuestionario de Autoevaluación.
242 Fundamentos de Bioestadística
Problema 51
Una encuesta sobre 320 familias con 5 niños dio la distribución que aparece en la
tabla adjunta. ¿Este resultado es consistente con la hipótesis de que el nacimiento de varón y
hembra son igualmente probables? Razónalo con un nivel de significación del 5% y del 1%,
para que compruebes que las conclusiones que se obtienen son contradictorias.
Número de
niños y niñas
5 niños
0 niñas
4 niños
1 niña
3 niños
2 niñas
2 niños
3 niñas
1 niño
4 niñas
0 niños
5 niñasTotal
Número de
familias18 56 110 88 40 8 320
Solución problema 51
Este problema es equivalente al problema 45, lo que pasa es que ahora no son
familias con 4 hijos sino de 5, lo que complica su resolución calculando las diferentes
posibilidades a mano como lo hacíamos en dicho problema.
Por tanto, lo más adecuado en este caso será aplicar la teoría combinatoria, de manera
que las diferentes posibilidades vendrán dadas por cada uno de los términos del desarrollo:
( + ) = ·
En nuestro caso:
5· = + 5 + 10 + 10 + 5 +
donde =!
!( )!siendo k!=k·(k-1)·(k-2)·(k-3)·····1
En nuestro caso tanto p como q valen 0.5. Tomando cada uno de los términos del
desarrollo, podremos calcular las probabilidades como 1/32, 5/32, 10/32, 10/32, 5/32 y 1/32
Podemos, ahora, construir la tabla con los valores esperados:
Nº hijos/as oi ei
5-0 18 10
4-1 56 50
3-2 110 100
2-3 88 100
1-4 40 50
0-5 8 10
Total 320
De manera que haciendo los cálculos podemos deducir que 2= 12.0. Por tanto, se
rechaza H0 al 95% (2
crit= 11.07, = 5) pero no al 99% (2
crit= 15.086, = 5), por lo que las
diferencias observadas son probablemente significativas y el nacimiento de varón y hembra
no son probablemente iguales en este caso.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 243
Problema 52
En la tabla se indican los estudiantes aprobados y suspendidos por tres profesores de
la Facultad de Medicina de Albacete. ¿Suspenden por igual estos tres profesores? Razónalo
con un nivel de significación del 5% y del 10%, para que compruebes que las conclusiones
que se obtienen son contradictorias.
Profesor
A
Profesor
B
Profesor
CTotal
Aprobados 50 47 56 153
Suspensos 5 14 8 27
Total 55 61 64 180
Solución problema 52
Suponemos que todas las muestras provienen de la misma población y calculamos los
valores esperados con las proporciones de la muestra suma de las tres:
Profesor
A
Profesor
B
Profesor
CTotal
Aprobados 46.75 51.85 54.40 153
Suspensos 8.25 9.15 9.60 27
Total 55 61 64 180
Obtendremos un valor de 2= 4.84, no rechazamos H0 al nivel del 0.05 (
2crit= 5.991,
= 2; pero sí podemos rechazarla al nivel del 0.10 (2crit= 4.605, = 2) si estamos
dispuestos a correr el riesgo de equivocarnos un 10%. En este caso el profesor B suspende (o
sus alumnos suspenden) más que los otros dos:
Psusp(B) = 0.23 > Psusp(C) = 0.13 > Psusp(A) = 0.09
9. Cuestionario de Autoevaluación.
244 Fundamentos de Bioestadística
Problema 53
Los manatíes son enormes criaturas marinas que viven en el Caribe y son muy
abundantes en las costas de Florida, en los Estados Unidos. Las lanchas motoras son unos de
los principales enemigos de estos amables mamíferos, porque con sus hélices les ocasionan
profundos cortes en su velluda piel de varios centímetros de grosor que pueden llegan a
producirles la muerte. En la siguiente tabla aparecen las lanchas motoras registradas en el
Departamento de Marina de Florida y el número de vacas marinas muertas por dichos barcos
entre 1977 y 1990.
AñoLanchas
(en miles)
Manatíes
muertos
1977 447 13
1978 460 21
1979 481 24
1980 498 16
1981 513 24
1982 512 20
1983 526 15
1984 559 34
1985 585 33
1986 614 33
1987 645 39
1988 675 43
1989 711 50
1990 719 47
a. Haz una gráfica de esto datos. Dibuja un diagrama de dispersión, también
conocido como diagrama X-Y, colocado las lanchas en el eje X y los
manatíes en el eje Y. ¿Hay alguna relación entre estas dos variables?
b. Calcula la recta de ajuste por mínimos cuadrados a estos 14 datos: obtén su
pendiente, su ordenada en el origen y el coeficiente de correlación.
c. Dibuja dicha recta sobre el primer gráfico que obtuviste.
d. Predice el número de sirénidos que morirán debido a las lanchas en un año en
el que haya 716000 registradas en Florida.
e. Conseguimos los datos de cuatro años más.
Año Lanchas
(en miles)
Manatíes
muertos
1991 716 53
1992 716 38
1993 716 35
1994 735 49
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 245
Añade estos cuatro puntos al diagrama X-Y primero que obtuviste. Las autoridades
del estado de Florida elaboraron leyes muy rigurosas para intentar proteger a las vacas
marinas durante estos cuatro años. ¿Encuentras alguna evidencia de que estas medidas han
tenido éxito?
f. En el apartado d) se ha predicho el número de manatíes muertos cuando había
716000 barcos. En los últimos datos proporcionados tenemos 3 años con
716000 barcos. Compara las vacas marinas fallecidas en estos tres años y la
predicción del apartado d). ¿Qué grado de precisión tiene esa predicción, es
ajustada?
g. Calcula la recta de ajuste por mínimos cuadrados a estos 18 datos: obtén su
pendiente, su ordenada en el origen y el coeficiente de correlación.
h. Dibuja dicha recta sobre el gráfico que obtuviste antes.
i. Predice el número de manatíes que morirán debido a las lanchas en un año en
el que haya 716000 registradas en Florida.
j. Calcula los errores de predicción para cada uno de los 18 puntos. Hay uno que
sobresale por su gran valor. Identifícalo. Represéntalos gráficamente.
k. Queremos predecir un intervalo de confianza del 95% y un intervalo de
predicción para los manatíes muertos por las 716000 lanchas.
l. El intervalo de predicción al 95% anterior es bastante grande. Si
consideramos un intervalo de confianza del 90% obtendremos un margen de
error más pequeño. Calcula con un intervalo de confianza del 90% el número
de sirénidos cuando hay 700000 lanchas.
Solución problema 53
Para la resolución de este problema te recomendamos que utilices Excel. Genera una
tabla con los datos y podrás ir completando los diferentes apartados de manera sencilla.
Veamos cómo:
Parece que hay una dependencia lineal entre ambas variables.
0
10
20
30
40
50
60
400 500 600 700 800
Ma
na
tíe
s m
ue
rto
s
Lanchas (en miles)
Manatíes de Florida
9. Cuestionario de Autoevaluación.
246 Fundamentos de Bioestadística
Para que Excel agregue la línea de tendencia, o la recta de ajuste, debemos hacer clic
con el ratón con el botón derecho sobre uno de los puntos de la serie. Elegiremos ajuste
lineal y las dos últimas opciones: mostrar ecuación de la recta y R2. Así podremos ver que la
pendiente vale 0.1249 y la ordenada en el origen -41.4304; la correlación será 0.9415
(R2=0.8864). Se podrían implementar las fórmulas de los coeficientes, pero así es más
sencillo, ¿no?
Parece que las medidas puestas en marcha han tenido éxito, de los 4 años 3 valores
están por debajo de la recta de ajuste.
La media de estos 3 años es 42 y nosotros predecimos, utilizando la recta de
regresión, 48, por lo que hemos hecho una sobreestimación de un 14%.
Con los nuevos datos podremos calcular la nueva recta de regresión, que resulta tener
una pendiente igual a 0.1127, ordenada en el origen = -35.179 y correlación= 0.9127.
Podemos predecir ahora, 46 manatíes muertos.
No se resuelven todas los apartados, es sencillo con Excel.
y = 0,1249x - 41,43
R² = 0,8864
0
10
20
30
40
50
60
400 450 500 550 600 650 700 750
Ma
na
tíe
s m
ue
rto
s
Lanchas (miles)
Manatíes de Florida
0
10
20
30
40
50
60
70
400 500 600 700 800
Ma
na
tíe
s m
ue
rto
s
Lanchas (en miles)
Manatíes de Florida
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 247
Problema 54
En una muestra de 1000 personas de la ciudad de Albacete, 25 de ellas padecen asma.
Si la ciudad de Albacete tiene 140000 habitantes ¿Cuántos de ellos padecen asma
considerando un intervalo de confianza del 95%?
a. Exactamente 3500 personas.
b. Entre 958 y 9580 personas.
c. Entre 1138 y 6758 personas.
d. Entre 2145 y 4854 personas.
e. No hay datos suficientes para hacer la estimación.
Solución problema 54
De los 1000 individuos de la muestra, solo 25 tienen asma, por lo que la proporción
será de 0.025. Podemos calcular el error estándar de la proporción:
=P(1 P)
N=
0.025 · 0.975
1000= 4.937 · 10
Así, sabemos que P 1.96·SEprop = P 1.96 · 4.937·10-3
= 0.025 9.677·10-3
[0.0153, 0.0347] por lo que como tenemos 140000 habitantes, el número de
afectados estará en el intervalo [2142, 4858] con p=0.05.
9. Cuestionario de Autoevaluación.
248 Fundamentos de Bioestadística
Problema 55
Para tratar una determinada enfermedad mortal se prueban dos tratamientos
alternativos (A y B) sobre una muestra de ratones enfermos N = 200. Los resultados
obtenidos con ambos tratamientos son los siguientes:
Tratamiento
Grado de éxito
A B Total
Mejoría 50 80 130
Muerte 20 50 70
Total 70 130 200
Los resultados parecen indicar que el tratamiento A es más eficaz. Pero ¿qué grado
de significación estadística tiene la diferencia observada entre los éxitos de ambos
tratamientos?
a. 0.10
b. 0.05
c. 0.01
d. 0.001
e. Ninguna de las anteriores.
Solución problema 55
Este es similar a otros tantos que hemos hecho, calculamos los valores esperados a
partir de las proporciones de la muestra total:
Tratamiento (esperados)
Grado de éxito
A B Total
Mejoría 45.5 84.5 130
Muerte 24.5 45.5 70
Total 70 130 200
Calculamos 2
= 1.9563 y buscamos en las tablas:
p 0.99 0.95
Nuestro
valor de 2
0.10 0.05 0.01 0.001
2crit 0.000157 0.00393 1.9563 2.706 3.841 6.635 10.827
De las opciones posibles, nuestro valor de 2
no cumple ninguna condición, por lo
que la diferencia no es significativa... salvo para p=0.95, así que "ninguna de las respuestas
anteriores es correcta".
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 249
Problema 56
De las siguientes rectas, ¿cuál(es) NO puede(n) corresponder a una línea de tendencia
ajustada a un conjunto de datos tipificados (zX, zY)?
a. zY = +0.98 zX
b. zY = 0.02 zX
c. zY = 1.2 0.63 zX
d. zY = +1.6 zX
e. c y d) son correctas.
Solución problema 56
Para los valores tipificados, la recta que mejor se ajusta pasa por el origen de
coordenadas, así que no puede tener término independiente (la opción c no es correcta). La
pendiente está comprendida entre los valores +1 y -1 (por lo que la respuesta d tampoco es
correcta). Como piden las que NO pueden ser, la respuesta correcta es la e.
9. Cuestionario de Autoevaluación.
250 Fundamentos de Bioestadística
Problema 57
Se sospecha que la distancia de la Facultad al domicilio particular puede influir en la
asistencia de los alumnos a las clases de primera hora de la mañana. En una muestra N = 100
se observa un coeficiente de correlación r = +0.8 entre la distancia al domicilio particular y
el número de faltas de asistencia a dichas clases. ¿Qué indica este resultado?
a. Que la distancia al domicilio es la causa de que el 80% de los alumnos falten
al menos una vez a las clases de primera hora.
b. Que la distancia al domicilio es la causa de que los alumnos falten a un 80%
de las clases de primera hora.
c. Que cuanto mayor sea la distancia del domicilio a la Facultad, menor es el
número de faltas de asistencia a las clases de primera hora.
d. Que para reducir las faltas asistenciales a las clases de primera hora, habría
que iniciar las clases más tarde.
e. Ninguna de las respuestas anteriores es correcta, ya que un alumno puede
faltar a las clases de primera hora por otras muchas causas.
Solución problema 57
El hecho de obtener un valor de r alto no implica que haya dependencia, así la
respuesta correcta es la e.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 251
Problema 58
¿Cuál de las siguientes afirmaciones es CORRECTA?
a. No existen restricciones al uso de la prueba 2
para todo tipo de tablas de
contingencia 2 2.
b. El coeficiente de correlación de Pearson sólo puede calcularse a partir de los
datos tipificados.
c. La pendiente de la recta regresión de los valores originales es el coeficiente de
correlación de Pearson.
d. La pendiente de la recta de regresión puede ser mayor que +1.
e. La pendiente de la recta de regresión no puede ser igual a cero.
Solución problema 58
La a es incorrecta, porque hemos visto en teoría que sí hay limitaciones. La b también
porque hemos visto que podemos calcular la correlación con los datos de origen, que sea
fácil es otra cosa. La c es falsa porque esto solo es cierto cuando se parte de los valores
tipificados. La correcta es la d porque no indica que estemos hablando de los datos
tipificados. Por último la e es falsa porque sí podemos tener un valor de pendiente igual a
cero.
9. Cuestionario de Autoevaluación.
252 Fundamentos de Bioestadística
Problema 59
En una muestra N = 2000 de ciudadanos españoles con edades comprendidas entre 18
y 85 años, 1300 de ellos padecen alguna dolencia de espalda. Si en España hay 38 millones
de habitantes ¿Cuántos de ellos padecen problemas de espalda considerando un intervalo de
confianza del 95%?
a. Exactamente 24.7 millones de españoles.
b. Aproximadamente entre 18.9 y 20.5 millones de españoles.
c. Aproximadamente entre 23.7 y 25.7 millones de españoles.
d. Exactamente entre 21.3 y 23.3 millones de españoles.
e. No es posible hacer la estimación por falta de datos.
Solución problema 59
El enunciado habla de ciudadanos de entre 18 y 85 años, la pregunta es sobre
TODOS los españoles, por tanto no partimos de una muestra significativa, así que la
respuesta correcta es la "e" puesto que no podemos hacer la estimación.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 253
Problema 60
¿Cuál de las siguientes afirmaciones respecto a la prueba 2
es CIERTA?
a. Es una prueba paramétrica.
b. Puede aplicarse sin riesgo a muestras pequeñas (N < 20).
c. Puede aplicarse sin correcciones a muestras N < 100.
d. Sirve para comparar proporciones.
e. Sólo puede aplicarse a tablas de contingencia 2x2.
Solución problema 60
La opción CIERTA es la opción "d", el resto son falsas.
9. Cuestionario de Autoevaluación.
254 Fundamentos de Bioestadística
Problema 61
El coeficiente de correlación de Pearson entre dos variables A y B es r = 0.9. ¿Qué
podemos concluir de este resultado?
a. Nada, a menos que tengamos una hipótesis a priori que relacione A y B.
b. Que un aumento en la variable A causa una disminución importante en la
variable B.
c. Que un aumento de la variable A causa un aumento moderado en la variable
B.
d. Que A y B están claramente relacionadas, pero no podemos especificar cómo.
e. Que no existe ningún tipo de relación entre las variables A y B.
Solución problema 61
La respuesta correcta es la a.
9. Cuestionario de Autoevaluación.
Fundamentos de Bioestadística 255
Problema 62
¿Qué es el error de predicción?
a. El error cometido al estimar los coeficientes a y b de la línea de predicción
para la muestra.
b. El error cometido al estimar los parámetros y de la línea de predicción
para la población.
c. La diferencia entre el valor observado y el valor estimado por la línea de
predicción.
d. La diferencia entre los coeficientes de las rectas de regresión de la población
y la muestra.
e. Ninguna de las respuestas anteriores es correcta.
Solución problema 62
La respuesta correcta es la c.
9. Cuestionario de Autoevaluación.
256 Fundamentos de Bioestadística
Problema 63
¿Cuál de las siguientes parejas de elementos relacionados es INCORRECTA?
a. Correlación, Coeficiente de correlación de Pearson.
b. Regresión, Variables tipificadas.
c. Partición de la varianza, r2.
d. Diagrama de dispersión, Relación entre dos variables.
e. Regresión, Predicción.
Solución problema 63
La respuesta correcta es la b.
257
Bibliografía
Bibliografía
Fundamentos de Bioestadística 259
Bibliografía
Para la elaboración de estos apuntes se han consultado los siguientes textos:
[1] Rius Diaz, F y Barón López, F. “Bioestadística.” (Thomson Paraninfo, Madrid). 2005.
[2] Sentis, J, Pardell, H, Cobo, E y Canela, J. “Manual de Bioestadística”. (Mason. 3ª
Edición, Barcelona). 2003.
[3] Rowntree, D. “Statistics without tears: A primer for non-mathematicians”. (Penguin
Books, London). 1981.
[4] Norman, G.R. y Streiner, D.L. “Bioestadística”. (Harcourt Brace, Madrid). 1998.
[5] Galindo Villardón, P. “Exposición intuitiva de métodos estadísticos: Fundamentos y
aplicaciones a la Biología, Medicina y otras enseñanzas”. (Universidad de Salamanca,
Salamanca). 1984.
[6] López-Poveda, Enrique A. “Fundamentos de Estadística”. (Popular Libros S.L.,
Albacete). 200217
.
[7] Armitage, P y Berry, G. “Estadística para la investigación biomédica”. (Harcourt Brace.
3º Edición, Madrid). 1997.
[8] Castillo, E y Pruneda, R.E. “Estadística aplicada”. (Editorial Moraleda, Santander). 2001.
[9] Moud, R.F. “Introductory medical statistics”. (IOP Publishing Ltd. 3ª Edición, Bristol).
1998.
17El Dr. Enrique A. López Poveda fue responsable de la docencia de Bioestadística en la Facultad de
Medicina de Albacete desde 1998 a 2003. Estos apuntes son la evolución de sus apuntes originales y que se
publicaron en 2002 por Popular Libros.
Recommended