Aacap 14 Metodos No Parametricos

7/31/2019 Aacap 14 Metodos No Parametricos

http://slidepdf.com/reader/full/aacap-14-metodos-no-parametricos 1/52

MÉTODOS NO

PARAMÉTRICOS

Objetivos

Contenido del capítulo

c a p í t u l o

14

• Probar hipótesis cuando noes posible hacer algunasuposición sobre ladistribución de la cual semuestrea

• Saber qué pruebas sindistribución (no paramétricas)son apropiadas paradiferentes situaciones

• Usar e interpretar cada una delas seis pruebas de hipótesisno paramétricas estándar

• Conocer las ventajas ydesventajas de las pruebas

no paramétricas

14.1 Introducción a la estadísticano paramétrica 622

14.2 Prueba de signo para datospor pares 624

14.3 Pruebas de suma de rangos:prueba U de Mann-Whitneyy prueba de Kruskal-Wallis630

14.4 Prueba de corridas de unasola muestra 640

14.5 Correlación de rango 646

14.6 Prueba de Kolmogorov-Smirnov 655

• Estadística en el trabajo 65

• Ejercicio de base de datoscomputacional 660

• Del libro de texto al mundoreal 661

• Términos introducidos enel capítulo 14 662

• Ecuaciones introducidas en

el capítulo 14 662• Ejercicios de repaso 663

14



Aun cuando el efecto de la contaminación del aire sobre la saludes un problema complejo, una organización internacional ha deci-dido realizar una investigación preliminar de la calidad promedio

del aire todo el año y de la incidencia de enfermedades pulmonares. Unestudio preliminar clasificó 11 de las principales ciudades del mundodesde 1 (peor) hasta 11 (mejor) para estas dos variables.

Los datos de la organización de salud son distintos de los que hemosvisto aquí: no nos proporcionan la variable usada para determinar estasclasificaciones o rangos. (No sabemos si la clasificación de enfermedadespulmonares es un resultado de neumonía, enfisema u otras afeccionespara una población de 100,000.) Tampoco conocemos los valores (si laciudad D tiene el doble de población que la ciudad K o 20 veces más).Si conociéramos las variables y sus valores, podríamos utilizar lastécnicas de regresión del capítulo 12.

Desafortunadamente, no es así; pero aun sin conocer las variables o

valores, podemos utilizar las técnicas de este capítulo para ayudar a laorganización de salud con su problema.

14.1 Introducción a la estadísticano paramétrica

La mayoría de las pruebas de hipótesis analizadas hasta ahora hacen inferencias respecto a los pará-

metros de la población, como la media y la proporción. Estas pruebas paramétricas usan la estadís-tica paramétrica de muestras que provinieron de la población que se está probando. Para formularestas pruebas, hicimos suposiciones restrictivas sobre las poblaciones de las que extraíamos nuestras

muestras. En cada caso visto en los capítulos 8 y 9, por ejemplo, supusimos que nuestras muestras erangrandes o provenían de poblaciones con distribución normal. Pero las poblaciones no siempre sonnormales. Incluso cuando una prueba de bondad de ajuste (capítulo 11) indica que una población esaproximadamente normal, no siempre podemos estar seguros de que es correcto, porque la pruebano es 100% confiable. Claramente, existen ciertas situaciones en las que el uso de la curva normal noes apropiado. Para estos casos, requerimos alternativas a la estadística paramétrica y a las pruebas dehipótesis específicas que hemos estado utilizando hasta ahora.

Por fortuna, recientemente los estadísticos han desarrollado técnicas útiles que no hacen suposi-ciones restrictivas respecto a la forma de las distribuciones de población. Éstas se conocen comopruebas sin distribución o, más comúnmente, pruebas no paramétricas. Las hipótesis de una prue-ba no paramétrica se refieren a algo distinto del valor de un parámetro de población. Existe un grannúmero de pruebas de este tipo, pero este capítulo examinará sólo algunas de las más conocidas ymás utilizadas:

1. La prueba de signo para datos por pares, en la que los signos positivo o negativo sustituyen alos valores cuantitativos.

2. Una prueba de suma de rangos, a menudo llamada la prueba U de Mann-Whitney, que puedeusarse para determinar si dos muestras independientes se sacaron de la misma población. Usamás información que la prueba de signo.

Estadística no

paramétrica

Estadística

paramétrica

Limitaciones de

la estadísticaparamétrica

CiudadA B C D E F G H I J K

Clasificación de la calidad del aire 4 7 9 1 2 10 3 5 6 8 11

Clasi ficación de enfermedades pulmonares 5 4 7 3 1 11 2 10 8 6 9



3. Otra prueba de suma de rangos, la prueba Kruskal-Wallis, que generaliza el análisis dza estudiado en el capítulo 11 para poder prescindir de la suposición de que las poblacnen distribución normal.

4. La prueba de corridas de una sola muestra, un método para determinar la aleatoriedque se han seleccionado los elementos muestreados.

5. Correlación de rango, un método para hacer el análisis de correlación cuando no se dilos datos para usar la forma numérica, pero cuando la información es suficiente para clasdatos como primero, segundo, tercero, etcétera.

6. La prueba de Kolmogorov-Smirnov, otro método para determinar la bondad de ajuste muestra observada y una distribución de probabilidad teórica.

Ventajas de los métodos no paramétricos

Los métodos no paramétricos tienen ciertas ventajas claras sobre los métodos paramétricos

1. No requieren la suposición de que una población está distribuida en forma de cumal u otra forma específica.

2. Generalmente, es más sencillo realizarlas y entenderlas. La mayor parte de las prparamétricas no exigen el tipo de cálculos laboriosos a menudo necesarios, por ejemcalcular una desviación estándar. Una prueba no paramétrica nos puede pedir reemplares numéricos con el orden en el que aparecen en una lista, como se ha hecho en la ta

Obviamente, en términos de cálculos, manejar 1, 2, 3, 4 y 5 requiere menos esfuerzobajar con 13.33, 76.50, 101.79, 113.45 y 189.42.3. Algunas veces ni siquiera se requiere un ordenamiento o clasificación formal. Mu

ces, lo único que podemos hacer es describir un resultado como “mejor” que otro. Cuarre esto, o cuando nuestras mediciones no son tan exactas como es necesario para lasparamétricas, podemos usar métodos no paramétricos.

Desventajas de los métodos no paramétricos

Dos desventajas acompañan al uso de pruebas no paramétricas:

1. Ignoran cierta cantidad de información. Hemos mostrado cómo los valores 1, 2, 3, 4

den reemplazar a los números 13.33, 76.50, 101.79, 113.45 y 189.42. Sin embargo,sentamos “189.42” por “5” perdemos información contenida en el valor 189.42. Obsen nuestro ordenamiento de los números 13.33, 76.50, 101.79, 113.45 y 189.42,189.42 puede convertirse en 1,189.42 y seguir siendo el quinto de la lista o el de mayor vro si esta lista es un conjunto de datos, tendremos un conocimiento mayor si sabemvalor más alto es 1,189.42, en vez de 189.42, de lo que sabríamos al representar amboscon 5.

2. A menudo no son tan eficientes o “claras” como las pruebas paramétricas. La esde un intervalo a un nivel de confianza del 95% usando una prueba no paramétrica pner el doble de tamaño que la estimación con una prueba paramétrica como las de lolos 8 y 9. Cuando usamo pruebas no paramétricas hacemos un trueque: perdemos agla estimación de intervalos, pero ganamos la posibilidad de usar menos informaciónlar con mayor rapidez.

Limitaciones de los

métodos no

paramétricos

Ventajas de los

métodos no

paramétricos

Conversión de valoresparamétricos a rangosno paramétricos

Tabla 14-1

Valor paramétrico 113.45 189.42 76.50 13.33

Valor no paramétrico 4 5 2 1





pleto o secciones pequeñas con ayudantes de posgrado. La tabla 14-2 enumera las respuestpetición: “Califique la efectividad de transmisión de conocimientos de estos dos tipos de clanándo un número de 4 a 1. La calificación de 4 es excelente y el 1 es mala.” En este caso,de signo nos puede ayudar a determinar si los estudiantes sienten que hay una diferenciaefectividad de los dos tipos de clases.

Podemos comenzar, como en la tabla 14-2, convirtiendo las evaluaciones de los dos méenseñanza en signos. Aquí, un signo más significa que el estudiante prefiere las conferencdes; un signo menos indica una preferencia por secciones pequeñas, y un cero representa ute (sin preferencia). Si contamos el último renglón de la tabla 14-2, obtenemos lo siguiente

Número de signos ϩ 19Número de signos Ϫ 11Número de ceros 10

Tamaño total de muestra 4 ෆ0 ෆ

Establecimiento de las hipótesis

Estamos usando la prueba de signo para determinar si nuestro panel percibe una diferencia rlos dos tipos de clases. Puesto que estamos probando diferencias percibidas, excluiremos laciones empatadas (0). Vemos que hay 19 signos más y 11 signos menos, para un total de 30 reutilizables. Si no hay diferencia entre los dos tipos de clases, p (la probabilidad de que la pri

lificación exceda a la segunda) sería 0.5, y esperaríamos obtener aproximadamente 15 sign15 signos menos. Estableceríamos nuestras hipótesis de la siguiente manera:

H0: p ϭ 0.5← Hipótesis nula: no hay diferencia entre los dos tipos de clases

H1: p 0.5← Hipótesis alternativa: hay diferencia entre los dos tipos de clases

Si observa con cuidado las hipótesis, notará que la situación es parecida al lanzamiento ddas que analizamos en el capítulo 4. Si lanzáramos al aire una moneda no cargada 30 vece0.5, y esperaríamos aproximadamente 15 caras y 15 cruces. En ese caso, utilizaríamos lación binomial como la distribución de muestreo apropiada. Tal vez también recuerde que cy nq son cada una al menos 5, podemos utilizar la distribución normal para aproximar a la bÉste es precisamente el caso con los resultados de nuestro panel de estudiantes. Así, podem

car la distribución normal a nuestra prueba de los dos métodos de enseñanza. pH0

ϭ 0.5 ← Proporción hipotética de la población que prefiere las conferencias para todos

qH0ϭ 0.5 ← Proporción hipotética de la población que piensa que prefiere secciones pequeñas (q H0 ϭ 1

q n ϭ 30 ← Tamaño de muestra

q p ෆ ϭ 0.633 ← Proporción de éxitos en la muestra (19/30)

q q ෆ ϭ 0.367 ← Proporción de fracasos en la muestra (11/30)

Prueba de una hipótesis de que no hay diferencia

Suponga que la oficina del rector desea probar la hipótesis de que no hay diferencia en lación del estudiante entre los dos tipos de clases al nivel de significancia de 0.05. HaremCálculo del errorestándar

Planteamiento del

problema en

símbolos

Selección de la

distribución

Búsqueda del tamaño

de muestra

Conversión de valores

a signos

17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 3

1 2 2 4 4 4 4 3 3 2 3 4 3 4 3 1 4 3 2 2 2 1

3 2 3 3 1 4 3 3 2 2 1 1 1 3 2 2 4 4 3 3 1 1

Ϫ 0 Ϫ ϩ ϩ 0 ϩ 0 ϩ 0 ϩ ϩ ϩ ϩ ϩ Ϫ 0 Ϫ Ϫ Ϫ ϩ 0



prueba usando los métodos del capítulo 8. El primer paso es calcular el error estándar deporción:

p ෆϭ Ί

ϭ Ί

ϭ 0 ෆ.0 ෆ 0 ෆ8 ෆ3 ෆ3 ෆ

ϭ 0.091← Error estándar de la proporción

Como queremos saber si la proporción verdadera es mayor o menor que la proporción ca, se trata de una prueba de dos colas. La figura 14-1 ilustra esta prueba de hipótesis. Las dnes sombreadas representan el nivel de significancia de 0.05.

Ahora usaremos la ecuación 6-2 para estandarizar la proporción de la muestra, p ෆ, restanla proporción hipotética, y dividiendo entre P ෆ, el error estándar de la proporción.

z ϭ

ϭ

ϭ 1.462

Al colocar este valor estándar, 1.462, en la escala z se ve que la proporción de la muestcuentra dentro de la región de aceptación, como se ilustra en la figura 14-2. Por tanto, el rebe aceptar la hipótesis nula de que los estudiantes no perciben diferencia entre los dos tipos

Interpretación de los

resultados

0.633 – 0.5ᎏᎏ

0.091

p ෆ Ϫ pH0

ᎏ

p ෆ

Representación

gráfica de la prueba

(0.5)(0.5)ᎏᎏ

30

pqᎏ

n

FIGURA 14-1

Prueba de hipóte-sis de dos colas de

una proporción alnivel de significan-cia de 0.05

0.025 del área

Valor crítico

z = -1.96

Valor crítico

z = +1.96

0.475 del área 0.475 del área

0.025 del área

0

FIGURA 14-2

Prueba de hipóte-sis de dos colasal nivel de signifi-cancia de 0.05;ilustra la regiónde aceptación yla proporciónestandarizada dela muestra Proporción

estandarizadade la muestra

Región de aceptaciónAcepte la hipótesis nula si el valor

de la muestra está en esta región

-1.96 1.961.4620



Una prueba de signo como ésta es bastante sencilla y se aplica para pruebas de una y de dos clas. Por lo general se basa en la distribución binomial. Sin embargo, recuerde que fue posible usaraproximación normal a la binomial como distribución de la muestra porque np y nq eran mayoreiguales que 5. Cuando estas condiciones no se cumplen, debemos usar la distribución binomial.

Las pruebas no paramétricas son muyconvenientes cuando el mundo real pre-senta datos sin una distribución, con loscuales debe tomarse una decisión. Suge-

rencia: observe que la prueba de signo es sólo otra aplicación de la familiar aproximación normal a la binomial, quusa los signos ϩ y Ϫ en lugar de “éxitos” y “fracasos”.

SUGERENCIAS

Y

SUPOSICIONES

Ejercicios 14.2

Ejercicios de autoevaluación

EA 14-1 Los siguientes datos muestran los índices de trabajo defectuoso de los empleados antes y después de cambio en el plan de incentivos al salario. Compare los dos conjuntos de datos siguientes para ver si el cabio disminuyó las unidades defectuosas producidas. Utilice el nivel de significancia de 0.10.

Antes 8 7 6 9 7 10 8 6 5 8 10 8

Después 6 5 8 6 9 8 10 7 5 6 9 8

EA 14-2 Después de recolectar datos de la cantidad de contaminación del aire en Los Ángeles, la Agencia de Ptección Ambiental (APA) decidió emitir nuevas reglas estrictas para controlar la cantidad de hidrocarbros en el aire. Para el año siguiente, tomó mediciones mensuales de este contaminante y las comparó clas mediciones del año anterior para los meses correspondientes. Con base en los siguientes datos, ¿tiela APA suficiente evidencia para concluir con un 95% de confianza que las nuevas reglas fueron efectivpara disminuir la cantidad de hidrocarburos en el aire? Para justificar estas leyes para otro año, debe cocluir, con ␣ ϭ 0.10, que son efectivas. ¿Seguirán vigentes estas leyes el año siguiente?

Año anterior* Este año

Ene. 7.0 5.3

Feb. 6.0 6.1

Mar. 5.4 5.6Abr. 5.9 5.7

May. 3.9 3.7

Jun. 5.7 4.7

Jul. 6.9 6.1

Ago. 7.6 7.2

Sep. 6.3 6.4

Oct. 5.8 5.7

Nov. 5.1 4.9

Dic. 5.9 5.8

*Medidos en partes por millón

Aplicaciones■ 14-7 Los siguientes datos muestran los niveles de satisfacción de los empleados (como porcentaje) antes y d

pués de que una empresa más grande compró a su compañía. ¿La compra aumentó la satisfacción de empleados? Use un nivel de significancia de 0.05.

Antes 98.4 96.6 82.4 96.3 75.4 82.6 81.6 91.4 90.4 9

Después 82.4 95.4 94.2 97.3 77.5 82.5 81.6 84.5 89.4 9



■ 14-8 Use la prueba de los signos para ver si hay una diferencia entre el número de días requeridos pauna cuenta por cobrar antes y después de una nueva política de cobro. Use el nivel de significancia

Antes 33 36 41 32 39 47 34 29 32 34 40 42 33

Después 35 29 38 34 37 47 36 32 30 34 41 38 37

■ 14-9 Un taller de reparación para motores de avionetas cambió el método de pago de salario por horapor hora más un bono calculado sobre el tiempo requerido para desmontar, reparar y volver a eun motor. Los siguientes son datos recabados para 25 motores antes del cambio y 25 después. Ade significancia de 0.10, ¿el nuevo plan incrementó la productividad?

Horas requeridas Horas requeridasAntes Después Antes Después

29 32 25 34

34 19 42 27

32 22 20 26

19 21 25 25

31 20 33 31

22 24 34 19

28 25 20 22

31 31 21 32

32 18 22 31

44 22 45 30

41 24 43 29

23 26 31 20

34 41

■ 14-10 Debido a la severidad de los inviernos recientes, se ha dicho que la Tierra progresa lentamente hera glacial. Sin embargo, algunos científicos tienen otros puntos de vista, porque los veranos tamtraído temperaturas extremas. Un científico sugirió examinar la temperatura media de cada messi era menor que la del año anterior. Otro miembro del servicio meteorológico gubernamental arque tal vez debían revisar también las temperaturas de los meses de primavera y otoño por lo mlos últimos dos años, de forma que las conclusiones no sólo se basaran en las temperaturas extresta manera, dijo, podrían detectar la posibilidad de una tendencia general de calentamiento o ento o sólo temperaturas extremas en los meses de verano e invierno. Se seleccionaron al azar 15 f

primavera y otoño, y se anotaron las temperaturas de los últimos dos años para un lugar partitemperaturas generalmente moderadas. A continuación se dan las fechas y temperaturas correstes a 1994 y 1995.a) ¿Es correcto el razonamiento del meteorólogo como método de evaluación? Explique su reb) Usando la prueba de los signos, determine si el meteorólogo puede concluir, con ␣ ϭ 0.05,

fue más frío que 1994 con base en estos datos.

Temperatura (Fahrenheit)

Fecha 1994 1995 Fecha 1994 1995

Mar. 29 58 57 Oct. 12 54 48

Abr. 4 45 70 May 31 74 79

Abr. 13 56 46 Sept. 28 69 60May. 22 75 67 Jun. 5 80 74

Oct. 1 52 60 Jun. 17 82 79

Mar. 23 49 47 Oct. 5 59 72

Nov. 12 48 45 Nov. 28 50 50

Sept. 30 67 71

■ 14-11 Preocupados por la exposición a la radiación y su relación con la incidencia de cáncer, los espambientales urbanos mantienen una estrecha vigilancia sobre el tipo de industria que llega al áreado en el que usan radiación en su producción. Se ha desarrollado un índice de exposición a la coción radiactiva y se utiliza todos los días para determinar si los niveles están aumentando o son mpara ciertas condiciones atmosféricas.



Los ambientalistas afirman que la contaminación radiactiva se ha incrementado en el últimbido a las nuevas industrias en la ciudad. Sin embargo, los administradores de la ciudad afirmnuevo reglamento más estricto sobre la industria en el área ha bajado los niveles respecto al añoaun con la nueva industria que usa radiación. Para probar su afirmación, se verificaron registros daleatorios y se anotó el índice de exposición a la contaminación radiactiva. Se obtuvieron los sresultados:

Índice de exposición a la radiación

1994 1.402 1.401 1.400 1.404 1.395 1.402 1.406 1.401 1.404 1.406

1995 1.440 1.395 1.398 1.404 1.393 1.400 1.401 1.402 1.400 1.403

¿Pueden los administradores concluir, para ␣ ϭ 0.15, que los niveles de contaminación radiacambiado o, más específicamente, que se han reducido?

■ 14-12 Como parte del reciente interés en el crecimiento de la población y el tamaño de las familias, utigadora demográfica examinó cierto número de hipótesis referentes al tamaño de familia quepersonas consideran como ideal. Sospechaba que las variables de raza, edad y educación podrcar los distintos puntos de vista. En una muestra piloto, la investigadora probó la hipótesis de qu jeres actuales piensan que la familia ideal debe ser de tamaño menor que la que sus madres conideal. Le pidió a cada participante del estudio piloto que estableciera el número de hijos que ener o que consideraba ideal. Las respuestas fueron anónimas, para evitar la posibilidad de que lsintiera obligada a dar una respuesta socialmente deseable. Además, la muestra incluyó personatintos antecedentes. Las siguientes son las respuestas de las parejas madre-hija.

Tamaño ideal de familiaPareja muestra A B C D E F G H I J K

Hija 3 4 2 1 5 4 2 2 3 3 1

Madre 4 4 4 3 5 3 3 5 3 2 2

a) ¿Puede la investigadora concluir, con␣ ϭ 0.03, que las madres e hijas no tienen esencialmenmo ideal de tamaño de familia? Use la distribución binomial.

b) Determine si la investigadora podría llegar a la conclusión de que las madres no tienen esenciamismas preferencias de tamaño de familia que sus hijas usando la aproximación normal a la bi

c) Suponga que por cada pareja enumerada, hubo otras 10 parejas que respondieron de maneraCalcule el intervalo de la proporción para el cual la investigadora puede concluir que no haycia entre madres e hijas. ¿Es distinta su conclusión?

d) Explique cualquier diferencia en las conclusiones de los incisos a), b) y c).■ 14-13 Una compañía que vende automóviles usados en todo el país desarrolló un nuevo video para c

su personal de ventas. Los datos presentan los promedios mensuales de ventas de 20 empleadoriodos tanto anteriores como posteriores a la creación del video. ¿Tiene la compañía suficiente para concluir, con el 95% de confianza, que el video fue efectivo para aumentar el número proautos vendidos? Si sólo se considera a los empleados con bajas ventas (menos que un promediotos por mes antes del video), ¿el video aumentó su desempeño de ventas?

Antes 18.4 16.9 17.4 11.6 10.5 12.7 22.3 18.5 17.5 16.4

Después 18.6 16.8 17.3 15.6 19.5 12.6 22.3 16.5 18.0 16.4

Antes 15.9 18.6 23.5 18.7 9.4 16.3 18.5 17.4 11.3 8.4

Después 17.4 18.6 23.5 18.9 15.6 15.4 17.6 17.4 16.5 13.4

Soluciones a los ejercicios de autoevaluación

EA 14-1 Antes 8 7 6 9 7 10 8 6 5 8 10 8

Después 6 5 8 6 9 8 10 7 5 6 9 8

Signo Ϫ Ϫ ϩ Ϫ ϩ Ϫ ϩ ϩ 0 Ϫ Ϫ 0

12 respuestas: 4( ), 6( ), 2(0).

Para n ϭ 10, p ϭ 0.5, la probabilidad de 6 o más signos menos es 0.3770 (tabla 3 del apéndic0.3770 > 0.10, no se puede rechazar H0. El plan de incentivos al salario no baja significativamesas de trabajo defectuoso.



EA 14-2 Antes 7.0 6.0 5.4 5.9 3.9 5.7 6.9 7.6 6.3 5.8 5.1 5.9

Después 5.3 6.1 5.6 5.7 3.7 4.7 6.1 7.2 6.4 5.7 4.9 5.8

Signo Ϫ ϩ ϩ Ϫ Ϫ Ϫ Ϫ Ϫ ϩ Ϫ Ϫ Ϫ

12 respuestas: 3( ), 9( ).

Para n ϭ 12, p ϭ 0.5, la probabilidad de 9 o más signos menos es 0.0729 (tabla 3 del apéndic0.10 Ͼ 0.0729 Ͼ 0.05, no pueden tener una confianza del 95% de que los niveles de hidrocarburbajado, pero pueden concluir, para␣ ϭ 0.10, que las reglas son efectivas. Así, estarán vigentes taño próximo.

14.3 Pruebas de suma de rangos:prueba U de Mann-Whitneyy prueba de Kruskal-Wallis

En el capítulo 11, mostramos cómo usar el análisis de varianza para probar la hipótesis derias medias de población son iguales. Supusimos para esas pruebas que las poblaciones tedistribución normal con varianzas iguales. Muchas veces estas suposiciones no se satisfactonces podemos utilizar dos pruebas no paramétricas; ninguna de ellas depende de las supode normalidad. Estas dos pruebas se llaman pruebas de suma de rangos porque la prueba de

los rangos o clasificaciones de las observaciones de muestra.Las pruebas de suma de rangos son una familia completa de pruebas; nos concentrarem

lo dos miembros de ella: la prueba U de Mann-Whitney y la prueba de Kruskal-Wallis. Usaprueba de Mann-Whitney cuando tengamos sólo dos poblaciones y la prueba de Kruskacuando se trate de más de dos. El uso de estas pruebas nos permitirá determinar si las muestpendientes se obtuvieron de la misma población (o de distintas poblaciones con la misma ción). El uso de la clasificación de la información en lugar de los signos más y menos desmenos datos que la prueba de los signos.

Solución de un problema usando la prueba

U de Mann-WhitneySuponga que la junta directiva de una gran universidad estatal del este de Estados Unidos debar la hipótesis de que las calificaciones promedio en la prueba SAT en dos planteles de la dad son iguales. La junta mantiene estadísticas de todos los estudiantes en todos los planteletema. Una muestra aleatoria de 15 estudiantes de cada plantel produjo los datos que se muela tabla 14-3.

Para aplicar la prueba U de Mann-Whitney a este problema, comenzamos por clasificarficaciones en orden ascendente, indicando junto a cada una el símbolo del plantel, como setabla 14-4.

A continuación, aprendamos los símbolos usados para la prueba U de Mann-Whitney e

texto de este problema:n1 ϭ número de elementos en la muestra 1, es decir, el número de estudiantes del plante

n2 ϭ número de elementos en la muestra 2, es decir, el número de estudiantes del plant

R1ϭ suma de los rangos de los elementos en la muestra 1: la suma de los rangos de todcalificaciones del plantel A de la tabla 14-5

R2ϭ suma de los rangos de los elementos en la muestra 2: la suma de los rangos de todcalificaciones del plantel S de la tabla 14-5

En este caso, tanto n1 como n2 son iguales a 15, pero no es necesario que ambas muesdel mismo tamaño. Ahora, en la tabla 14-5, reproducimos los datos de la tabla 14-3, agreg

Símbolos para expre-

sar el problema

Clasificación de los

elementos que se

van a probar

Se usan según

el número de

poblaciones

involucradas



rangos de la tabla 14-4. Después sumamos los rangos de cada plantel. Como resultado, tenemos dos los valores que necesitamos para solucionar este problema, porque sabemos que

n1 ϭ 15

n2 ϭ 15

R1 ϭ 247

R2 ϭ 218

Cálculo del estadístico U Usando los valores de n1 y n2 y las sumas de rangos R1 y R2, podemos determinar el estadísticouna medida de la diferencia entre las observaciones clasificadas de las dos muestras de calificacnes en el SAT:

Definición del

estadístico U

Calificaciones en el SATde estudiantes en dosplanteles de la universi-dad estatal

Tabla 14-3Plantel A 1,000 1,100 800 750 1,300 950 1,050 1,25

Plantel S 920 1,120 830 1,360 650 725 890 1,60

Plantel A 1,400 850 1,150 1,200 1,500 600 775

Plantel S 900 1,140 1,550 550 1,240 925 500

Calificaciones en el SATclasificadas de menor

a mayor

Tabla 14-4 Rango Calif. Plantel Rango Calif. Plantel

1 500 S 16 1,000 A

2 550 S 17 1,050 A

3 600 A 18 1,100 A

4 650 S 19 1,120 S

5 725 S 20 1,140 S

6 750 A 21 1,150 A

7 775 A 22 1,200 A

8 800 A 23 1,240 S

9 830 S 24 1,250 A

10 850 A 25 1,300 A

11 890 S 26 1,360 S

12 900 S 27 1,400 A

13 920 S 28 1,500 A

14 925 S 29 1,550 5

15 950 A 30 1,600 S

ϭ (15)(15) ϩ Ϫ 247

ϭ 225 ϩ 120 Ϫ 247

ϭ 98← Estadístico U

Si la hipótesis nula de que n1 ϩ n2 observaciones provienen de poblaciones idénticas es cierta, etonces el estadístico u tiene una distribución muestral con una media de

(15)(16)

ᎏ

2

Estadístico U

u ϭ n1n2 ϩ Ϫ R1 [14-n1(n1 ϩ 1)ᎏᎏ

2

Cálculo del

estadístico U



ϭ

ϭ 112.5← Media del estadístico U

y un error estándar de

(15)(15)ᎏ

2

Datos sin procesary rango de las califica-ciones en el SAT

Tabla 14-5 Plantel A Rango Plantel S Rango

1,000 16 920 13

1,100 18 1,120 19

800 8 830 9

750 6 1,360 26

1,300 25 650 4

950 15 725 5

1,050 17 890 11

1,250 24 1,600 30

1,400 27 900 12

850 l0 1,140 201,150 21 1,550 29

1,200 22 550 2

1,500 28 1,240 23

600 3 925 14

775 7 500 1

247 ← Total de rangos 218 ← Total de rangos

Media de la distribución muestral de U

U ϭ [14-2]n1n2ᎏ

2

Error estándar del estadístico U

U ϭ Ί

[14-3]n1n2(n1 ϩ n2 ϩ 1)

ᎏᎏ

12

ϭ Ί

ϭ Ί

ϭ 5 ෆ8 ෆ1 ෆ.2 ෆ 5 ෆ

ϭ 24.1← Error estándar del estadístico U

Prueba de las hipótesis

La distribución muestral del estadístico u puede aproximarse por la distribución normal cuando tan-to n1 como n2 son mayores que 10. Como nuestro problema cumple esta condición, podemos usar latabla de distribución de probabilidad normal estándar para hacer la prueba. La junta de directores de-

6,975ᎏ

12

(15)(15)(15 ϩ 15 ϩ 1)ᎏᎏᎏ

12



sea probar al nivel de significancia de 0.15 la hipótesis de que estas muestras fueron extraídas de pblaciones idénticas.

H0: 1 ϭ 2 ← Hipótesis nula: no hay diferencia entre las dos poblaciones, tienen la misma media

H1: 1 2 ← Hipótesis alternativa: existe una diferencia entre las dos poblaciones; en particular, tienen distintas medias

␣ ϭ 0.15 ← Nivel de significancia para probar estas hipótesis

La junta de directores desea saber si el promedio de calificación de la prueba de aptitud académca, SAT, en cualquiera de dos escuelas es mejor o peor que en la otra. La figura 14-13 ilustra la gfica de esta prueba. Las dos áreas sombreadas representan el nivel de significancia de 0.15. Comoestá usando la distribución normal como distribución de la muestra en esta prueba, de la tabla 1 apéndice se puede determinar que el valor crítico de z para un área de 0.425 es 1.44.

Ahora usamos la ecuación 6-2 para estandarizar la estadística u de la muestra, restando u,

media, y dividiendo entreu, su error estándar.

z ϭ [6

z ϭ

ϭ Ϫ0.602

La figura 14-4 señala el valor estandarizado de la muestrau y los valores críticos de z para la pru

ba. La junta de directores debe observar que el estadístico de la muestra está dentro de los valorcríticos para la prueba y concluir que las distribuciones y, por ende, las medias de las calificaciondel SAT en las dos escuelas son iguales.

Propiedades especiales de la prueba U

El estadístico u tiene una característica que permite a los usuarios ahorrar tiempo en cálculos cuado las dos muestras bajo observación tienen diferente tamaño. Acabamos de calcular el valor deusando la ecuación 14-1:

U ϭ n1n2 ϩ Ϫ R1 [14

Pero con la misma facilidad podríamos haber calculado la estadística u usando el valor de R2 , as

n1(n1 ϩ 1)ᎏᎏ

2

Otra forma de

calcular el

estadístico U

98 Ϫ 112.5ᎏᎏ

24.1

u Ϫ uᎏ

u

Búsqueda de los

límites de la región

de aceptación

Planteamiento de las

hipótesis

FIGURA 14-3

Prueba dehipótesis de doscolas al nivel designificancia

de 0.15

0.075 del área

0

Valor crítico

z = -1.44

Valor crítico

z = +1.44


0.075 del área

Fórmula alternativa para el estadístico U

u ϭ n1n2 ϩ Ϫ R2 [14-n2(n2 ϩ 1)ᎏᎏ

2

Representación

gráfica de la prueba



La respuesta habría sido 127 (que se aleja hacia arriba de la media de 112.5 justo tanto comaleja hacia abajo). En este problema, habríamos tardado lo mismo calculando el valor del eco U con la ecuación 14-1 que con la 14-4. En otros casos, cuando el número de elementos een una muestra que en la otra, elija la ecuación que requerirá menos trabajo. Sin importar ló U usando la ecuación 14-1 o la 14-4, llegará a la misma conclusión. Observe que en este la respuesta 127 cae en la región de aceptación tal como lo hizo 98.

¿Qué pasa si aparecen empates cuando clasificamos los elementos para esta prueba? Pplo, ¿qué sucede si las calificaciones 13 y 14 de la tabla 14-4 tuvieran ambas el valor 920?caso, encontramos el promedio de sus rangos (13 ϩ l4)/2 ϭ 13.5, y asignamos el resultado aSi hubiera un empate entre tres clasificaciones, 13, 14 y 15, por ejemplo, promediamos esto(13 ϩ 14 ϩ 15)/3 ϭ 14, y usamos ese valor para los tres elementos.

Solución de un problema usando la prueba de Kruskal-Wallis

Como se observó en esta sección, la prueba de Kruskal-Wallis es una extensión de la pMann-Whitney para casos en que están involucradas más de dos poblaciones. Esta prueba,depende de los rangos de las observaciones de la muestra.

La tabla 14-6 presenta las calificaciones de una muestra de 20 pilotos estudiantes en su escrito de la Agencia Federal de Aviación (AFA), dispuestas según el método que se emplecapacitación: videocasete, audiocasete o salón de clase.

La AFA está interesada en evaluar la efectividad de estos tres métodos de capacitación. Ecamente, desea probar, al nivel de significancia de 0.10, la hipótesis de que las calificacioneen el examen escrito de los pilotos estudiantes capacitados por estos tres métodos son igualesque tenemos más de dos poblaciones involucradas, es pertinente aplicar la prueba de Kruskaen este caso. Para ello, comenzamos en la tabla 14-7 por clasificar todas las calificaciones ascendente, indicando junto a cada una el símbolo del método de entrenamiento que se utiempates se manejan promediando los rangos, como se hizo con la prueba de Mann-Whitne

A continuación, definimos los símbolos usados en una prueba de Kruskal-Wallis:

n j ϭ número de elementos en la muestra j

R j ϭ suma de los rangos de todos los elementos en la muestra j

k ϭ número de muestras

n ϭ n1 ϩ n2 ϩ . . . ϩ nk , el número total de observaciones en todas las muestras

Símbolos utilizados

para una prueba de

Kruskal-Wallis

Clasificación de

los elementos

de la prueba

Prueba de diferencias

cuando están

involucrados más

de dos poblaciones

Manejo de empates

en los datos

FIGURA 14-4

Prueba dehipótesis de doscolas al nivel designificanciade 0.15; señalala región deaceptación y elestadístico de lamuestra U

Valor estandarizadode la muestra U

Región de aceptaciónAcepte la hipótesis nula si el valor muestral

está en esta región

-1.44 1.440-0.602

Calificaciones en el exa-men escrito de 20 pilotosestudiantes capacitadoscon tres métodos

Tabla 14-6

Videocasete 74 88 82 93 55 70

Audiocasete 78 80 65 57 89

Salón 68 83 50 91 84 77 94 8



La tabla 14-8 contiene los datos de la tabla 14-7 reclasificados de tal forma que facilita calcular sumas de los rangos para cada método de capacitación. Entonces podemos usar la ecuación 14-5 pra calcular el estadístico K , una medida de las diferencias entre las observaciones clasificadas en tres muestras.

Reclasificación de los

datos para calcular

sumas de rangos

Calificaciones delexamen escritoclasificadas en ordenascendente

Tabla 14-7 Califi- Método de Califi- Método deRango caciones capacitación Rango caciones capacitación

1 50 S 11 81 S

2 55 VC 12 82 VC

3 57 AC 13 83 S

4 65 AC 14 84 S

5 68 S 15 88 VC

6 70 VC 16 89 AC

7 74 VC 17 91 S

8 77 S 18 92 S

9 78 AC 19 93 VCl0 80 AC 20 94 S

Estadístico K

K ϭ ⌺ Ϫ 3(n ϩ 1) [14-

R2

j

ᎏn j

12

ᎏ

n(n ϩ 1)

ϭ ΄ ϩ ϩ ΅ Ϫ 3(20 ϩ 1)

ϭ (0.02857)(620.2 ϩ 352.8 ϩ 1,272.1 Ϫ 63)

ϭ 1.143


La distribución muestral del estadístico K puede aproximarse por una distribución ji-cuadrada cua

do los tamaños de todas las muestras son al menos 5. Como nuestro problema satisface esta codición, podemos usar la distribución ji-cuadrada y la tabla 5 del apéndice para esta prueba. En u

(107)2ᎏ

9(42)2ᎏ

5(61)2ᎏ

612ᎏᎏ

20(20ϩ1)

Cálculo del

estadístico K

Datos y rangoordenados segúnel método decapacitación

Tabla 14-8 Video-casete Rango Audiocasete Rango Salón Rango

74 7 78 9 68 5

88 15 80 10 83 13

82 12 65 4 50 1

93 19 57 3 91 17

55 2 89 16 84 1470 6 42 ← Suma 77 8

6 ෆ1 ෆ← Suma de rangos 94 20

de rangos 81 11

92 18

1 ෆ0 ෆ7 ෆ← Sumade rangos



prueba de Kruskal-Wallis, el número apropiado de grados de libertad es k Ϫ 1, que en este proble-ma es (3 Ϫ 1) o 2, puesto que tenemos tres muestras. Las hipótesis pueden enunciarse de la siguien-te manera:

H0: 1 ϭ 2 ϭ 3 ← Hipótesis nula: no hay diferencia entre las tres poblaciones, es decir, tienen la misma media

H1: 1, 2 y 3 ← Hipótesis alternativa: existen diferencias entre las tres poblaciones;

no todas son iguales en particular, tienen distintas medias


La figura 14-5 ilustra una distribución ji-cuadrada con 2 grados de libertad. El área sombreada re-presenta el nivel de significancia de 0.10. Observe que la región de aceptación para la hipótesis nula(que no existen diferencias entre las tres poblaciones) se extiende de cero a un valor ji-cuadrada de4.605. Obviamente, el valor muestral K de 1.143 está dentro de la región de aceptación; por consi-guiente, la AFA debe aceptar la hipótesis nula y concluir que no hay diferencias en los resultados ob-tenidos al usar los tres métodos de capacitación.

Interpretación

de los resultados

Formulación de

las hipótesis

FIGURA 14-5

Prueba deKruskal-Wallisal nivel designificancia de0.10; señala laregión deaceptación y elestadísticomuestral K

Ilustración

de la prueba

0 4.605

0.10 de área

Valor de la muestraK , 1.143

Región de aceptaciónAcepte la hipótesis nula si el valorde la muestra está en esta región

Ejercicios 14.3


EA 14-3 La boutique de Melisa tiene tres establecimientos en centros comerciales. Melisa mantiene un registro dia-rio del número de clientes que realmente compran en cada establecimiento. La siguiente es una muestrade esos datos. Utilizando la prueba de Kruskal-Wallis, ¿puede decir, al nivel de significancia de 0.05, que

sus tiendas tienen el mismo número de clientes que compran?

Centro comercial Eastowne 99 64 101 85 79 88 97 95 90 100

Centro comercial Craborchard 83 102 125 61 91 96 94 89 93 75

Centro comercial Fairforest 89 98 56 105 87 90 87 101 76 89

EA 14-4 Un gran hospital contrata la mayor parte de sus enfermeras en dos universidades importantes del área. Du-rante el año pasado, aplicaron un examen a las enfermeras recién graduadas que entran al hospital para

Las pruebas de suma de rangos, como lasde Mann-Whitney y de Kruskal-Wallis,

a menudo producen empates. Cuando losencuentre, recuerde que cada valor em-

patado obtiene un rango promedio. Si los elementos 10° y

11° están empatados, cada uno obtiene un rango de 10.5.En el caso de empates de más de 2 elementos, todos obtienen

el rango promedio [un empate en los elementos 3°, 4°, 5° y6° significa que los cuatro obtienen el rango de (3 ϩ 4 ϩ 5ϩ 6)/4 ϭ 4.5].

SUGERENCIAS

Y

SUPOSICIONES



determinar qué escuela parece preparar mejor a sus enfermeras, si alguna lo hace. Basándoseguientes calificaciones (de 100 puntos posibles), ayude a la oficina de personal del hospital a dsi las escuelas difieren en calidad. Use la prueba u de Mann-Whitney con un nivel de significancia

Calificaciones del examen

Escuela A 97 69 73 84 76 92 90 88 84 87 93

Escuela B 88 99 65 69 97 84 85 89 91 90 87 91

Aplicaciones

■ 14-14 Pruebe la hipótesis de que no hay diferencia entre las edades de empleados masculinos y femcierta compañía, utilizando la prueba u de Mann-Whitney para los datos de la muestra. Use el nivnificancia de 0.10.

Hombres 31 25 38 33 42 40 44 26 43 35

Mujeres 44 30 34 47 35 32 35 47 48 34

■ 14-15 En la tabla siguiente se dan los precios de venta de tres marcas de zapatos. Use la prueba de Krullis para determinar si existe alguna diferencia entre los precios de venta de las marcas a lo largoUtilice el nivel de significancia de 0.01.

Marca A $89 90 92 81 76 88 85 95 97 86 100

Marca B $78 93 81 87 89 71 90 96 82 85

Marca C $80 88 86 85 79 80 84 85 90 92

■ 14-16 Una compañía de regalos de compras por catálogo tiene la siguiente muestra de ventas en dólarados de acuerdo con la forma de pago del pedido. Pruebe la hipótesis de que no existe diferencantidad en dólares recibida por pagos en efectivo, cheque o tarjeta de crédito. Use la prueba deWallis con un nivel de significancia de 0.05.

Pagos con tarjeta de crédito 78 64 75 45 82 69 60

Pagos con cheque 110 70 53 51 61 68

Pagos con efectivo 90 68 70 54 74 65 59

■ 14-17 Los siguientes datos muestran horas anuales perdidas por enfermedad de los 24 hombres y mujNorthern Packing Company, Inc. Al nivel de significancia de 0.10, ¿existe alguna diferencia atr

sexo? Utilice la prueba U de Mann-Whitney.Hombres 31 44 25 30 70 63 54 42 36 22 25 50

Mujeres 38 34 33 47 58 83 18 36 41 37 24 48

■ 14-18 Un fabricante de juguetes cambió el tipo de máquinas inyectoras de plástico que usaba porquequina moderna dio evidencias de ser más económica. Sin embargo, al iniciar la temporada de Nproductividad pareció un poco menor a la del año anterior. Los registros de producción de los últiestaban disponibles y el gerente de producción decidió comparar el resultado mensual de los 15que se usaron las máquinas antiguas y los 11 meses de producción de ese año. Los registros mutas cantidades de producción con las máquinas antiguas y las nuevas.

Producción mensual en unidades

Máquinas antiguas Máquinas nuevas

992 966 965 956

945 889 1,054 900

938 972 912 938

1,027 940 850

892 873 796

983 1,016 911

1,014 897 877

1,258 902



¿Puede concluir la compañía, a un nivel de significancia de 0.10, que el cambio en las máquinascido la producción?

■ 14-19 Hank’s Hot Dogs tiene cuatro puestos de hot dogs en el Memorial Stadium. Hank sabe cuántosse venden en cada puesto durante cada juego de fútbol y quiere determinar si los cuatro venden número. Use la prueba de Kruskal-Wallis, para un nivel de significancia de 0.10, ¿puede decir si tos tienen la misma cantidad de ventas de hot dogs?

Juego 1 2 3 4 5 6 7 8 9

Visitantes norte 755 698 725 895 886 794 694 827 814

Visitantes sur 782 724 754 825 815 826 752 784 789

Casa norte 714 758 684 816 856 884 774 812 734Casa sur 776 824 654 779 898 687 716 889 917

■ 14-20 Para incrementar las ventas durante los días de más demanda, una cadena de tiendas que vendecentros comerciales da pruebas de su producto a la entrada de las tiendas. La administración dena define los días de más venta y selecciona aleatoriamente los días para repartir muestras. De utra de días que se consideraron fuertes en compras, los siguientes datos proporcionan las ventatienda en los días que dio muestras de quesos y en los que no.

Ventas (en cientos)

Días de promoción 18 21 23 15 19 26 17 18 22 20 18 21

Días normales 22 17 15 23 25 20 26 24 16 17 23 21

Use la prueba u de Mann-Whitney y un nivel de significancia de 5% para decidir si regalar mueste a las tiendas produjo mayores ventas.

■ 14-21 Una compañía está interesada en saber si hay una diferencia en la tasa de producción de emhombres y mujeres en el departamento de moldes. Se pidió a Judy Johnson, gerente de producrealizara un estudio para medir la producción de trabajadores hombres y mujeres durante una semalguna manera, uno de los empleados de oficina extravió una porción de los datos, y Judy sólocalizar la siguiente información de los registros de las pruebas:

U ϭ 176.4275

U ϭ 1,624

R1 ϭ 3,255

Judy también recordó que el tamaño de la muestra de hombres, n2, era 2 unidades mayor que n

Reconstruya un valor z para la prueba y determine si puede suponerse que la producción seun nivel de significancia del 5%, es la misma tanto para hombres como para mujeres. También invalores para n1, n2 y R2.

■ 14-22 Una universidad que acepta estudiantes de preparatorias rurales y urbanas desea saber si los antedistintos llevan a una diferencia en los promedios generales del primer año. Se presentan los daestudiantes de zona rural de primer ingreso elegidos al azar y de 16 con antecedentes urbanos. Usba U de Mann-Whitney con el 5% de nivel de significancia.

Promedios generales del primer año

Rural 3.19 2.05 2.82 2.16 3.84 4.0 2.91 2.75 3.01 1.98

2.58 2.76 2.94

Urbana 3.45 3.16 2.84 2.09 2.11 3.08 3.97 3.85 3.72 2.73

2.81 2.64 1.57 1.87 2.54 2.62

■ 14-23 Veinte vendedores de la compañía Henley Paper recibieron capacitación en ventas durante el añoAlgunos fueron enviados a un programa nacional conducido por maestros en ventas. Los otros staron en las oficinas de la compañía con el gerente de ventas de Henley. Se dan los porcentajes detas de ventas logrados por ambos grupos durante el último año. El señor Boyden Henley, presideque los antecedentes, las aptitudes de ventas y la motivación de ambos grupos son comparablesde significancia de 0.10, ¿ha resultado mejor alguno de los dos métodos de capacitación? Use u de Mann-Whitney.



Porcentaje de las cuotas logrado

Maestros en ventas 90 95 105 110 100 75 80 90 105 120

Compañía 80 90 100 120 95 95 90 100 95 105


EA 14-3Centro comercial Eastowne 99 64 101 85 79 88 97 95 9

24 3 26.5 8 6 11 22 20 1Centro comercial Craborchard 83 102 125 61 91 96 94 89 9

7 28 30 2 17 21 19 13 1

Centro comercial Fairforest 89 98 56 105 87 90 87 101 7

13 23 1 29 9.5 15.5 9.5 26.5

n1 ϭ 10 n2 ϭ 10 n3 ϭ 10 ␣ ϭ 0.05 R1 ϭ 161 R2 ϭ 159 R3 ϭ 145H0: 1 ϭ 2 ϭ 3 H1: las no son todas iguales

K ϭ ⌺ Ϫ 3(n ϩ 1)

ϭ ϩ ϩ Ϫ 3(31) ϭ 0.196

Con 3 Ϫ 1 ϭ 2 grados de libertad y ␣ ϭ 0.05, el límite superior de la región de aceptación es 2

de manera que se acepta H0. Los números de compradores promedio en los tres centros no son tivamente diferentes.

EA 14-4

Escuela A 97 69 73 84 76 92 90 88 84 87 93

22.5 2.5 5 8 6 20 16.5 13.5 8 11.5 21

Escuela B88 99 65 69 97 84 85 89 91 90 87 91

13.5 24 1 2.5 22.5 8 10 15 18.5 16.5 11.5 18.5

n1 ϭ 11 n2 ϭ 13 ␣ ϭ 0.10 R1 ϭ 134.5 R2 ϭ 165.5H0: 1 ϭ 2 H1: 1 2

U ϭ n1n2 ϩ Ϫ R1 ϭ 11(13) ϩ Ϫ 134.5 ϭ 74.5

U ϭ ϭ ϭ 71.5

U ϭΊ ϭΊ

ϭ 17.26

Los valores críticos de z son Ϯ1.645. El valor estandarizado U es

z ϭ ϭ ϭ 0.174

Debido a que el valor estandarizado U está dentro de los valores críticos, se acepta H0. No hayrencia significativa entre las escuelas.

74.5 Ϫ 71.5ᎏᎏ

17.26U Ϫ U ᎏ

U

11(13)(25)ᎏᎏ

12

n1n2 (n1 ϩ n2 ϩ 1)

ᎏᎏ12

11(13)ᎏ

2n1n2ᎏ

2

11(12)ᎏ

2

n1(n1 ϩ 1)ᎏᎏ

2

(145)2ᎏ

10(159)2ᎏ

10(161)2ᎏ

1012ᎏ

30(31)

1 R2

jᎏ

n n j

R2

jᎏ

n j

12ᎏ

n(n ϩ 1)



14.4 Prueba de corridas de unasola muestra

Hasta ahora, hemos supuesto que las muestras en los problemas se seleccionaron aleatoriamto es, se eligieron sin preferencia o sesgo. ¿Qué pasaría si llegara a observar patrones recuruna muestra elegida por otra persona? Suponga que los solicitantes de capacitación para trapecializados tuvieran que seleccionarse sin importar el sexo, a partir de una población granddo la notación M ϭ mujer y H ϭ hombre, encuentra que el primer grupo entra en este orde

M , M , M , M , H, H , H , H , M , M , M , M , H, H , H , H

Por inspección, concluiría que aunque el número total de solicitantes se divide por igual entxos, el orden no es aleatorio. Un proceso aleatorio rara vez enumeraría dos elementos en gternos de cuatro. Suponga ahora que los solicitantes empiezan a llegar en este orden:

M , H, M , H, M , H, M , H, M , H, M , H, M , H, M , H

Resulta igual de irracional pensar que un proceso de selección aleatorio produciría un patróden como éste de hombres y mujeres. En este caso, también, la proporción de mujeres rehombres es correcta, pero sospecharía respecto al orden en el que llegaron.

Para permitirnos probar la aleatoriedad del orden de las muestras, los estadísticos han de

do la teoría de corridas. Una corrida es una secuencia de ocurrencias idénticas precedidguidas de ocurrencias diferentes o del todo por ninguna. Si los hombres y las mujeres ela siguiente manera, la secuencia contendrá tres corridas:

La teoría de corridas

Concepto de

aleatoriedad

Y esta secuencia contiene seis corridas:

Una prueba de corridas usaría los siguientes símbolos si tuviera sólo dos tipos de ocurr

n1 ϭ número de ocurrencias del tipo 1

n2 ϭ número de ocurrencias del tipo 2

r ϭ número de corridas

Apliquemos estos símbolos a un patrón diferente para la llegada de los solicitantes:

H , M , M , H, H , H , H , M , M , M , H, H , M , H, M , M , H

En este caso, los valores de n1, n2 y r serían

n1 ϭ 8← Número de mujeres

n2 ϭ 9← Número de hombres

r ϭ 9← Número de corridas

Un problema que ilustra una prueba de corridasde una sola muestra

Un fabricante de cereal para el desayuno usa una máquina para introducir aleatoriamente untipos de muñecos en cada caja. La compañía desea una aleatoriedad tal que no todos los niñvecindario terminen con el mismo muñeco. Los probadores eligen muestras de 60 cajas spara ver si la máquina está mezclando adecuadamente los dos tipos de muñecos. Usando lo

Símbolos empleados

para una prueba

de corridas

M, H, H, H, H, M

1a. 2a. 3a.

M, M, M, H, H, M, H, H, H, H, M, M, M, M, H

1a. 2a. 3a. 4a. 5a. 6a.



los A y B para representar los dos tipos de muñecos, un probador reportó que uno de estos lotespresentó como sigue:

B, A, B, B, B, A, A, A, B, B, A, B, B, B, B, A, A, A, A, B,A, B, A, A, B, B, B, A, A, B, A, A, A, A, B, B, A, B, B, A,A, A, A, B, B, A, B, B, B, B, A, A, B, B, A, B, A, A, B, B

Los valores de esta prueba serían:

n1 ϭ 29← Número de cajas que contienen el muñeco A

n2ϭ 31← Número de cajas que contienen el muñeco B

r ϭ 29← Número de corridas

La distribución de muestreo del estadístico r

El número de corridas, r , es un estadístico con su propia distribución de muestreo especial y su proprueba. Es obvio que las corridas pueden ser de diferente longitud y en una muestra pueden ocurdiversos números de corridas. Los estadísticos pueden probar que demasiadas corridas o muy pocen una muestra indican que intervino algo más que el azar cuando se seleccionaron los elementoUna prueba de corridas de una sola muestra, entonces, está basada en la idea de que muy poc

o demasiadas corridas muestran que los elementos no fueron elegidos aleatoriamente.Para derivar la media de la distribución de muestreo del estadístico r utilice la siguiente fórmu

El estadístico r , base

de la prueba de

corridas de una sola

muestra

Al aplicar esta fórmula a la compañía de cereales, la media de la estadística r sería:

r ϭ ϩ 1

r ϭ ϩ 1

r ϭ 29.97 ϩ 1r ϭ 30.97← Media del estadístico r

El error estándar del estadístico r puede calcularse con esta fórmula de aspecto formidable:

1,798ᎏ

60

(2)(29)(31)ᎏᎏ

29 ϩ 31

Media de la distribución muestral del estadístico r

r ϭ ϩ 1 [14-2n1n2ᎏ

n1 ϩ n2

Error estándar del estadístico r

r ϭ Ί [14-2n1n2(2n1n2 Ϫ n1 Ϫ n2)ᎏᎏᎏ

(n1 ϩ n2)2(n1 ϩ n2 Ϫ 1)

Media y error están-

dar del estadístico r

Para nuestro problema, el error estándar del estadístico r se convierte:

r ϭ Ί ϭ Ί

ϭ 1 ෆ4 ෆ.7 ෆ 1 ෆ

ϭ 3.84← Error estándar del estadístico r

(1,798)(1,738)ᎏᎏ

(60)2(59)

(2)(29)(31)(2 ϫ 29 ϫ 31 Ϫ 29 Ϫ 31)

ᎏᎏᎏᎏ

(29 ϩ 31)2(29 ϩ 31 Ϫ 1)




En la prueba de corridas de una sola muestra, la distribución muestral de r puede aproximarsca por la distribución normal si n1 o bien n2 es mayor que 20. Nuestra compañía de cereauna muestra de 60 cajas, así que podemos usar la aproximación normal. La gerencia está inen probar, al nivel de 0.20, la hipótesis de que los muñecos están mezclados aleatoriamentque la prueba se convierte en:

Puesto que demasiadas o muy pocas corridas indicarían que el proceso mediante el cualducen los muñecos en las cajas no es aleatorio, una prueba de dos colas es apropiada. La figilustra esta prueba.

A continuación se usa la ecuación 6-2 para estandarizar el estadístico de la muestra r , 29do r , su media y dividiendo entre r , su error estándar.

z ϭ

z ϭ

ϭ Ϫ0.513

29 Ϫ 30.97ᎏᎏ

3.84

r Ϫ r ᎏ

r

Ilustración de

la prueba

H0:

ΆEn una prueba de corridas ← Hipótesis nula: los muñecos están mezclados aleatoriamente

de una sola muestra, no es

adecuado formular las hipótesis ← Hipótesis alternativa: los muñecos no están mezclados aleatoriame

con símbolos

␣ ϭ 0.20← Nivel de significancia para probar estas hipótesis

Formulación de

las hipótesis

H1:

FIGURA 14-6

Prueba dehipótesis de doscolas al nivel de

significanciade 0.20

0.10 del área

0.40 del área

Valor crítico

z = -1.28

Valor crítico

z = +1.28

0

0.40 del área

0.10 del área

FIGURA 14-7

Prueba de

hipótesis de doscolas al nivelde significancia de0.20, que ilustrala región deaceptación y elnúmero observadode corridas


de muestra está en esta región

-1.28 1.28

Número observadoestandarizadode corridas (29)

0-0.513



Colocando el valor estandarizado en la escala z de la figura 14-7 se ve que cae dentro de los vlores críticos para esta prueba. Por tanto, la administración debe aceptar la hipótesis nula y conclua partir de esta prueba, que los muñecos se ponen en las cajas en orden aleatorio.

Las pruebas de corridas se pueden usarde manera efectiva en situaciones de con-trol de calidad. Recordará del capítulo 10que la variación en la calidad puede ser

sistemática o aleatoria, y si una variación es sistemática, sepuede corregir. Una prueba de corridas puede detectar lostipos de patrones en la calidad de la producción que están

asociados con la variación sistemática. Sugerencia:casi todalas pruebas de corridas son de dos colas porque la pregunta que debe responderse es si hay muy pocas corridasRecuerde también que las pruebas de corridas usan el estadístico r cuya distribución se puede describir bien mediantuna distribución normal, siempre que n1 o n2 sea mayoque 20.

SUGERENCIAS

Y

SUPOSICIONES

Ejercicios 14.4


EA 14-5 El profesor Ike Newton desea determinar si sus alumnos más brillantes (aquellos con las mejores notatienden a devolver más pronto sus exámenes (porque pueden recordar el material más rápido) o más tde (porque toman más tiempo para escribir lo que saben) que los demás de la clase. Para cierto examparticular de física, observa que los estudiantes obtienen las siguientes calificaciones de acuerdo conorden de entrega de sus exámenes.

Orden Calificaciones

11-10 94 70 85 89 92 98 63 88 74 85

11-20 69 90 57 86 79 72 80 93 66 74

21-30 50 55 47 59 68 63 89 51 90 88

a) Si el profesor Newton considera a quienes obtienen notas de 90 o más como sus estudiantes brilltes, entonces, a un nivel de significancia del 5%, ¿podría concluir que los estudiantes más brillanentregaron sus exámenes de manera aleatoria?

b) Si una calificación de 60 o más permite aprobar la materia del profesor Newton, ¿entonces los esdiantes que aprobaron contra los que no lo hicieron entregaron sus exámenes aleatoriamente? (Tabién use un nivel de significancia del 5%.)

Conceptos básicos

■ 14-24 Pruebe la aleatoriedad de la siguiente muestra usando un nivel de significancia de 0.05:

A, B, A, A,A, B, B,A, B, B, A,A, B, A, B, A, A, B, B, B, B, A, B, B,

A,A,A, B, A, B, A,A, B, B,A, B, B, A,A,A, B, B, A,A, B,A, A,A.

Aplicaciones

■ 14-25 Se inspeccionó una secuencia de pequeñas esculturas de vidrio para detectar daños ocasionados en el vío. La secuencia de piezas aceptables y dañadas fue la siguiente:

D,A, A, A, D, D, D, D, D,A, A, D, D, A,A, A,A, D, A,A, D, D, D, D, D

Pruebe la aleatoriedad de los daños ocasionados en el envío usando el nivel de significancia de 0.05.

■ 14-26 El News and Clarion mantenía un registro del sexo de las personas que llamaban a la oficina de cirlación para quejarse de los problemas con la entrega del periódico dominical. Para un domingo recienestos datos fueron los siguientes:

M, F, F, F, M, M, F, M, F, F, F, F, M, M, M, F, M, F, M, F, F, F, F, M, M, M, M, M



Usando el nivel de significancia de 0.05, pruebe la aleatoriedad de esta secuencia. ¿Hay algo rla naturaleza de este problema que lo induzca a creer que una secuencia así no es aleatoria?

■ 14-27 La Agencia de Servicios Sociales del condado de Kerwin mantiene este registro del número dialicitantes de asesoría matrimonial en el orden en que aparecen en la agencia durante 30 días háb

3, 4, 6, 8, 4, 6, 7, 2, 5, 7, 4, 8, 4, 7, 9, 5, 9, 10,

5, 7, 4, 9, 8, 9, 11, 6, 7, 5, 9, 12

Pruebe la aleatoriedad de esta secuencia viendo si los valores mayores y menores que la mediaen orden aleatorio. Use el nivel de significancia de 0.10. ¿Puede pensar en alguna característica dno de este problema que apoye lo que encontró con la estadística?

■ 14-28 El dueño de un restaurante ha observado con los años que las parejas de más edad parecen cotemprano que las parejas jóvenes en su tranquilo y romántico restaurante. Sospecha que tal vezque deben dejar a los niños con alguien que los cuide y porque las parejas de más edad se acuetemprano. Una noche, decidió llevar un registro de la llegada de parejas al restaurante. Anotó sireja tenía menos o más que 30 años. Sus notas se reproducen a continuación. (A ϭ 30 y mayomenores de 30.)

(5:30 p.m.) A,A, A,A,A, A, B, A, A,A, A,A,A, B, B,

B,A, B, B, B, B, B, B, A, B, B, B, A, B, B, B (10 p.m.)

Para un nivel de significancia del 5%, ¿estaba en lo correcto el dueño del restaurante en cuantoedad de sus clientes a distintas horas de la noche no es aleatoria?

■ 14-29 Kathy Phillips está a cargo de la programación de producción en una imprenta. La compañía prensas grandes, que a menudo se descomponen, y uno de los mayores problemas de Kathy econ las fechas de entrega cuando ocurren desperfectos imprevistos en las prensas. Sospecha qusemana las viejas prensas se descomponen antes que las nuevas, ya que todas las prensas se vreparan durante el fin de semana. Para probar su hipótesis, Kathy registró el número de las prefallaron durante la semana. Las prensas 1, 2 y 3 son las más antiguas.

Número de prensa en el orden de falla

1, 2, 3, 1, 4, 5, 3, 1, 2, 5, 1, 3, 6, 2, 3, 6, 2, 2, 3, 5, 4,

6, 4, 2, 1, 3, 4, 5, 5, 1, 4, 5, 2, 3, 5, 6, 4, 3, 2, 5, 4, 3.

a) A un nivel de significancia del 5%, ¿tiene Kathy una hipótesis válida respecto a que las falprensas no son aleatorias?

b) ¿Es apropiada su hipótesis en cuanto a la decisión que desea tomar de reprogramar más trabacipios de la semana en las prensas más nuevas?

■ 14-30 Martha Bowen, gerente de departamento de una gran compañía de investigación de mercados, ego de todos los análisis de datos de investigación de la compañía. La exactitud y minuciosidad sponsabilidad. El departamento emplea varios ayudantes de investigación para que hagan algunoy usa una computadora para otros análisis. Por lo general, cada semana Martha elige aleatoriamanálisis terminados antes de entregarlos y hace pruebas para asegurar que son correctos y exhauayudante de Martha, Kim Tadlock elige al azar 49 análisis por semana entre los terminados y ardiariamente, y Martha hace los análisis de nuevo. Ella desea cerciorarse de que el proceso de selaleatorio, con el fin de poder asegurar que los análisis de computadora y los hechos a mano seperiódicamente. Para ello, dispuso que los ayudantes de investigación colocaran una marca esla parte de atrás de los registros, de manera que pudieran identificarse. Kim, no estaba al tanto dca, para que la aleatoriedad de la prueba no se viera afectada. Kim completó su muestra con lostes datos:

Muestras de análisis de datos para una semana(1, por computadora; 2, a mano)

1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1,

1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1

a) A un nivel de significancia del 1%, ¿podría concluir que la muestra fue aleatoria?b) Si la muestra estuviera distribuida como sigue, ¿sería aleatoria?

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2



c) Puesto que los análisis por computadora son mucho más rápidos que los hechos a mano, yposible hacer varios de los análisis por computadora, cada semana hay aproximadamente tmás análisis de éstos que los hechos a mano. ¿Existe evidencia estadística en el inciso a) pala creencia de que en alguna parte del proceso de muestreo no ocurre la aleatoriedad? Si es es la evidencia?

d) ¿La conclusión a la que llegó en el inciso c) lo lleva a alguna nueva conclusión respecto a de corridas de una sola muestra, particularmente en lo que se refiere a su respuesta en a)?

■ 14-31 Bank of America tiene curiosidad acerca del grado académico de los usuarios de sus cajeros au(ATM) colocados en el edificios de la Sociedad de Alumnos. Los estudiantes de primero y segse clasifican como tipo A, los de tercero y cuarto como tipo B. Los datos de 45 personas que

ATM el viernes en la tarde son los siguientes. Pruebe que esta secuencia sea aleatoria para un nivnificancia de 0.05.

B B B A A A B A A A A A A B B B B A B A A A A B B A A B B B B A B B B B A A A A A A B B B

■ 14-32 El First National Bank de Smithville registró el sexo de los primeros 40 clientes, que apareciesado martes, con esta notación:

M, F, M, M, M, M, F, F, M, M, M, F, M, M, M, M, M, F, F, M,

F, M, M, M, F, M, M, M, M, M, M, F, M, M, M, M, M, F, F, M

Al nivel de significancia de 0.05, pruebe la aleatoriedad de esta secuencia. ¿existe algo en el áreao en la naturaleza de este problema que lo lleve a aceptar intuitivamente lo que encontró estadísti

Soluciones a los ejercicios de autoevaluaciónEA 14-5 a) G denota a los estudiantes con 90 o más y L denota a los que tienen menos de 90:

G L L L G G L L L L L G L L L L L G L L L L L L L L L L G L

n1 ϭ # de G´s ϭ 6 r ϭ 10

n2 ϭ # de L´s ϭ 24 ␣ ϭ 0.05

r ϭ ϩ 1 ϭ ϩ 1 ϭ 10.6

r ϭ

Ί

ϭ

Ί

r ϭ 1.69

Los valores críticos de z son ±1.96. El valor estandarizado de r es

z ϭ ϭ ϭ Ϫ0.355

de manera que se acepta H0. La secuencia es aleatoria.b) Si P denota aprobar (≥ 60) y F denota no aprobar (< 60), se obtiene

P P P P P P P P P P P P F P P P P P P P F F F F P P P F P P

n1 ϭ # de P´s ϭ 24 r ϭ 7

n2 ϭ # de F s ϭ 6 ␣ ϭ 0.05

r ϭ ϩ 1 ϭ 10.6

r ϭΊ ϭ 1.692(24)(6)[2(24)(6) Ϫ 24 Ϫ 6]ᎏᎏᎏ

(30)2(29)

2(24)(6)ᎏ

30

10 Ϫ 10.6ᎏᎏ

1.69r Ϫ r ᎏ

r

2(6)(24)[2(6)(24) Ϫ 6 Ϫ 24]ᎏᎏᎏ

(30)2

(29)

2n1n2(2n1n2 Ϫ n1 Ϫ n2)ᎏᎏᎏ

(n1 ϩ n2)2

(n1 ϩ n2 Ϫ 1)

2(6)(24)ᎏ

302n1n2ᎏ

n1 ϩ n2



Los valores críticos de z son ±1.96. El valor estandarizado de r es

z ϭ ϭ Ϫ2.13

de manera que se rechaza H0 porque z Ͻ Ϫ1.96. Esta secuencia no es aleatoria.

14.5 Correlación de rango

Los capítulos 12 y 13 nos introdujeron a los conceptos de correlación y coeficiente de correlación,una medida de la cercanía de asociación entre dos variables. Con frecuencia, en el análisis de corre-lación, la información no está disponible en forma de valores numéricos como los utilizados en losproblemas de esos capítulos. Sin embargo, si podemos asignar clasificaciones a los elementos de cadauna de las dos variables que estamos estudiando, entonces podemos calcular un coeficiente de corre-

lación de rango. Éste es una medida de la correlación que existe entre los dos conjuntos de ran-gos, una medida del grado de asociación entre las variables que no podríamos calcular de otramanera.

Una segunda razón para aprender el método de correlación de rango es la posibilidad de simpli-ficar el proceso de cálculo de un coeficiente de correlación a partir de un conjunto de datos muy gran-de para cada una de las dos variables. Para probar lo tedioso que esto puede ser, intente aumentaruno de los problemas de correlación del capítulo 12, por un factor de 10, y realizar los cálculos ne-

cesarios. En lugar de tener que hacer estos cálculos, podemos calcular una medida de asociaciónbasada en los rangos de las observaciones, no en los valores numéricos de los datos. Esta medición seconoce como coeficiente de correlación de rango de Spearman, en honor al estadístico que lo desa-rrolló a principios del siglo XX.

El coeficiente de correlación de rangos

Mediante un par de ejemplos, aprenderemos a calcular e interpretar esta medida de la asociación en-tre dos variables clasificadas. Primero, consideremos la tabla 14-9, que enumera cinco personas ycompara el rango o clasificación académica que obtuvieron en la universidad con el nivel que han

logrado en cierta compañía 10 años después de graduarse. El valor 5 representa el rango más alto delgrupo; 1 es el más bajo.Usando la información de la tabla 14-9, podemos calcular un coeficiente de correlación de ran-

gos entre el éxito en la universidad y el nivel logrado en la compañía 10 años después. Lo único quenecesitamos es la ecuación 14-8 y unos cuantos cálculos.

Cálculo del

coeficiente de

correlación de rangos

Listado de las

variables clasificadas

Otra ventaja del

uso de la correlación

de rango

Función delcoeficiente de

correlación

de rango

7 Ϫ 10.6ᎏ

1.69

donde,

• r s ϭ coeficiente de correlación de rangos (observe que el subíndice s, de Spearman, distingueesta r de la calculada en el capítulo 12)

• n ϭ número de observaciones apareadas• ⌺ϭ notación que significa “la suma de”• d ϭ diferencia entre los rangos para cada pareja de observaciones

Coeficiente de correlación de rangos

r s ϭ 1 Ϫ [14-8]6⌺d

2

ᎏᎏ

n(n2 Ϫ 1)



Los cálculos en forma tabular son sencillos, como se ve en la tabla 14-10. Por tanto, tenemoinformación que necesitamos para encontrar el coeficiente de correlación de rango para blema:

r s ϭ 1 Ϫ

ϭ 1 Ϫ

ϭ 1 Ϫ

r s ϭ 1← Coeficiente de correlación de rangos

Como estudiamos en el capítulo 12, este coeficiente de correlación de 1 indica que existeciación perfecta o correlación perfecta entre las dos variables. Esto verifica lo que se ve e14-9, que los rangos universitarios y de la compañía para cada persona son idénticos.

Otro ejemplo nos familiarizará más con el manejo del coeficiente de correlación de rangtabla 14-11 se presenta el caso de otras cinco personas, pero esta vez los rangos universitala compañía 10 años después parecen ser opuestos. Podemos calcular la diferencia entre lo

Cálculo de otro

coeficiente de


Explicación de los va-

lores del coeficiente de

correlación de rango

0ᎏ

120

6(0)ᎏ

5(25 Ϫ 1)

6⌺d 2ᎏᎏ

n(n2 Ϫ 1)

Comparación de losrangos de cincoestudiantes

Tabla 14-9 Rango en laRango compañía 10 años

Estudiante universitario después

John 4 4

Margaret 3 3

Debbie 1 1

Steve 2 2

Lisa 5 5

Generación de

información paracalcular el coeficientede correlación de rangos

Tabla 14-10 Rango Rango en Diferencia entre Diferenciauniversitario la compañía los dos rangos al cuadrado

Estudiante (1) (2) (1) (2) [(1) (2)]2

John 4 4 0 0

Margaret 3 3 0 0

Debbie 1 1 0 0

Steve 2 2 0 0

Lisa 5 5 0 0⌺d

2 0 ෆ← Suma de los

cuadrados de

las diferencias

Generación de datospara calcular elcoeficiente decorrelación de rangos

Tabla 14-11 Rango Rango en Diferencia entre Diferenciauniversitario la compañía los dos rangos al cuadrado

Estudiante (1) (2) (1) (2) [(1) (2)]2

JohRoy 5 1 Ϫ4 16

David 1 5 Ϫ4 16

Jay 3 3 Ϫ0 0

Charlotte 2 4 Ϫ2 4

Kathy 4 2 Ϫ2 4⌺d

2 4 ෆ0 ෆ← Suma de los

cuadrados de

las diferencias



de cada pareja de observaciones, encontrar d 2, y luego sumar todas las d

2. Sustituyendo esres en la ecuación 14-8, encontramos un coeficiente de correlación de rango cuyo valor es

r s ϭ 1 Ϫ

ϭ 1 Ϫ

ϭ 1 Ϫ

ϭ 1 Ϫ 2

ϭ Ϫ1← Coeficiente de correlación de rangos

En el capítulo 12, aprendimos que un coeficiente de correlación de Ϫ1 representa una cor

inversa perfecta. Eso es justamente lo que ocurre en nuestro caso: la gente que más destacó eversidad terminó en los rangos menores de una organización. Ahora apliquemos estas idea

Solución de un problema usando correlación de rangos

La correlación de rangos es una técnica útil para examinar a conexión entre calidad del airedencia de enfermedades pulmonares que analizamos en el problema del inicio del capítulo. 14-12 reproduce los datos encontrados por la organización de la salud que estudia el problla misma tabla, hacemos algunos cálculos necesarios para encontrar r s.

Usando los datos de la tabla 14-12 y la ecuación 14-8, podemos encontrar el coeficiente dlación de rangos para este problema:

r s ϭ 1 Ϫ

ϭ 1 Ϫ

ϭ 1 Ϫ

ϭ 1 Ϫ 0.2636

ϭ 0.7364← Coeficiente de correlación de rangos

Un coeficiente de correlación de 0.736 sugiere una asociación positiva sustancial entre calimedio del aire y la ocurrencia de enfermedades pulmonares, al menos en las 11 ciudades m

das; esto es, altos niveles de contaminación van acompañados de enfermedades pulmonare¿Cómo podemos probar este valor de 0.736? Podemos aplicar los mismos métodos usa

probar hipótesis en los capítulos 8 y 9. Al realizar esas pruebas en r s, tratamos de evitar elconcluir que existe una asociación entre dos variables si en realidad no existe en la poblaccual se tomaron esas dos muestras, es decir, si el coeficiente de correlación de rango de la po

s (ro sub s), es realmente igual a cero.Para pequeños valores de n ( n menor o igual que 30), la distribución de r

sno es nor

diferencia de otras estadísticas de muestras pequeñas que hemos encontrado, no es apusar la distribución t para probar hipótesis acerca del coeficiente de correlación de ransu lugar, utilizamos la tabla 7 del apéndice para determinar las regiones de aceptación y dede las hipótesis. En nuestro problema actual, suponga que la organización de salud desea p

Prueba de hipótesis

acerca de la


Interpretación de

los resultados

348ᎏ

1,320

6(58)ᎏᎏ11(121 Ϫ 1)

6⌺d 2

ᎏᎏ

n(n2 Ϫ 1)

Búsqueda del

coeficiente de

correlación

de rangos

Interpretación de

los resultados

240ᎏ120

6(40)ᎏᎏ

5(25 Ϫ 1)

6⌺d 2

ᎏᎏ

n(n2 Ϫ 1)



nivel de significancia de 0.05, la hipótesis nula de que existe una correlación de cero en los datos csificados de todas las ciudades del mundo. Nuestro problema entonces se convierte en:

H0: s ϭ 0 ← Hipótesis nula: no existe correlación en los datos clasificados de la población

H1: s 0 ← Hipótesis alternativa: existe correlación en los datos clasificados de las poblaciones


Una prueba de dos colas es adecuada, así que consultamos la tabla 7 del apéndice, en el renglcorrespondiente a n ϭ 11 (el número de ciudades) y la columna correspondiente al nivel de signcancia de 0.05. Encontramos que los valores críticos para r s son Ϯ0.6091, esto es, el límite superde la región de aceptación es 0.6091 y el límite inferior es Ϫ0.6091.

La figura 14-8 ilustra los límites de la región de aceptación y el coeficiente de correlación de ragos calculado a partir de la muestra de calidad de aire. De esta figura, podemos ver que el coeficite de correlación de rango cae fuera de la región de aceptación. Por consiguiente, rechazamos la

pótesis nula de no correlación y concluimos que existe una asociación entre los niveles de caliddel aire y la incidencia de enfermedades pulmonares en las ciudades del mundo.

Si el tamaño de la muestra es mayor que 30, ya no podemos utilizar la tabla 7 del apéndice. Sembargo, cuando n es mayor que 30, la distribución muestral de r s es aproximadamente normal, cmedia de cero y desviación estándar de 1/ n ෆ Ϫ ෆ l ෆ. En consecuencia, el error estándar de r s es

La distribución apro-

piada para valores de

n mayores que 30

Formulación

de las hipótesis

Rangos de 11ciudades

Tabla 14-12 Rango de DiferenciaRango de la enfermedad entre los dos Diferencia al

calidad de aire pulmonar rangos cuadradoCiudad (1) (2) (1) Ϫ (2) [(1) Ϫ (2)]2

A 4 5 Ϫ1 1

B 7 4 3 9

C 9 7 2 4

D 1 3 Ϫ2 4

E 2 1 1 1

F 10 11 Ϫ1 1

G 3 2 1 1H 5 10 Ϫ5 25

I 6 8 Ϫ2 4

J 8 6 2 4

K 11 9 2 4

Mejor rango ϭ 11 ⌺d 2 5 ෆ8 ෆ← Suma de los

Peor rango ϭ 1 cuadrados de

las diferencias

Error estándar del coeficiente de la correlación de rangos

r s ϭ [14-1ᎏ

n ෆ Ϫ ෆ 1 ෆ

y podemos usar la tabla 1 del apéndice para encontrar los valores de z para probar las hipótesis crespecto a la correlación de rangos de población.Como un ejemplo de prueba de hipótesis de coeficientes de correlación de rango cuando n es m

yor que 30; consideremos el caso de un científico social que intenta determinar si la gente brillatiende a elegir un cónyuge que también sea brillante. Selecciona aleatoriamente 32 parejas y pruba para ver si existe una correlación de rangos significativa en los coeficientes intelectuales (CI)las parejas. Sus datos y cálculos se dan en la tabla 14-13.

Ejemplo con n

mayor que 30



FIGURA 14-8

Prueba dehipótesis de doscolas, usandola tabla 7 delapéndice al nivelde significancia de0.05, donde seve la región deaceptación y

el coeficientede correlación derangos muestrales


muestral está en esta región

-0.6091 0.6091

Distribución de r s para 11 puntos de muestra

Valor críticode la tabla 7 del apéndice

Valor crítico de latabla 7 del apéndice

0

Coeficiente de correlaciónde rangos de 0.736

Cálculo de la correlaciónde rangos del CI deesposos y esposas

Tabla 14-13 CI del CI de la Rango del Rango de Diferencia DifePareja esposo esposa esposo la esposa entre rangos al cu

(1) (2) (3) (4) (5) (4) Ϫ (5) [(4)

1 95 95 8 4.5 3.5 1

2 103 98 20 8.5 11.5 13

3 111 110 26 23 3

4 92 88 4 2 2

5 150 106 32 18 14 19

6 107 109 24 21.5 2.5

7 90 96 3 6 Ϫ3

8 108 131 25 32 Ϫ7 4

9 100 112 17.5 25.5 Ϫ8 6

10 93 95 5.5 4.5 1

11 119 112 29 25.5 3.5 1

12 115 117 28 30 Ϫ2

13 87 94 1 3 Ϫ2 14 105 109 21 21.5 Ϫ0.5

15 135 114 31 27 4 1

16 89 83 2 1 1

17 99 105 14.5 16.5 Ϫ2

18 106 115 22.5 28 Ϫ5.5 3

19 126 116 30 29 1

20 100 107 17.5 19 Ϫ1.5

21 93 111 5.5 24 Ϫ18.5 34

22 94 98 7 8.5 Ϫ1.5

23 100 105 17.5 16.5 1

24 96 103 10 15 Ϫ5 2

25 99 101 14.5 13 1.5

26 112 123 27 31 Ϫ4 1

27 106 108 22.5 20 2.5

28 98 97 12.5 7 5.5 3

29 96 100 10 11.5 Ϫ1.5

30 98 99 12.5 10 2.5

31 100 100 17.5 11.5 6 3

32 96 102 10 14 Ϫ4 1

Suma de cuadrados de las diferencias → ⌺d 2 ϭ 1 ෆ, ෆ0 ෆ4 ෆ



Usando los datos de la tabla 14-13 y la ecuación 14-8, podemos encontrar el coeficiente lación de rangos para este problema:

r s ϭ 1 Ϫ

ϭ 1 Ϫ

ϭ 1 Ϫ

ϭ 1 Ϫ 0.1913

r s ϭ 0.8087← Coeficiente de correlación de rangos

Si el científico social desea probar su hipótesis al nivel de significancia de 0.01, su problde formularse así:

H0: s ϭ 0 ← Hipótesis nula: no existe correlación de rangos en la población, esto es,

la inteligencia de los esposos y esposas está mezclada al azar

H1: s Ͼ 0 ← Hipótesis alternativa: la correlación de rangos de la población es positiva,

es decir, las personas brillantes eligen esposos brillantes


Es adecuado realizar una prueba de cola superior. De la tabla 1 del apéndice, encontramvalor z crítico para el nivel de significancia de 0.01 es 2.33. La figura 14-9 ilustra esta pruepótesis, donde la región sombreada en la cola superior de la distribución corresponde al nivnificancia de 0.01.

Para calcular nuestro estadístico de prueba, primero encontramos el error estándar r s:

r s ϭ

ϭ ϭ 0.1796

Ahora podemos usar la ecuación 6-2 para estandarizar el coeficiente de correlación del rrestando 0, su valor hipotético y dividiendo entre r s, su error estándar.

z ϭ

z ϭ

z ϭ 4.503

La figura 14-10 muestra el límite de la región de aceptación y el coeficiente de correlación dque calculamos de los datos del CI. En esta figura, podemos ver que el coeficiente de correrango de 0.809 cae bastante fuera de la región de aceptación. Por tanto, rechazamos la hipóla de no correlación y concluimos que la gente brillante tiende a elegir esposos brillantes.

Una propiedad especial de la correlación de rangos

La correlación de rango tiene una ventaja útil sobre el método de correlación que analizamcapítulo 12. Suponga que tenemos casos en los que existen una o varias observaciones su

Ventaja de la


Interpretación delos resultados

0.8087ᎏ

0.1796

r s Ϫ 0ᎏ

r s

1ᎏᎏ

3 ෆ2 ෆ Ϫ ෆ 1 ෆ

1ᎏ

n ෆ Ϫ ෆ 1 ෆ

Formulación de

las hipótesis

6,261

ᎏ

32,736

6(1,043.5)ᎏᎏ

32(1,024 Ϫ 1)

6⌺d 2

ᎏᎏ

n(n2 Ϫ 1)



extremas en los datos originales. Calcular el coeficiente de correlación con valores numérmo lo hicimos en el capítulo 12, puede no producir una buena descripción de la asociación

te entre dos variables. Sin embargo, las observaciones extremas en una prueba de correlaciógos nunca producirán una diferencia de rangos grande.

Considere el siguiente arreglo de datos de dos variables, X y Y :

X 10 13 16 19 25

Y 34 40 45 51 117

Debido al valor alto del quinto término de Y , obtendríamos dos respuestas significativamerentes para r si se usan los métodos convencional y de correlación de rangos. En este caso,do de correlación de rangos es menos sensible al valor extremo. Asignamos un orden de ranal valor numérico de 117 y evitamos el efecto sobre el valor del coeficiente de correlación.

FIGURA 14-9

Prueba dehipótesis de colasuperior al nivelde significancia de0.01


0.01 del área

Valor crítico

z = 2.33

s H0

= 0

FIGURA 14-10

Prueba dehipótesis de colasuperior al nivelde significancia de0.01; indica la

región deaceptación y elcoeficiente decorrelaciónde rango de lamuestra


muestral está en esta región

2.33 4.503

Distribución de r s

0

Coeficiente de correlaciónde rango de muestra estándar

Cuando existen valores extremos en losdatos originales, la correlación de rangospuede producir resultados más útiles queel método de correlación explicado en el

capítulo 12, porque las observaciones extremas nunca pro-ducen una gran diferencia en el rango. Sugerencia: la corre-lación de rangos es muy útil cuando los datos no siguen unadistribución normal. Tome el caso de una colecta de fondospara una universidad donde se obtienen algunas donaciones

“grandes”, muchas donaciones menores que $100 ytervalo muy amplio en medio. No tiene sentido usar nicas de correlación del capítulo 12 para investigar lciones entre el número de cartas de petición y el tamlas donaciones con este tipo de distribución porquenaciones de millón y medio de dólares distorsionan dio. Aplicar la correlación de rangos en un caso comfunciona bastante bien.

SUGERENCIAS

Y

SUPOSICIONES



Ejercicios 14.5


EA 14-6 Las siguientes son clasificaciones de agresividad ( X ) y cantidad de ventas en el último año (Y ) de ocvendedores. ¿Existe una correlación significativa entre las dos mediciones? Utilice el nivel de significcia de 0.10.

X 30 17 35 28 42 25 19 29

Y 35 31 43 46 50 32 33 42

Aplicaciones

■ 14-33 Los siguientes son años de experiencia ( X ) y el promedio de clientes satisfechos (Y ) para 10 proveedode servicios. ¿Existe una correlación de rangos significativa entre las dos medidas? Use un nivel de snificancia de 0.05.

X 6.3 5.8 6.1 6.9 3.4 1.8 9.4 4.7 7.2 2.4

Y 5.3 8.6 4.7 4.2 4.9 6.1 5.1 6.3 6.8 5.2

■ 14-34 Un supervisor de planta clasificó una muestra de ocho trabajadores según el número de horas extras tbajadas y la antigüedad en el empleo. ¿La correlación de rangos entre las dos mediciones es significatal nivel de 0.01?

Cantidad de horas extra 5.0 8.0 2.0 4.0 3.0 7.0 1.0 6.0Años de empleo 1.0 6.0 4.5 2.0 7.0 8.0 4.5 3.0

■ 14-35 Muchas personas creen que la experiencia gerencial produce mejores relaciones interpersonales entregerente y sus empleados. La Quail Corporation tiene los siguientes datos que asocian los años de expericia del gerente con el número de quejas reportadas el año pasado por los empleados contra ese gerenAl nivel de significancia de 0.05,¿la correlación de rangos entre estos dos factores sugiere que la experienmejora las relaciones?

Años de experiencia 7 18 17 4 21 27 20 14 15 10

Número de quejas 5 2 4 4 3 2 4 5 4 6

■ 14-36 La Administración de Salud y Seguridad Ocupacional (OSHA, Occupational Safety and Health Admin

tration) realizaba un estudio de las relaciones entre los gastos en la seguridad de la planta y la tasa de cidentes en las mismas, en la industria química sintética. Para ajustar la diferencia en tamaño que exisentre algunas de las plantas, OSHA convirtió sus datos en gastos por empleado de producción. Los guientes son los resultados:

Gastos de compañías químicas por empleado de producciónen relación con accidentes por año

Compañía A B C D E F G H I J

Gastos $60 $37 $30 $20 $24 $42 $39 $54 $48 $58 $

Accidentes 2 7 6 9 7 4 8 2 4 3

¿Existe una correlación significativa entre los gastos y los accidentes en las plantas de las compañías qmicas? Use una correlación de rangos (con 1 para el mayor gasto y tasa de accidentes) para respaldarconclusión. Pruebe al nivel de significancia del 1%.

■ 14-37 Dos profesores de una escuela de administración discutían lo difícil que es predecir el éxito de los g

duados sólo basándose en las calificaciones. Un profesor pensaba que el número de años de experienque los estudiantes de maestría en administración de empresas tuvieran antes de regresar por su posgrdo tal vez era el mejor pronosticador. Usando los siguientes datos, al nivel de significancia de 0.02, ¿qcorrelación de rangos es un mejor pronosticador del éxito profesional?

Años de experiencia 4 3 4 3 6 7 1 5 5

Promedio de calificaciones 3.4 3.2 3.5 3.0 2.9 3.4 2.5 3.9 3.6

Rango de éxito (10 ϭ tope) 4 2 6 5 7 9 1 8 10



■ 14-38 La Carolina Lighting Company tiene dos entrevistadores de personal capacitados para reclutarprincipiantes para encargarse de tiendas nuevas. Aunque cada entrevistador tiene su propio estilosidera que ambos son buenos jueces preliminares del potencial gerencial. La gerente de personguntaba qué tanto coincidirían los entrevistadores, así que hizo que ambos evaluaran a 14 solicimanera independiente. Clasificaron a los solicitantes en términos de su grado de contribución pola compañía. Los resultados se presentan a continuación. Use la correlación de rangos y un nivnificancia del 2% para determinar si existe una correlación positiva significativa entre las dos cciones de los entrevistadores.

Solicitante 1 2 3 4 5 6 7 8 9 10 11 12

Entrevistador 1 1 11 13 2 12 10 3 4 14 5 6 9

Entrevistador 2 4 12 11 2 14 10 1 3 13 8 6 7

■ 14-39 Nancy McKenzie, supervisora de un proceso de ensamble de una cámara litográfica, siente quemás tiempo trabaja en equipo un grupo de empleados, mayor es la tasa de producción diaria. Hdo los siguientes datos para un grupo de empleados que trabajaron juntos durante 10 días.

Día 1 2 3 4 5 6 7 8 9 10

Producción diaria 4.0 7.0 5.0 6.0 8.0 2.0 3.0 0.5 9.0 6.0

¿Puede concluir Nancy, a un nivel de significancia del 5%, que no existe correlación entre el ndías que trabajaron juntos y la producción diaria?

■ 14-40 Una compañía electrónica que recluta muchos ingenieros, se pregunta si el costo de los esfuerzsivos de reclutamiento vale la pena. Si la compañía pudiera confiar (usando un nivel de significancien que la correlación de rangos de población entre el currículum individual de los solicitantes clapor el departamento de personal y las calificaciones de las entrevistas es positiva, se sentiría juen descontinuar las entrevistas y basarse en las calificaciones por currículum en la contratación.pañía ha extraído una muestra de 35 solicitantes en los últimos dos años. Sobre la base de la muterior, ¿debe la compañía descontinuar las entrevistas y usar las calificaciones del currículum ipara contratar?

Calificación Calificación Calificación CalificacióIndividuo de entrevista de currículum Individuo de entrevista de currículu

1 81 113 19 81 111

2 88 88 20 84 121

3 55 76 21 82 83

4 83 129 22 90 79

5 78 99 23 63 716 93 142 24 78 108

7 65 93 25 73 68

8 87 136 26 79 121

9 95 82 27 72 109

10 76 91 28 95 121

11 60 83 29 81 140

12 85 96 30 87 132

13 93 126 31 93 135

14 66 108 32 85 143

15 90 95 33 91 118

16 69 65 34 94 147

17 87 96 35 94 13818 68 101

■ 14-41 Los siguientes son los salarios y edades de los 10 candidatos a doctorado que se gradúan este Escuela de Contabilidad de la Northwest University. Al nivel de significancia de 0.05, ¿la correrangos de edad y salario sugiere que los candidatos de mayor edad obtienen salarios iniciales m

Salario Edad Salario Edad

$67,000 29 55,000 31

60,000 25 59,500 32

57,500 30 63,000 38

59,500 35 69,500 28

50,000 27 72,000 34



■ 14-42 Dee Boone opera un taller de reparación de motores de aeronaves ligeras. Está interesado en mestimaciones del tiempo de reparación requerido y cree que el mejor pronosticador es el númerode operación del motor desde su última reparación importante. La tabla contiene los datos de 10que Dee reparó recientemente. Al nivel de significancia de 0.10, ¿la correlación de rango sugielación fuerte?

Horas desde la última Horas requeridasMotor reparación importante para la reparación

1 1,000 40

2 1,200 54

3 900 41

4 1,450 60

5 2,000 65

6 1,300 50

7 1,650 42

8 1,700 65

9 500 43

10 2,100 66


EA 14-6 X (rangos) 6 1 7 4 8 3 2 5

Y (rangos) 4 1 6 7 8 2 3 5

d 2 0 1 Ϫ3 0 1 Ϫ1 0

d 2 4 0 1 9 0 1 1 0

⌺d 2 ϭ 16 n ϭ 8 ␣ ϭ 0.10

H 0: s ϭ 0 H 1: s 0

r s ϭ 1 Ϫ ϭ 1 Ϫ ϭ 0.8095

De la tabla 7 del apéndice, los valores críticos para r s son Ϯ0.6190. Como 0.8095 Ͼ 0.6190, sH0. La correlación es significativa.

14.6 Prueba de Kolmogorov-SmirnovLa prueba de Kolmogorov-Smimov, bautizada así en honor de los estadísticos A. N. KolmN. V. Smirnov que la desarrollaron, se trata de un método no paramétrico sencillo para probate una diferencia significativa entre una distribución de frecuencias observada y un distribfrecuencias teórica. La prueba de K-S es, por consiguiente, otra medida de la bondad de ajus

distribución de frecuencia teórica, como lo es la prueba ji-cuadrada que estudiamos en el11. Sin embargo, la prueba de K-S tiene varias ventajas sobre la prueba 2: es una pruebaderosa, y es más fácil de usar, puesto que no requiere que los datos se agrupen de alguna m

El estadístico de K-S, Dn, es particularmente útil para juzgar qué tan cerca está la distribfrecuencias observada de la distribución de frecuencias esperada, porque la distribución delidad de Dn depende del tamaño de muestra n, pero es independiente de la distribución decias esperada ( Dn es un estadístico de “distribución libre”).

Un problema que ilustra la prueba de K-S

Suponga que la central telefónica del condado de Orange, en California, ha llevado un regnúmero de “transmisores” (un tipo de equipo automático que se utiliza en las centrales telusados en un instante dado. Las observaciones se hicieron en 3,754 ocasiones distintas. Pa

Una ventaja especial

La prueba de K-S

y sus ventajas

6(16)ᎏ

8(63)6⌺d 2ᎏᎏ

n(n2 Ϫ 1)



sitos de planeación de Inversión de capital, el funcionario de presupuesto de esta compañque el patrón de uso sigue una distribución de Poisson con una media de 8.5. Si desea probapótesis al nivel de significancia de 0.01, puede emplear la prueba de K-S.

Formularíamos nuestras hipótesis de la siguiente manera:

H0: una distribución de Poisson con ϭ 8.5 es una buena descripción delpatrón de uso← Hipótesis nula

H1: una distribución de Poisson con ϭ 8.5 no es una buena descripcióndel patrón de uso ← Hipótesis alternativa


A continuación, enumeraremos los datos observados. La tabla 14-14 lista las frecuencias oby las transforma en frecuencias acumuladas observadas relativas.

Ahora podemos utilizar la fórmula de Poisson para calcular las frecuencias esperadas.

p( x) ϭ

Al comparar estas frecuencias esperadas con las observadas, podemos examinar la magnidiferencia entre ellas: la desviación absoluta. En la tabla 14-15 enumeramos las frecuencialadas observadas relativas F 0, las frecuencias acumuladas relativas esperadas F e, y las desvabsolutas para x ϭ 0 a 22.

Cálculo del estadístico de K-S

Para calcular el estadístico de K-S para este problema, simplemente elija Dn, la desviaciónmáxima de F e, alejada de F o.

x ϫ eϪ

ᎏ

x!

Cálculo y

comparación de

frecuencias esperadas

Formulación de las

hipótesis

Frecuencias acumuladasobservadas y relativas

Tabla 14-14 FrecuenciaFrecuencia acumulada

Número Frecuencia acumulada observadaocupado observada observada relativa

0 0 0 0.0000

1 5 5 0.0013

2 14 19 0.0051

3 24 43 0.0115

4 57 100 0.0266

5 111 211 0.0562

6 197 408 0.1087

7 278 686 0.1827

8 378 1,064 0.2834

9 418 1,482 0.3948

10 461 1,943 0.5176

11 433 2,376 0.6329

12 413 2,789 0.7429

13 358 3,147 0.8383

14 219 3,366 0.8966

15 145 3,511 0.9353

16 109 3,620 0.964317 57 3,677 0.9795

18 43 3,720 0.9909

19 16 3,736 0.9952

20 7 3,743 0.9971

21 8 3,751 0.9992

22 3 3,754 1.0000



En este problema, Dn ϭ 0.2582 en x ϭ 9.Una prueba de K-S siempre debe ser una prueba de una cola. Los valores críticos para Dn se h

tabulado y pueden encontrarse en la tabla 8 del apéndice. Si buscamos en la fila de n ϭ 3,754 (el maño de muestra) y la columna para un nivel de significancia de 0.01, encontramos que el valor ctico de Dn debe calcularse usando la fórmula:

ϭ ϭ ϭ 0.0266

El siguiente paso es comparar el valor calculado de Dn con el valor crítico de Dn que se encuetra en la tabla. Si el valor de la tabla para el nivel de significancia elegido es mayor que el valor calclado de Dn, entonces aceptaremos la hipótesis nula. Obviamente, 0.0266 < 0.2582, así que rechamos H0 y llegamos a la conclusión de que una distribución de Poisson con una media de 8.5 no es ubuena descripción del patrón del uso del transmisor en la central telefónica del condado de Orang

Nuestra conclusión

1.63ᎏ61.27

1.63ᎏ

3 ෆ,7 ෆ 5 ෆ4 ෆ1.63ᎏ n ෆ

Cálculo del valor

crítico

Estadístico de K-S

Dn ϭ máx ⏐F e Ϫ F o⏐ [14-1

Cálculo del estadísti-

co de K-S

Frecuencias acumula-das observadas rela-tivas, frecuenciasacumuladas observadasesperadas y desvia-ciones absolutas

Tabla 14-15 Frecuencia FrecuenciaFrecuencia acumulada acumulada ⏐F

e Ϫ F

o ⏐

Número Frecuencia acumulada observada observada Desviaciónocupado observada observada relativa esperada absoluta

0 0 0 0.0000 0.0002 0.0002

1 5 5 0.0013 0.0019 0.0006

2 14 19 0.0051 0.0093 0.0042

3 24 43 0.0115 0.0301 0.0186

4 57 100 0.0266 0.0744 0.0478

5 111 211 0.0562 0.1496 0.0934

6 197 408 0.1087 0.2562 0.1475

7 278 686 0.1827 0.3856 0.2029

8 378 1,064 0.2834 0.5231 0.2397

9 418 1,482 0.3948 0.6530 0.2582

10 461 1,943 0.5176 0.7634 0.2458

11 433 2,376 0.6329 0.8487 0.2158

12 413 2,789 0.7429 0.9091 0.1662

13 358 3,147 0.8383 0.9486 0.1103

14 219 3,366 0.8966 0.9726 0.0760

15 145 3,511 0.9353 0.9862 0.0509

16 109 3,620 0.9643 0.9934 0.0291

17 57 3,677 0.9795 0.9970 0.0175

18 43 3,720 0.9909 0.9987 0.0078

19 16 3,736 0.9952 0.9995 0.0043

20 7 3,743 0.9971 0.9998 0.0027

21 8 3,751 0.9992 0.9999 0.0007

22 3 3,754 1.0000 1.0000 0.0000

Piense en la prueba de Kolmogorov-Smirnov como otra prueba de buen ajus-

te, igual que la prueba de ji-cuadrada delcapítulo 11, excepto que esta vez es más

fácil usarla porque no se necesita toda la aritmética del cálcu-lo de la ji-cuadrada. La prueba de K-S sólo encuentra lasdistribuciones acumuladas relativas tanto para las frecuen-

cias observadas como para las frecuencias esperadas y después prueba qué tan lejanas están. Si la distancia no es significativa, entonces la distribución teórica describe bien a distribución observada. No pierda de vista que las pruebade K-S siempre son pruebas de una cola, porque siempre sprueba si las diferencias son mayores que el nivel especifcado.

SUGERENCIAS

Y

SUPOSICIONES



Ejercicios 14-6


EA 14-7 La siguiente es una distribución de frecuencias observadas. Usando una distribución normal con ϭ 6.80y ϭ 1.24:a) Encuentre la probabilidad de caer dentro de cada clase.b) Del inciso a), calcule la frecuencia esperada de cada categoría.c) Calcule Dn.

d) Al nivel de significancia de 0.15, ¿parece esta distribución estar bien descrita por la distribución nor-mal sugerida?

Valor de la variable Յ4.009 4.010-5.869 5.870-7.729 7.730-9.589 Ͼ 9.590

Frecuencia observada 13 158 437 122 20

Conceptos básicos

■ 14-43 Al nivel de significancia de 0.05, ¿podemos concluir que los siguientes datos provienen de una distribu-ción de Poisson con ϭ 3?

Número de llegadas por día 0 1 2 3 4 5 6 o más

Número de días 6 18 30 24 11 2 9

■ 14-44 La siguiente es una distribución de frecuencias observadas. Utilice la distribución normal con ϭ 98.6y ϭ 3.78.a) Encuentre la probabilidad de caer en cada clase.b) Del inciso a), calcule la frecuencia esperada de cada categoría.c) Calcule Dn.d) Para un nivel de significancia de 0.10, ¿parece que esta distribución está bien descrita por la distribu-

ción normal sugerida?

Valor de la variable Ͻ92.0 92.0-95.99 96.0-99.99 100-103.99 Ն104


■ 14-45 La siguiente es una tabla de frecuencias observadas, junto con las frecuencias que se esperan para una dis-tribución normal.a) Calcule el estadístico de K-S.b) ¿Podemos concluir que estos datos en efecto provienen de una distribución normal? Use el nivel de

significancia de 0.10.

Resultados de la prueba

51-60 61-70 71-80 81-90 91-100


Frecuencia esperada 40 170 500 390 100

Aplicaciones

■ 14-46 Kevin Morgan, gerente nacional de ventas de una compañía de electrónica, ha recabado la siguiente esta-dística de salarios de los ingresos de la fuerza de ventas en su campo. Él tiene tanto las frecuencias obser-vadas como las frecuencias esperadas si la distribución de salarios es normal. Al nivel de significancia de0.10, ¿puede concluir Kevin que la distribución de los ingresos de la fuerza de ventas es normal?

Ingresos (miles de dólares)

25-30 31-36 37-42 43-48 49-54 55-60 61-66

Frecuencia observada 9 22 25 30 21 12 6

Frecuencia esperada 6 17 32 35 18 13 4



■ 14-47 Randall Nelson, vendedor de la compañía V-Star, tiene que visitar siete cuentas por semana. Se piensa qlas ventas del señor Nelson pueden describirse mediante la distribución binomial con probabilidad de veta en cada cuenta de 0.45. Examinando la distribución de frecuencias observadas del número de venpor semana del señor Nelson, determine si la distribución corresponde en efecto a la distribución sugeda. Use el nivel de significancia de 0.05.

Número de ventas por semana 0 1 2 3 4 5 6 7

Frecuencia del número de ventas 25 32 61 47 39 21 18 12

■ 14-48 Jackie Denn, un administrador de servicios de alimentos para líneas aéreas, ha examinado los registanteriores de 200 vuelos a través del país, seleccionados aleatoriamente para determinar la frecuencia cque se solicitaron comidas bajas en sodio. El número de vuelos en los que se solicitaron 0, 1, 2, 3, 4 o m

comidas bajas en sodio fue 25, 45, 67, 43 y 20, respectivamente. Al nivel de significancia de 0.05, ¿es zonable concluir que estas solicitudes siguen una distribución de Poisson con ϭ 1?


EA 14-7 a) Las probabilidades de caer en las cinco clases son las áreas indicadas bajo la curva en la siguiefigura:

7.73

0.0122 0.2144 0.2144 0.0122

5.87 9.59

0.5468

-2.25 -0.75 0.75 2.25

x

z =x - 6.80

1.24

4.01

b) n ϭ 13 ϩ 158 ϩ 437 ϩ 122 ϩ 20 ϭ 750. Entonces, las frecuencias esperadas son 0.0122(750)9.15, 0.2144(750) ϭ 160.80, 0.5468(750) ϭ 410.1, 160.80 y 9.15.

c) f o

f o

acum. F o

F e

|F e

Ϫ F o |

13 13 0.0173 0.0122 0.0051158 171 0.2280 0.2266 0.0014

437 608 0.8107 0.7734 0.0373←122 730 0.9733 0.9878 0.0145

20 750 1.0000 1.0000 0.0000

d) Dtabla ϭ ϭ ϭ 0.0416. Dn Ͻ Dtabla, de manera que se acepta H0. Los datos están b

descritos por la distribución normal sugerida.

1.14ᎏ

7 ෆ5 ෆ0 ෆ1.14ᎏ

n ෆ

Estadística en el trabajo

Loveland ComputersCaso 14: métodos no paramétricos “Olvidé decirte”, dijoSherrel Wright, la gerente de publicidad, al dirigirse a la ofi-cina, “Margot te estaba buscando, es mejor que la consultesantes de que empieces este proyecto de publicidad”.

“¡Necesito ayuda!”, anunció Margot con un grito que pdía oírse hasta Cheyenne, Wyoming. “Gasté mucho dinpara obtener algunos datos, y ahora que están aquí no séque tengo.”

“Bueno, yo tampoco”, bromeó Lee, tratando de aligelos ánimos. “¿Por qué no me dices lo que pasa?”

“Algunos de los modelos de mediano alcance —las Pcon chips rápidos y una cantidad razonable de almacen



miento en disco—, podemos hacerlos en tres presentaciones.Las viejas máquinas estilo AT son del tamaño de una maletapequeña. A la gente le gustaba la caja grande porque tenía laimagen de una máquina grande y poderosa. Pero en este úl-timo año, más o menos, algunas de las estaciones de trabajomás poderosas se han fabricado en un formato de caja depizza, bastante estrecha y plana. Así que algunas compañíasofrecen ahora las máquinas de mediano alcance en un forma-to de perfil bajo. En realidad tienen lo mismo en una caja máspequeña que no ocupa tanto espacio de escritorio. Finalmen-

te, algunos competidores ofrecen una configuración de torre.Éste es el viejo estilo AT parado sobre un lado para que sepueda colocar en el piso. Eso elimina la necesidad de espa-cio de escritorio.”

“Así que, ¿qué estilo adoptó por Loveland?”, preguntóLee.

“Francamente, hemos abarcado todos durante las distin-tas campañas de publicidad. Algunas veces ofrecimos dos delos tres formatos, pero hemos cambiado entre uno y otros in-tentando adivinar los gustos de los clientes. Uno pensaría quetodos preferirían tener la máquina en el piso, pero resultaque la caja de la computadora es un lugar útil para poner el

monitor, y la gente que usa muchos discos flexibles no quie-re tener que agacharse cada vez que usa la unidad de discos.”

“Bueno. Entonces ofrezcan los tres estilos”, sonrió Leeante esta solución simple pero elegante.

“Eso nos sube los costos. Si trabajamos tres estilos, per-demos los descuentos por volumen que obtenemos al traba-

jar sólo uno. Después tenemos que publicitar tres formatos altiempo que estoy lanzando nuevos productos de alto perfil eintentando satisfacer la demanda de nuestras máquinas demenor precio. Quisiera recomendar sólo el mejor formato ala gerencia.”

“Bueno, yo no tengo una bola de cristal”, comenzó a de-cir Lee.

“No espero que la tengas. Contraté a una compañía de in-

vestigación de mercados. Trabajaron con grupos de enfoqueen Boulder, New Jersey y Oregon. Había ocho personas encada grupo, y dos grupos en cada lugar, así que en conjuntoobtuve 48 tarjetas de respuestas, y varias horas de discusio-nes grabadas que no tendrás que ver. Como podrás imaginar,le pedimos a los participantes que clasificaran los tres forma-tos en términos del estilo que preferirían si fueran a compraruna computadora personal. Después les preguntamos si su pri-mera opción no estuviera disponible, cuál de las otras dospreferirían. Dime cómo vamos a darle sentido a esto paraque pueda hacer una recomendación al grupo de planeaciónde productos.”

Preguntas de estudio: ¿Cómo debe organizar los datosLee y qué pruebas estadísticas son apropiadas? ¿Qué debehacer Loveland si el análisis de los datos de este pequeñogrupo no fuera concluyente?

Ejercicio de base de datoscomputacional

HH Industries

Todavía sensible respecto a lo que la suposición de Poissonhabía hecho en el estudio de las llamadas telefónicas, Laurelmeditó acerca de las preguntas de la comisión de ventas querecientemente había analizado para Stan. La suposición depoblaciones normales con la misma desviación estándar eracrítica para las conclusiones a las que había llegado. “Sólopara asegurarme”, pensó, “creo que verificaré mis resultadoscon algún análisis de suma de rangos”.

1. Usando los datos de ventas del capítulo 11, pruebe la su-posición de que estas muestras vienen de poblaciones conla misma media. ¿Qué sucedería si se excluye a Mike co-mo antes? Pruebe al nivel de significancia de 0.05.

La siguiente semana, durante el almuerzo, Gary y Laureldiscutieron los resultados del estudio de criterios de contra-tación que acababan de terminar. “Según parece”, dijo Gary,“ese estudio es todavía más oportuno de lo que inicialmentepensamos. Parece que Hal tiene planes de establecer otro al-macén satélite, esta vez en la región del medio oeste.

Supongo que nuestro negocio es tan sólido que estamosavanzando bastante rápido. Esto seguramente facilitará mitrabajo del personal”.

“A propósito”, continuó, “¿recuerdas cuando hablamossobre el estudio de UPS en nuestro almacén de Pennsylva-nia? Fue poco después de que llegaste, e hiciste un maravi-lloso análisis sobre nuestro éxito cubrir el área geográfica se-ñalada”.

“Oh, oh”, bromeó Laurel. “Sé que cuando me alabas, ¡tie-nes más trabajo sacado de la manga para mí! Sí, recuerdonuestras conversaciones. ¿Qué hay respecto a ello?”

“Recordarás”, prosiguió Gary, “que hice algunos comen-tarios crípticos acerca de lo que sentí que debería haber esta-

do, contra lo que realmente estaba, incluido en el estudio. Decualquier forma, esto me ha estado preocupando y quisierasaber tu opinión”.

“Continúa”, suspiró Laurel, fingiendo irritación. “¡Creoque he creado un monstruo estadístico!”

Gary se rió. “¡Realmente sabes cómo hacer que uno sesienta mal! Ya, en serio, no creo que esto sea mucho proble-ma, sólo tengo curiosidad sobre algo. Cuando UPS hizo eseestudio, sólo tomó en cuenta paquetes que enviamos. Resul-ta que los costos de recepción también son bastante signifi-cativos. Y, como podrás adivinar, aquí en Florida pagamosuna ‘penalización’adicional por estar al final de la ruta de en-



vío. La mayor parte de los camiones que nos hacen entregasse van vacíos el estado, porque no hay carga que requiera en-tregarse de regreso a otras áreas del país.”

“Estoy formulando una propuesta que en esencia sugiereque nuestra nueva sucursal en el medio oeste se convierta ennuestro almacén principal. Mantendríamos todas nuestrasfunciones administrativas aquí en Florida; pero, desde elpunto de vista de inventarios, actuaríamos solamente comoun satélite. ¿Sería posible clasificar todos los estados a losque hacemos envíos y de los que recibimos, sólo para ver si

hay alguna correlación allí? Eso me daría alguna informa-ción preliminar para mi propuesta.

Laurel se dio cuenta que había estado conteniendo la res-piración. “¡Vaya!”, atinó a decir. “¡Esa pregunta es muchomás fácil de lo que esperaba! Todo el estudio suena intere-

sante y tardado. Pero la respuesta a la pregunta de hoy eseso debe ser relativamente sencillo. Quizá la tendré para finles de esta semana. Y gracias por el aviso. Sé que regresacon más peticiones de ayuda, ¡y la próxima no será fácil! Va empezar a recabar algunos datos que creo pueden ser úles. No dejes de comunicarme cómo van las cosas.”

“De alguna manera pensé que podía contar contigo. Gcias, Laurel”, Gary sonrió. “El almuerzo corre por mi cuent

2. Usando los datos de los archivos CH14.xxx incluidos

el CD que acompaña al libro, calcule el coeficientecorrelación de rangos entre los estados a los que HH dustries hace envíos y de los que los recibe. Al nivel significancia de 0.01, ¿podemos concluir que existe urelación entre estos dos factores?

La estadística en la medicinaLos métodos estadísticos se usan a menudo en la investiga-ción del origen, tratamiento y control de diversas enferme-dades. Como que gran parte de los datos de la investigaciónmédica no se ajusta a la distribución normal, los métodos noparamétricos son particularmente útiles. Los doctores Char-les H. Kirkpatrick y David W. Alling, aplicaron la pruebade Mann-Whitney de manera ingeniosa para evaluar los re-sultados de una prueba clínica aleatoria que involucraba eltratamiento de candidiasis oral crónica, una enfermedad ca-racterizada por infecciones recurrentes de la piel, uñas ymembranas mucosas. Los resultados de sus pruebas indica-ron que el clotrimazol, que se había empleado con éxito en

desórdenes similares, era un tratamiento altamente efectivopara la candidiasis.

La prueba clínica Veinte pacientes que sufrían candidiasisoral persistente fueron admitidos en el estudio y se les asig-naron en forma aleatoria tratamientos con pastillas de clotri-mazol o placebo. La respuesta de los sujetos al tratamientose evaluó de dos a siete días después de administrarlo, como semuestra en la tabla MR14-1. Este formato capta dos tipos deresultados y los combina de forma que la mayor de cuales-quier dos calificaciones connota el resultado menos favora-ble; estas calificaciones definen una clasificación ordenada.Los resultados de los tratamientos con clotrimazol y placebose resumen en la tabla MR14-2. Los 10 pacientes de las pas-tillas de clotrimazol no presentaron síntomas hacia el quintodía de tratamiento. Esta observación visual fue confirmadapor una prueba de Mann-Whitney, que ofreció un fuerte res-paldo estadístico.

Tabla MR14-1 Sistema de calificación para resultados del ttamiento de candidiasis oral crónica

Hallazgos Hallazgos dCalificación clínicos laboratorio

1 Ausente Negativo

2 Mejorado Negativo

3 Mejorado Positivo

4 No mejorado Positivo

Tabla MR14-2 Resultado después de 2 a 7 díasde tratamiento en 20 pacientes

Calificación de resultados

Grupo de Totaltratamiento 1 2 3 4 de pacien

Clotrimazol 6 3 1 0 10

Placebo 1 0 0 9 10

La enseñanza Los tratamientos exitosos para enfermeddes se encuentran sólo por medio de la investigación. En ecaso, aunque se sabe que el clotrimazol ocasiona efectos laterales adversos cuando se administra durante un perioprolongado, los estudios preliminares que emplean clotrimzol oral con una programación intermitente han mostrado bneficios clínicos. El uso de métodos estadísticos perma los investigadores clínicos cuantificar resultados de ttamientos médicos, lo que les presta credibilidad a

hallazgos.

Fuente: C. H. Kirkpatrick y D. W. Alling, “Treatment of Chronic Oral Candisis with Clotrimazole Troches: A Controlled Clinical Trial”, en The New Engl

Journal of Medicine 299(1978): 1201-1203.

Del libro de textoal mundo real



Repaso del capítulo● Términos introducidos en el capítulo 14

Coeficiente de correlación de rangos Medida del gradode asociación entre dos variables que se basa en los rangoso clasificación de las observaciones, no en sus valores nu-méricos.

Correlación de rango Método para hacer análisis de corre-

lación cuando los datos no están disponibles en forma numé-rica, pero se tiene información suficiente para clasificar losdatos.

Corrida Secuencia de ocurrencias idénticas precedidas yseguidas de ocurrencias diferentes o por ninguna.

Prueba de corridas de una sola muestra Método no para-métrico para determinar la aleatoriedad con que se seleccio-naron los elementos de una muestra.

Prueba de Kolmogorov-Smirnov Prueba no paramétricaque no requiere que los datos se agrupen para determinarsi existe una diferencia significativa entre la distribución

de frecuencias observada y la distribución de frecuenciasteórica.

Prueba de Kruskal-Wallis Método no paramétprobar si tres o más muestras independientes se extrpoblaciones con la misma distribución. Es una versiramétrica de ANOVA, que estudiamos en el capítul

Prueba de los signos Prueba para la diferencia ent

servaciones por pares, donde los signos ϩ y Ϫ suslos valores cuantitativos.

Pruebas de sumas de rangos Familia de pruebasmétricas que usan la información de orden en un codatos.

Pruebas no paramétricas Técnicas estadísticas qcen suposiciones restrictivas respecto a la forma debución de población al realizar una prueba de hipót

Prueba U de Mann-Whitney Método no paramétdo para determinar si dos muestras independientes

jeron de poblaciones con la misma distribución.

Teoría de corridas Teoría desarrollada para permitibar la aleatoriedad del orden de las muestras.

● Ecuaciones introducidas en el capítulo 14

■ 14-1 U ϭ n1n2 ϩ Ϫ R1

Para aplicar la prueba U de Mann-Whitney, se necesita esta fórmula para derivar el estadístico U

dida de la diferencia entre las observaciones clasificadas y las dos variables. R1 es la suma de lode las observaciones de la variable 1; n1 y n2 son los números de elementos de las muestras 1 y 2tivamente. No es necesario que ambas sean del mismo tamaño.

■ 14-2 U ϭ

Si la hipótesis nula de una prueba U de Mann-Whitney es que n1 ϩ n2 observaciones provienen ciones idénticas, entonces la estadística U tiene una distribución de muestreo con una media iguducto de n1 y n2 dividido entre 2.

■ 14-3 U ϭΊ Esta fórmula nos permite derivar el error estándar del estadístico U de una prueba U de Mann-

■ 14-4 U ϭ n1n2 ϩ Ϫ R2

Esta fórmula y la ecuación 14-1 pueden utilizarse de manera intercambiable para derivar el estaen la prueba U de Mann-Whitney. Para ahorrar tiempo, utilice esta fórmula si el número de obnes en la muestra 2 es significativamente menor que el número de observaciones en la muestra

■ 14-5 K ϭ ⌺ Ϫ 3(n ϩ 1)

La fórmula calcula el estadístico K usada en la prueba de Kruskal-Wallis para diferentes medias o más poblaciones. La distribución de muestreo apropiada para K es ji-cuadrada con k Ϫ 1 grabertad, cuando cada muestra contiene al menos cinco observaciones.

■ 14-6 r ϭ ϩ 12n1n2ᎏ

n1 ϩ n2

R2

jᎏ

n j

12ᎏ

n(n ϩ 1)

n2(n2 ϩ 1)ᎏᎏ

2

n1n2(n1 ϩ n2 ϩ 1)ᎏᎏ

12

n1n2ᎏ2

n1(n1 ϩ 1)ᎏᎏ

2



Al hacer una prueba de corridas de una sola muestra, use esta fórmula para derivar la media de lación muestral del estadístico r . Esta r es igual al número de corridas en la muestra que se está p

■ 14-7 r ϭΊ Esta fórmula nos permite derivar el error estándar del estadístico r en una prueba de corridas dla muestra.

■ 14-8 r s ϭ 1 Ϫ

El coeficiente de correlación de rangos, r s, es una medida de la cercanía de asociación entre dosclasificadas.

■ 14-9 r s ϭ

Esta fórmula nos permite calcular el error estándar de r s , en una prueba de hipótesis sobre el code correlación de rangos.

■ 14-10 Dn ϭ máx ⏐F e Ϫ F o⏐

Si comparamos este valor calculado con el valor crítico de Dn en la tabla K-S, podemos probar de ajuste de distribución.

● Ejercicios de repaso■ 14-49 Un entrenador de fútbol universitario tiene la teoría de que, en atletismo, el éxito se alimenta de

En otras palabras, piensa que ganar un campeonato un año incrementa la motivación del equiponar el siguiente. Expresó esta teoría a un estudiante de estadística, quien le pidió los registros dfracasos del equipo de los últimos años. El entrenador le dio una lista, especificando si el equiponado (G) o perdido (P) el campeonato ese año. Los resultados de esta cuenta son:

G, G, G, G, G, G P, G, G, G, G, G, P, G, G, G, G, P, P, G, G, G, G, G, G

a) A un nivel de significancia de 10%, ¿es aleatoria la ocurrencia de éxitos y fracasos?b) Su respuesta al inciso a), combinada con una inspección ocular de los datos, ¿le dice algo

prueba de corridas de una sola muestra?

■ 14-50 Un pequeño aeropuerto metropolitano abrió una nueva pista, creando una nueva trayectoria de vbre un área residencial de ingresos altos. Las quejas por ruido excesivo han inundado a las autoriroportuarias hasta el punto de que las dos principales aerolíneas que dan servicio a la ciudad hanpantallas acústicas sobre las turbinas de los jets para reducir el ruido y ayudar a aliviar la preslas autoridades. Ambas aerolíneas desean saber si las pantallas han ayudado a reducir el númer jas levantadas contra el aeropuerto. Si no es así, eliminarán las pantallas porque incrementan elde combustible. Basándose en las siguientes muestras aleatorias de 13 días antes de la instalacpantallas y 13 días después, ¿podría decirse, a un nivel de significancia de 0.02, que la instalación dtallas ha reducido el número de quejas?

Quejas antes y después de instalar de pantallas acústicas

Antes 27 15 20 24 13 18 30 46 15 29 17

Después 26 23 19 12 25 9 16 12 28 20 16 ■ 14-51 La American Broadcasting System (ABS) ha invertido una considerable cantidad de dinero en

programa de televisión, High Times, que constituyó la entrada de ABS al mercado de comediasción y presentaba la vida despreocupada de un dormitorio universitario. Desafortunadamente, ema no ha tenido el éxito esperado, y el patrocinador está considerando su cancelación. Para fortratings, ABS introdujo dormitorios mixtos en la serie. Los siguientes son los resultados de enclefónicas antes y después del cambio. Las encuestas se hicieron en varias áreas metropolitanas ites, de manera que los resultados son una combinación de las ciudades.a) Usando una prueba U , ¿puede inferir al nivel de significancia de 0.10 que el cambio en el fo

la serie ayudó a los ratings?

1ᎏ

n ෆ Ϫ ෆ 1 ෆ

6⌺d 2ᎏᎏ

n(n2 Ϫ 1)

2n1n2(2n1n2 Ϫ n1 Ϫ n2)ᎏᎏᎏ

(n1 ϩ n2)2(n1 ϩ n2 Ϫ1)



b) ¿Los resultados de su prueba dicen algo respecto al efecto del sexo en los ratings de los progtelevisión?

Proporción de audiencia antes y después del cambio a dormitorios mixtos

Antes 22 18 19 20 31 22 25 19 22 24 18 16 14 28 23

Después 25 28 18 30 33 25 29 32 19 16 30 33 17 25

■ 14-52 Los oficiales de personal realizan evaluaciones de preparación general para las unidades militarlificación máxima para estas pruebas es 100 puntos. Los oficiales de transporte se quejan de quelúan más bajo que a los oficiales de infantería, porque la mayoría de los oficiales de personal vlas filas de infantería. A un nivel de significancia de 0.05, pruebe la hipótesis de que no hay diferencalificaciones de ambas unidades durante 10 semanas elegidas al azar.

Tabla de calificaciones

Comando de infantería 72 80 86 90 95 92 88 96 91 82

Comando de transporte 80 79 90 82 81 84 78 74 85 71

La tabla MR12-1, presenta los resultados de las calificaciones del 1992 Business Week y U.S

World Report de las escuelas de administración de Estados Unidos. Use esa información para reejercicios 14-53 y 14-54.

■ 14-53 Considere las 10 mejores escuelas en la clasificación global del Business Week . Reajustando las ciones de estudiantes y compañías de reclutamiento para esas 10 escuelas, obtenemos

PuntuacionesEscuela por estudiantes por compañías

Northwestern 2 1

Chicago 7 4

Harvard 8 3

Wharton 9 2

Michigan 6 6

Dartmouth 1 10

Stanford 3 7

Indiana 4 8

Columbia 10 5

North Carolina 5 9

Para ␣ ϭ 0.10, ¿difieren las puntuaciones de las compañías y las de los estudiantes?■ 14-54 Considerando las 20 escuelas, ¿difieren significativamente las puntuaciones de las dos revist

ϭ 0.10?■ 14-55 El Comité de Medios y Arbitrios de la Cámara de Representantes de Estados Unidos intentaba ev

resultados de bajar los impuestos a personas físicas durante el año anterior. El propósito era esteconomía, apoyados en la teoría de que con la reducción, el consumidor podría gastar los ahorrimpuestos. El comité empleó un grupo de investigación de consumidores independiente para seuna muestra de casas y mantener registros de gastos de consumidores tanto antes como después dta en marcha de la legislación. A continuación se muestra una porción de los datos del grupo dgación:

1 $ 3,578 $ 4,296

2 10,856 9,000

3 7,450 8,200

4 9,200 9,200

5 8,760 8,840

6 4,500 4,620

7 15,000 14,500

8 22,350

9 7,346

10 10,345

11 5,298

12 6,950

13 34,782

14 12,837

Programa de gastos del consumidorAntes de la Después de la Antes de la Des

Casa legislación legislación Casa legislación le

(c



Para un nivel de significancia del 3%, determine si la política de reducción de impuestos logrótivos deseados.

■ 14-56 Muchas compañías de entretenimiento han invertido en parques de diversión vinculados con pelítosas. La asistencia depende de muchos factores que incluyen el clima. ¿Debe considerarse elevento aleatorio?

■ 14-57 Dos pronosticadores del estado del tiempo en la televisión discutían un día sobre si los años colluvias tendían a ocurrir en rachas. Uno de ellos dijo que pensaba que había patrones de cantidadvia anual, y que varios años húmedos a menudo eran seguidos por algunos años más secos que dio. La otra pronosticadora se mostraba escéptica y dijo que pensaba que la cantidad de lluviaaños consecutivos era bastante aleatoria. Para investigar la cuestión, decidieron revisar las lluviaabajo (B) o arriba (A) de la mediana de lluvia anual. A continuación se presenta un resumen de tados:

A,A,A, B, B, B, A, B, A,A, B, B, A, B, A, B, A,A, B, B, A,A,A, B,A, A,

A, A,A, B, B, B, A, B, B, B, A, B, A,A, A, B, A,A, A, B, A, B, B, A, B, B

Si los pronosticadores prueban a un nivel de significancia del 5%, ¿concluirán que las cantidadede lluvia no ocurren con patrones?

■ 14-58 Anne J. Montgomery, directora administrativa de educación ejecutiva en la Southern Universittipos de material promocional para anunciar seminarios: cartas personales y folletos. Tiene una fianza en que los folletos son el método más efectivo. Ha recolectado datos sobre el número deque asistieron a cada uno de los últimos 10 seminarios promovidos por cada método. Al nivel dcancia de 0.15, ¿es acertado lo que cree?

Número de asistentes

Carta personal 35 85 90 92 88 46 78 57 85 67

Folleto 42 74 82 87 45 73 89 75 60 94

■ 14-59 La Asociación Nacional para Mejor Publicidad para Niños (NABAC),un grupo de consumidoremueve mejoras en la televisión para niños, realizó un estudio sobre el efecto de la publicidad loen la mañana. Específicamente, el grupo deseaba saber si la publicidad dirigida a los niños estimgrado significativo de compras, y si existía una correlación positiva entre el tiempo de publicidalevisión los sábados en la mañana y las ventas de productos.

La NABAC seleccionó el mercado de cereales de desayuno para niños como un grupo de muleccionó productos cuyo mensaje publicitario estuviera dirigido totalmente a los niños. Los resuestudio se presentan a continuación. (El cereal de ventas más altas tiene rango l.)

Comparación de tiempo de publicidad por televisióny ventas de productos

Tiempo depublicidad Rango de

Producto en minutos ventas

Captain Grumbles 0.50 10

Obnoxious Berries 3.00 1

Fruity Hoops 1.25 9

OO La Granola 2.00 5

Programa de gastos del consumidor

Antes de la Después de la Antes de la DesCasa legislación legislación Casa legislación le

15 7,926 8,437

16 5,789 6,006

17 11,597 12,093

18 9,612 9,675

19 3,461 3,740

20 4,500 4,500

21 8,341 8,500

22 7,589 7,60923 25,750 24,321

24 14,673

25 5,003

26 10,940

27 8,000

28 14,256

29 4,322

30 6,828

31 7,549 32 8,129



Comparación de tiempo de publicidad por televisióny ventas de productos

Tiempo de publicidad Rango deProducto en minutos ventas

Sweet Tweets 3.50 2

Chocolate Chumps 1.00 11

Sugar Spots 4.00 3

County Cavity 2.50 8

Crunchy Munchies 1.75 6

Karamel Kooks 2.25 4

Flakey Flakes 1.50 7

¿Puede el grupo concluir que existe una correlación de rangos positiva entre el tiempo de publictutina en televisión y el volumen de ventas de los cereales para niños? Pruebe a un nivel de signdel 5%.

Los fondos mutuos proporcionan la oportunidad de participar en el mercado de valores a los pequversionistas, quienes pueden seleccionar entre más de 3,000 fondos, buscando aquellos que les prnen seguridad a sus ahorros y los mayores rendimientos totales (los dividendos ganados por el folos incrementos en el precio de las acciones propiedad del fondo). Los fondos exitosos atraen msiones, de modo que la cantidad de dinero que se maneja puede ascender a varios miles de mildólares. Algunos observadores del mercado consideran un tamaño grande de fondo como una d

ja, porque puede tener tantas acciones de una compañía particular que un intento de liquidar una puede bajar el precio. La tabla MR14-3 presenta información del tamaño y los rendimientos de lodos mutuos más grandes a finales de septiembre de 1992. Use esa información para hacer los e14-60 y 14-61.

14-60 a) ¿Existe una relación significativa entre el tamaño del fondo y los rendimientos totales promnados en los últimos 5 años?b) ¿Existe una relación significativa entre los rendimientos totales de 1992 y los rendimien

últimos 5 años?

Los 20 fondosmutuos más grandes,

septiembre de 1992

Tabla MR 14-3 RendimientosTamaño totales

(miles de millones anualizados (%)

Fondo de dólares) 1992 Prom. de

Fidelity Magellan 21.05 9.51 11.

Investment Co. of America 14.03 11.08 9.

Washington Mutual 9.48 11.35 8.

Windsor 8.23 9.53 7.

Vanguard Index 500 5.77 10.87 8.

Income Fund of America 5.64 16.33 11.

Fidelity Puritan 5.62 15.11 9.

Wellington 5.10 11.44 9.

AIM Weingarten 4.98 5.77 11.

Windsor II 4.80 14.71 9.

Dean Witter Dividend 4.67 11.42 10.Janus 4.66 8.55 14.

Fidelity Equity-Income 4.65 12.45 7.

American Mutual 4.60 11.59 9.

Twentieth Century Select 4.47 2.02 6.

Twentieth Century Growth 4.40 10.84 9.

Fidelity Growth & Income 4.29 10.51 11.

Templeton World 4.02 7.00 5.4

Twentieth Century Ultra 4.01 1.24 14.

Pioneer II 3.97 9.92 4.

Fuente: Standard & Poor’s/Lipper Mutual Fund Profiles, 6(4) (noviembre de 1992).



14-61 Dos administradores de fondos grandes, Fidelity y Twentieth Century, tienen varios registros de la tabla MR14-3. ¿El rendimiento de los fondos ofrecidos por estas dos compañías proviene dtribución diferente del rendimiento de los restantes 13 fondos? Pruebe esto para los rendimientde 1992 y para los rendimientos totales promedio de 5 años.

■ 14-62 American Motoring Magazine probó recientemente la efectividad de frenado de dos materialesde freno. Los datos que representan las distancias de frenado para ambos tipos de materiales se a continuación. Al nivel de significancia de 0.05, pruebe la hipótesis de que no hay diferencia etividad de los materiales.

Distancia de frenado (pies)

Unión de grafito 110 120 130 110 100 105 110 130 145 125

Bronce aglomerado 100 110 135 105 105 100 100 115 135 120

■ 14-63 Como parte de una encuesta sobre la calidad de restaurantes, una revista local pidió a los residárea que clasificaran dos restaurantes especializados en cortes de carne. Los sujetos debían valoterísticas como calidad de la comida, atmósfera, servicio y precio en una escala de 1 a 10. Drecolectar los datos, uno de los propietarios de los restaurantes propuso que se realizaran variaestadísticas. Específicamente mencionó que le gustaría ver una media y una desviación estánlas respuestas a cada pregunta sobre cada restaurante, con el fin de ver cuál había calificado mejempleados de la revista refutaron estas sugerencias, observando que la calidad de los datos de e justificaría un análisis estadístico detallado. Argumentaron que lo importante era como clasifiresidentes a los dos restaurantes. Evalúe los argumentos presentados por el propietario del restpor los empleados de la revista.

■

14-64 Se pidió a algunos estudiantes de administración del último año entrevistados por la compañíaros Ohio no comentar sus entrevistas con otros estudiantes de la escuela hasta que se hubiera idotadora. Sin embargo, ella sospechó que los últimos solicitantes sabían más acerca de qué buscacorrectas sus sospechas? Para descubrirlo, clasifique las puntuaciones de la entrevista que obtuvsujetos dados en la tabla. Después pruebe la significancia del coeficiente de correlación de ranlas puntuaciones y el número de entrevista. Use el nivel de significancia de 0.02.

Número de Número de Número de Número deentrevista Puntuación entrevista Puntuación entrevista Puntuación entrevista P

1 63 6 57 11 77 16

2 59 7 76 12 61 17

3 50 8 81 13 53 18

4 60 9 58 14 74 19

5 66 10 65 15 82 20

■ 14-65 Hace más de tres años, la Administración de Salud y Seguridad Ocupacional de Estados Unidosrequirió la implantación de varias medidas de seguridad en la planta de aluminio de NorthbridOSHA desea saber si los cambios dieron como resultado menos accidentes en la planta. Se recestos datos:

Accidentes en la planta de NorthbridgeEne. Feb. Mar. Abr. May. Jun. Jul. Ago. Sep. Oct. Nov

1992 5 3 4 2 6 4 3 3 2 4 5

1993 4 4 3 3 3 4 0 5 4 2 0

1994 3 2 1 1 0 2 4 3 2 1 1

1995 2 1 0 0 1 2

a) Determine la mediana del número de accidentes por mes. Si las medidas de seguridad han tivas, debemos encontrar que los primeros meses tienen un valor más alto que la mediana y lomás bajo. En consecuencia, habrá un pequeño número de corridas arriba y abajo de la medilice una prueba al nivel de significancia de 0.03 para ver si los accidentes están distribuidos mente.

b) ¿Qué puede concluir respecto a la efectividad de las medidas de seguridad?■ 14-66 Un servicio de ambulancias del condado calcula que por cada municipio que atiende, durante un

do de seis horas, existe un 35% de probabilidad de recibir al menos una llamada de asistencia. Lte es una muestra aleatoria de 90 días:



Número de turnos durante los cuales se recibieron llamadas 0 1 2 3 4

Número de días 5 35 30 13 7

Al nivel de significancia de 0.05, ¿siguen estas llamadas de asistencia una distribución binomial?

La empresa Overseas Shipholding Group, Inc., tiene interés en comprar 64 buques, clasificados como cgueros, transportadores de productos petroleros (PPC) o buques-tanque. Los tipos de buques, registrlos años en los que fueron construidos se dan en la tabla MR14-4. Use esta información para hacer ejercicios 14-67 y 14-68.

14-67 ¿Tienen la misma antigüedad las flotas de Estados Unidos y las extranjeras? Es decir, ¿puede concluir los datos de años de construcción para las dos flotas provienen de la misma distribución?

14-68 ¿Son las distribuciones de antigüedad de los tres tipos de transportadores significativamente diferente

■ 14-69 Jim Bailey, propietario de Crow’s Nest Marina, cree que el número de horas de trabajo de un motor de te en agua salada, y no la edad del bote, es el mejor pronosticador de fallas del motor. Su gerente de vicio ha recabado datos de sus registros de reparación de motores descompuestos. Al nivel de significcia de 0.05, ¿está Jim en lo correcto?

Horas Antigüedad del Costo deMotor en agua salada motor (años) reparación (dólares)

1 300 4 625

2 150 6 350

3 200 3 390

4 250 6 530

5 100 4 200

6 400 5 1,000

7 275 6 550

8 350 6 800

9 325 3 700

10 375 2 600

Datos de la flota delOverseas Shipholding

Group

Tabla MR14-4 Tipo Registro Construcción Tipo Registro Construcción Tipo Registro Cons

De carga EE.UU. 1978 De carga No EE.UU. 1973 PPC No EE.UU. 1

De carga EE.UU. 1978 De carga No EE.UU. 1981 PPC No EE.UU. 1

PPC EE.UU. 1983 De carga No EE.UU. 1983 PPC No EE.UU. 1

PPC EE.UU. 1982 De carga No EE.UU. 1983 Tanques No EE.UU. 1




Tanques EE.UU. 1974 De carga No EE.UU. 1980 Tanques No EE.UU. 1






Tanques EE.UU. 1971 PPC No EE.UU. 1986 Tanques No EE.UU. 1

Tanques EE.UU. 1970 PPC No EE.UU. 1986 Tanques No EE.UU. 1De carga No EE.UU. 1982 PPC No EE.UU. 1986 Tanques No EE.UU. 1

De carga No EE.UU. 1982 PPC No EE.UU. 1987 Tanques No EE.UU. 1




De carga No EE.UU. 1990 PPC No EE.UU. 1989

De carga No EE.UU. 1973 PPC No EE.UU. 1979

Fuente: Overseas Shipholding Group, Inc., 1991 Annual Report .



■ 14-70 SavEnergy, un grupo activista internacional preocupado por el dominio total de las áreas occideel uso de la energía, ha afirmado que el tamaño de la población y el consumo de energía tienen ulación negativa. Sus oponentes afirman que no existe correlación. Usando los siguientes datos,hipótesis de que no existe una correlación de rangos entre el número de habitantes y el consumogía, contra la afirmación de correlación negativa de SavEnergy. Use un nivel de significancia d

Habitantes Consumo totalen 1989 (millones) de energía (1015 joules)

Estados Unidos 249 68

Latinoamérica 438 16

África 646 11Europa 499 65

Unión Soviética 289 54

India 835 9

China 1,100 24

■ 14-71 Los accidentes en carretera ocasionaron la muerte de más de 75,000 ocupantes de autos de pastre 1995 y 1996. Usando esa sombría estadística como punto de inicio, los investigadores del InSeguridad en Carreteras calcularon las tasas de decesos para las 103 series de vehículos más vLos vehículos fueron clasificados como furgonetas y vans, autos de cuatro puertas, autos de doo autos deportivos o especializados. Otra estratificación en cada categoría etiquetó a los vehícugrandes, medianos o pequeños. Considerando las tasas (decesos por 10,000 vehículos registra

autos de cuatro puertas, las cifras son las siguientes:Grandes 1.2 1.3 1.4 1.5 1.5 1.5 1.6 1.8

Medianos 1.1 1.2 1.2 1.2 1.3 1.3 1.3 1.3 1.4

1.5 1.6 1.6 1.6 1.7 1.7 1.8 1.9 2.0

2.3 2.4 2.5 2.6 2.9

Pequeños 1.1 1.5 1.6 1.7 1.8 2.0 2.0 2.0 2.3

2.6 2.8 3.2 4.1

Use la prueba de Kruskal-Wallis para probar si las tres medias de población son, en efecto, iguabe al nivel de significancia de 0.05.

■ 14-72 El año 1996 fue particularmente malo en cuanto a lesiones de jugadores de béisbol profesionalsiguientes datos, ¿una prueba de signo para datos por pares indica que los jugadores de la Liga

na sufrieron significativamente más lesiones que sus análogos de la Liga Nacional? Use un nivnificancia de 0.05.

Ubicación Ubicaciónde la lesión LA LN de la lesión LA LN

Hombro 46 22 Espalda 10 7

Cuello 3 0 Muñeca 10 2

Costillas 7 5 Cadera 1 1

Codo 21 19 Mano 6 4

Dedo de la mano 7 5 Tobillo 6 4

Muslo 17 14 Pie 1 4

Ingle 7 3 Dedo del pie 0 1

Rodilla 16 18 Otros 10 4

■ 14-73 La investigación continua sobre los patrones de clima que pueden correlacionarse con las mancres se han enfocado en la temperatura polar (la temperatura promedio en la estratosfera arribaNorte) durante periodos en que soplan ciertos vientos ecuatoriales. Cuando estos vientos vienen la temperatura polar parece subir y bajar con la actividad solar. Cuando los vientos son del estperatura parece hacer lo opuesto de lo que el sol hace. A partir de los datos, calcule los coefcorrelación de rango entre estas variables y pruebe, al nivel de significancia de 0.05, si las relapotéticas se mantienen (correlación positiva para vientos del oeste, correlación negativa para veste).



Temperaturapolar (°F)

Vientos VientosActividad solar del este del oeste

230 Ϫ85 Ϫ76

160 Ϫ97 Ϫ86

95 Ϫ88 Ϫ100

75 Ϫ85 Ϫ110

100 Ϫ90 Ϫ108

165 Ϫ96 Ϫ85

155 Ϫ91 Ϫ70

120 Ϫ76 Ϫ100

75 Ϫ80 Ϫ110

65 Ϫ86 Ϫ112

125 Ϫ90 Ϫ99

195 Ϫ104 Ϫ91

190 Ϫ95 Ϫ93

125 Ϫ99 Ϫ99

75 Ϫ73 Ϫ103

■ 14-74 El 31 de diciembre de 1992, las autoridades de la autopista de Nueva Jersey emitieron una conpara redimir algunos de sus bonos de $5,000. Los bonos eran parte de una emisión de $45,009,000 bonos, con una tasa de interés del 4.85% y originalmente pagadera en 2001. Las autoridadefectivo a la mano o encontraron una fuente de dinero menos costosa, y exigieron el cobro de lpara reducir sus gastos de intereses. Los bonos seleccionados para su rescate se numeraron:

5 8 16 21 183 646 1018 1044 1045 1233

1616 1794 1908 2069 2072 2172 2922 2927 2930 3044

3925 4225 4283 4303 4312 4316 4347 4380 5189 6266

6281 6291 7107 7114 7128 7145 7230 7394 8162 8172

8179 8180

Fuente: The Wall Street Journal (7 de enero de 1993): C20 .

a) Suponiendo que los bonos se seleccionaron aleatoriamente para su rescate, ¿cuántos esperarí

números entre 1 y 1500, 1501 y 3000, . . . , 7501 y 9000?b) Use la prueba de bondad de ajuste ji-cuadrada, estudiada en el capítulo 11, para ver si es r

concluir que los bonos cobrados se eligieron aleatoriamente.c) Use la prueba de Kolmogorov-Smirnov para ver si la selección aleatoria de los bonos cobrad

hipótesis razonable.d) Compare sus resultados de los incisos b) y c).

■ 14-75 Los analistas “técnicos” de acciones examinan cuidadosamente los patrones comerciales de lode las acciones y, en el límite, ignoran las noticias “fundamentales” del desempaño y proyectocompañía (o industria). Un analista observó cada media hora de actividades bursátiles el índice iDow Jones desde enero de 1987 hasta abril de 1991 y registró cuando el promedio subía (S) o ben comparación con la media hora anterior. ¿Es la siguiente secuencia de medias horas en que s

ja el promedio durante una semana un patrón aleatorio?

Lunes BSBBSSSSBSSSSS

Martes SSBBBBSBBBSSBS

Miércoles SSBSSSSSBBSBSB

Jueves SBBSSSSSBBSSSB

Viernes SSBSSSSSBBBSSSFuente: Yale Hirsch , The 1993 Stock Tra-

der’s Almanac (Old Tappan, NJ: The

Hirsch Organization) 1992, pág. 117) .

■ 14-76 Los gerentes de negocios con operaciones de servicios deben manejar las horas pico en las que llchos clientes al mismo tiempo. El gerente del quiosco de información en un centro comercial de



ras de la ciudad recolectó los siguientes datos de las llegadas por minuto entre las 7:10 y 8:00 lnoche en que cierra tarde el centro comercial.

Número de llegadas 1 2 3 4 5 6 7 8 9 10

Frecuencia 5 3 2 6 6 2 6 10 4 4

Pruebe si una distribución de Poisson con una media de seis describe adecuadamente estos datnivel de significancia de 0.05.

■ 14-77 Los resultados de la primera carrera de 10 km de la Asociación Atlética de Carolina mostraron ete orden de finalistas hombres y mujeres:

¿La llegada a la meta de las mujeres fue aleatoria? Use el nivel de significancia de 0.20.■ 14-78 Se dio a varios grupos una lista de 30 actividades y avances tecnológicos y se les pidió que los

ran considerando el riesgo de morir como consecuencia de cada uno. Los resultados se muestraguiente tabla. Calcule el coeficiente de correlación de rangos de cada grupo relativo a la clasifilos expertos. ¿Qué grupo pareció tener la percepción más exacta de los riesgos implicados?

A ϭ ExpertosB ϭ Liga de Mujeres VotantesC ϭ Estudiantes universitarios

D ϭ Miembros del Club CívicoRiesgo A B C D

Vehículos de motor 1 2 5 3

Fumar 2 4 3 4

Bebidas alcohólicas 3 6 7 5

Armas de fuego 4 3 2 1

Cirugía 5 10 11 9

Motocicletas 6 5 6 2

Rayos X 7 22 17 24

Pesticidas 8 9 4 15

Energía eléctrica (no nuclear) 9 18 19 19

Natación 10 19 30 17Anticonceptivos 11 20 9 22

Aviación general (privada) 12 7 15 11

Grandes construcciones 13 12 14 13

Preservadores de comida 14 25 12 28

Bicicletas 15 16 24 14

Aviación comercial 16 17 16 18

Trabajo policial 17 8 8 7

Trabajo de bomberos 18 11 10 6

Transporte ferroviario 19 24 23 20

Energía nuclear 20 1 1 8

Colorantes de comida 21 26 20 30

Aparatos domésticos 22 29 27 27

Caza 23 13 18 10

Antibióticos prescritos 24 28 21 26

Vacunaciones 25 30 29 29

Aerosoles 26 14 13 23

Fútbol de bachillerato y univ. 27 23 26 21

Podadoras eléctricas 28 27 28 25

Alpinismo 29 15 22 12

Esquí 30 21 25 16



Documents

Aacap 14 Metodos No Parametricos