20
1 Capítulo 12. Métodos no paramétricos Los métodos presentados en los capítulos anteriores, se basaban en el conocimiento de las distribuciones muestrales de las diferencias de porcentajes o promedios, cuando las muestras provenían de una misma población. Se aceptaba entonces usar la aproximación normal, la distribución de t de Student o la distribución F de Fisher en el análisis de varianza, bajo el supuesto de que la hipótesis nula es cierta. Dado que en esos métodos se estiman los parámetros de las poblaciones de origen, esas técnicas estadísticas reciben el nombre de “paramétricas”. Hay situaciones en que, por el escaso número de observaciones, o por el nivel de medición de las variables, no es correcto o no es posible hacer supuestos sobre las distribuciones muestrales subyacentes. En tales casos se usan los métodos “no paramétricos” o de distribución libre. Aquí presentaremos algunos ejemplos de pruebas no paramétricas para el caso de dos muestras independientes, para el caso de dos muestras dependientes o pareadas y para la comparación de más de dos grupos en que no son aplicables los métodos paramétricos. Las pruebas paramétricas, asumen como distribución muestral la distribución Normal, este supuesto no siempre se cumple, sin embargo recurrimos a que estos métodos paramétricos son robustos. Además estos métodos son preferidos porque tienen mayor potencia. ¿Pero qué hacemos cuando no se cumple la normalidad o tenemos muy pocos datos? Opciones: 1. Si hay valores extremos y el tamaño muestral es pequeño cualquier método de inferencia es dudoso. 2. A veces podemos transformar los datos (log es la transformación más usada) 3. También existen métodos paramétricos que asumen otras distribuciones, por ejemplo para el tiempo que demora en fallar un producto se usa una distribución de Weibull (ver diagrama adjunto). 4. Finalmente, existen los métodos que no asumen una distribución, llamados no paramétricos.

Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

  • Upload
    dangdat

  • View
    220

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

1

Capítulo 12. Métodos no paramétricos

Los métodos presentados en los capítulos anteriores, se basaban en el conocimiento de las distribuciones

muestrales de las diferencias de porcentajes o promedios, cuando las muestras provenían de una misma

población. Se aceptaba entonces usar la aproximación normal, la distribución de t de Student o la

distribución F de Fisher en el análisis de varianza, bajo el supuesto de que la hipótesis nula es cierta. Dado

que en esos métodos se estiman los parámetros de las poblaciones de origen, esas técnicas estadísticas

reciben el nombre de “paramétricas”.

Hay situaciones en que, por el escaso número de observaciones, o por el nivel de medición de las

variables, no es correcto o no es posible hacer supuestos sobre las distribuciones muestrales subyacentes.

En tales casos se usan los métodos “no paramétricos” o de distribución libre.

Aquí presentaremos algunos ejemplos de pruebas no paramétricas para el caso de dos muestras

independientes, para el caso de dos muestras dependientes o pareadas y para la comparación de más de dos

grupos en que no son aplicables los métodos paramétricos.

Las pruebas paramétricas, asumen como distribución muestral la distribución Normal, este supuesto no

siempre se cumple, sin embargo recurrimos a que estos métodos paramétricos son robustos. Además

estos métodos son preferidos porque tienen mayor potencia.

¿Pero qué hacemos cuando no se cumple la normalidad o tenemos muy pocos datos?

Opciones:

1. Si hay valores extremos y el tamaño muestral es pequeño cualquier método de inferencia es

dudoso.

2. A veces podemos transformar los datos (log es la transformación más usada)

3. También existen métodos paramétricos que asumen otras distribuciones, por ejemplo para

el tiempo que demora en fallar un producto se usa una distribución de Weibull (ver

diagrama adjunto).

4. Finalmente, existen los métodos que no asumen una distribución, llamados no

paramétricos.

Page 2: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

2

Page 3: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

3

Los métodos no paramétricos son la manera más directa de solucionar el problema de falta de

normalidad. Estos métodos son muy simples de usar y están disponibles en SPSS. Pero tienen dos

desventajas. Primero que tienen menos poder1 que las equivalentes soluciones paramétricas. También

es importante distinguir que las pruebas de hipótesis no paramétricas NO contestan a la misma

pregunta que las pruebas paramétricas. Por ejemplo si queremos hacer un test para docimar sobre el

centro de la distribución, el test no paramétrico establece la hipótesis en términos de la mediana y el

test paramétrico usa la media.

Análisis Test Paramétrico Test no paramétrico

Una muestra

Test t simple

Test del signo de rangos de

Wilcoxon

Muestras pareadas

Test t simple

Test del signo de rangos de

Wilcoxon

Dos muestras independientes

Test t para muestras

independientes

Test de suma de rangos de

Wilcoxon

Más de dos muestras

independientes

ANOVA de un factor

Test de Kruskal-Wallis

Diseño en bloques aleatorios

ANOVA con bloques

Ji cuadrado de Friedman

Existen dos grandes tipos de test no paramétricos, los que usan cuentas o números y los que usan

rangos. En este capítulo revisaremos del test de suma de rangos de Wilcoxon y el Test de Kruskal-

Wallis.

1 Se define poder o potencia del test como la capacidad del test para detectar hipótesis nulas falsas. Potencia = 1-β

Page 4: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

4

Solución no paramétrica a la comparación de dos muestras independientes – Test de suma de

rangos de Wilcoxon

Ejemplo: Se tienen dos parcelas experimentales. En una de las parcelas se sacó completamente la

maleza y en la otra se dejó hasta 3 malezas por metro cuadrado. ¿Dañará la presencia de maleza la

producción de maíz? Malezas

por metro cuadrado

Producción de maíz

0 166,7 172,2 165,0 176,9

3 158,6 176,4 153,1 156,0

Hipótesis

En este problema la hipótesis nula es que la maleza no afecta la producción de maíz. La hipótesis

alternativa es que la producción es menor cuando hay maleza. Si estamos dispuestos a asumir que la

producción de maíz es Normal, o si tenemos un tamaño muestral razonablemente grande, usamos el

test t para medias independientes. Las hipótesis son:

211

210

:

:

µµ

µµ

>

=

H

H

Cuando la distribución no es Normal, podemos re-escribir las hipótesis en términos de medianas:

211

210

medianamediana:

medianamediana:

>

=

H

H

¿Qué tipo de test (paramétrico o no paramétrico) será el adecuado en este caso?

Hacemos la prueba de normalidad:

Page 5: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

5

Pruebas de normalidad

.241 4 . .938 4 .640

.341 4 . .819 4 .140

WEEDS

0

3

YIELD

Estadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova

Shapiro-Wilk

Corrección de la significación de Lillieforsa.

Gráfico Q-Q normal de YIELD

Para WEEDS= 0

Valor observado

178176174172170168166164

Norm

al espera

do

1.0

.5

0.0

-.5

-1.0

Gráfico Q-Q normal de YIELD

Para WEEDS= 3

Valor observado

180170160150

Norm

al espera

do

1.0

.5

0.0

-.5

-1.0

Tenemos muy pocos datos por lo tanto será adecuado hacer un test no paramétrico.

Page 6: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

6

Test de suma de rangos de Wilcoxon2

Este es un test de rangos. El primer paso será calcular los rangos de las observaciones.

Transformación a rangos

Ordenamos los datos de menor a mayor:

Producción 153,1 156,0 158,6 165,0 166,7 172,2 176,4 176,9

Rango 1 2 3 4 5 6 7 8

Pasar de los datos a sus rangos, es equivalente a transformar los datos. Los rangos retienen solamente el

orden de las observaciones y no el valor numérico.

Si la presencia de maleza afecta la producción de maíz esperamos que los rangos más pequeños sean de

ese grupo. Podemos comparar la suma de los rangos de los dos tratamientos:

Tratamiento Suma de rangos

Sin maleza 23

Con maleza 13

Por definición la suma de rangos de 1 a 8 es: 362

98

2

)1(=

×=

+nn, donde n es el número total de

observaciones.

Por lo tanto podemos calcular la suma en uno de los grupos y el otro tiene que ser la diferencia (36-

23=13)

Si no hay diferencia entre los tratamientos esperamos que los rangos sean la mitad en cada grupo, es

decir 18.

Test de suma de rangos de Wilcoxon

Se tiene una m.a.s de tamaño n1 de una población, y una segunda m.a.s de tamaño n2 de otra población.

Hay n observaciones en total, donde n = n1 + n2. Se calcula el rango de las n observaciones. El test

estadístico será la suma W de los rangos del grupo con menor suma de rangos, este será el estadístico

de suma de rangos de Wilcoxon. Si las dos poblaciones tienen la misma distribución continua,

entonces W tiene media:

2

)1(1 +=

nnWµ y desviación estándar:

12

)1(21 +=

nnnWσ

Donde n1 será el tamaño muestral del grupo con menor suma de rangos.

El test de suma de rangos de Wilcoxon rechaza la hipótesis nula de que las dos poblaciones tienen la

misma distribución cuando la suma de rangos W está lejos de su media.

2 Este test fue creado por el químico Frank Wilcoxon (1892-1965) en 1945.

Page 7: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

7

En el ejemplo del maíz queremos docimar:

H0: no hay diferencias en la distribución de la producción de maíz en los dos grupos

H1: la producción es mayor en el tratamiento sin malezas

Nuestro test estadístico W=13

Bajo Ho W tiene media: 182

)18(4=

+=Wµ y desviación estándar: 4641,3

12

)18(44=

+×=Wσ

Valor p = )|13( 0HWP ≤ Necesitamos conocer la distribución muestral de W bajo la hipótesis nula.

Existen tablas que dependen de n1 + n2.

Veamos la salida qué nos da SPSS:

Estadísticos de contrasteb

3.000

13.000

-1.443

.149

.200a

.200

.100

.043

U de Mann-Whitney

W de Wilcoxon

Z

Sig. asintót. (bilateral)

Sig. exacta [2*(Sig.

unilateral)]

Sig. exacta (bilateral)

Sig. exacta (unilateral)

Probabilidad en el punto

YIELD

No corregidos para los empates.a.

Variable de agrupación: WEEDSb.

La salida de SPSS nos da el valor p exacto para la distribución muestral de W. El valor p para la

hipótesis unilateral es 0,1 (valor p exacto según SPSS).

Si comparamos con el equivalente test paramétrico t = - 1,554, valor p=0,171/2=0,0855, llegamos a la

conclusión similar (recuerde que las hipótesis son distintas).

Prueba de muestras independientes

1.256 .305 -1.554 6 .171 -9.175 5.9056 -23.6254 5.2754

-1.554 4.495 .187 -9.175 5.9056 -24.8832 6.5332

Se han asumido

varianzas iguales

No se han asumido

varianzas iguales

YIELD

F Sig.

Prueba de Levene

para la igualdad de

varianzas

t gl Sig. (bilateral)

Diferencia

de medias

Error típ. de

la diferencia Inferior Superior

95% Intervalo de

confianza para la

diferencia

Prueba T para la igualdad de medias

Page 8: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

8

La aproximación Normal

El estadístico de suma de rangos W se aproxima a la distribución Normal cuando n es grande. Entonces

podemos formar un test z para estandarizar a W:

W

WWz

σµ−

=

El valor de z en el ejemplo del maíz nos da:

44,14641,3

1813−=

−=z

Esperamos rechazar para valores grandes de W si la hipótesis alternativa es verdadera, por lo que el

valor p aproximado es:

0749,09251,01)44,1( =−=−≤= ZPpValor

SPSS da el valor p exacto para W y el asintótico o aproximado que utiliza la aproximación a la Normal.

Además SPSS nos entrega el estadístico U de Mann-Whitney, este es equivalente al test de suma de

rangos de Wilcoxon.

Revisemos la solución no paramétrica del ejemplo del Tipo de aceite

Rangos

12 15.29 183.50

12 9.71 116.50

24

Tipo de aceite

Animal

Vegetal

Total

Absorción

N

Rango

promedio

Suma de

rangos

Estadísticos de contrasteb

38.500

116.500

-1.936

.053

.052a

U de Mann-Whitney

W de Wilcoxon

Z

Sig. asintót. (bilateral)

Sig. exacta [2*(Sig.

unilateral)]

Absorción

No corregidos para los empates.a.

Variable de agrupación: Tipo de aceiteb.

Empates

La distribución exacta de test de Wilcoxon para suma de rangos se obtiene asumiendo que todas las

observaciones tienen diferentes valores y por lo tanto su rango. En la práctica ocurre que muchas veces

tenemos valores iguales. Lo que hacemos es asignar el valor promedio del rango que ocupan.

Ejemplo: Observación 153 155 158 158 161 164

Rango 1 2 3,5 3,5 5 6

La distribución exacta del test de Wilcoxon se aplica a datos sin empates, por lo que deberemos ajustar

la desviación estándar en la presencia de empates.

Page 9: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

9

Comida

La comida que se vende en eventos al aire libre puede ser menos segura que la de restoranes porque se

prepara en lugares no acondicionados y a menudo por voluntarios. ¿Qué pensará la gente acerca de la

seguridad de la comida en ferias? Un estudio preguntó a asistentes a este tipo de eventos:

¿Qué tan a menudo piensa usted que se enferma la gente que consume comida en eventos al aire libre?

Las respuestas posibles eran:

1 = raramente

2 = de vez en cuando

3 = a menudo

4 = muy frecuentemente

5 = siempre

En total 303 personas respondieron a la pregunta. De estos 196 eran mujeres y 107 hombres.

¿Existe evidencia que hombres y mujeres difieren en su percepción acerca de la seguridad en la comida

de ferias al aire libre?

Tabla de contingencia Sexo * Respuesta

Recuento

13 108 50 23 2 196

22 57 22 5 1 107

35 165 72 28 3 303

F

M

Sexo

Total

1 2 3 4 5

Respuesta

Total

Comparamos los porcentajes por filas:

Tabla de contingencia Sexo * Respuesta

% de Sexo

6.6% 55.1% 25.5% 11.7% 1.0% 100.0%

20.6% 53.3% 20.6% 4.7% .9% 100.0%

11.6% 54.5% 23.8% 9.2% 1.0% 100.0%

F

M

Sexo

Total

1 2 3 4 5

Respuesta

Total

¿Es la diferencia entre sexos significativa?

H0: hombres y mujeres no difieren en sus respuestas

H1: uno de los dos sexos da sistemáticamente mayores respuestas que el otro

La hipótesis alternativa es de dos colas.

Como las respuestas posibles son sólo 5 hay muchos empates.

Page 10: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

10

Veamos la salida de SPSS:

Rangos

196 163.25 31996.50

107 131.40 14059.50

303

Sexo

F

M

Total

Respuesta

N

Rango

promedio

Suma de

rangos

Estadísticos de contrastea

8281.500

14059.500

-3.334

.001

.001

.000

.000

U de Mann-Whitney

W de Wilcoxon

Z

Sig. asintót. (bilateral)

Sig. exacta (bilateral)

Sig. exacta (unilateral)

Probabilidad en el punto

Respuesta

Variable de agrupación: Sexoa.

Tenemos suficiente evidencia para concluir que existen diferencias significativas entre la percepción

acerca de la seguridad de la comida al aire libre entre hombres y mujeres.

Como el tamaño de la muestra es grande podríamos haber usado el test paramétrico:

Prueba de muestras independientes

3.031 .083 3.361 301 .001 .33 .099

3.365 218.856 .001 .33 .099

Se han asumido

varianzas iguales

No se han asumido

varianzas iguales

Respuesta

F Sig.

Prueba de Levene

para la igualdad de

varianzas

t gl Sig. (bilateral)

Diferencia

de medias

Error típ. de

la diferencia

Prueba T para la igualdad de medias

Pero en este caso, tenemos argumentos a favor del test no paramétrico. El test paramétrico asume que

las respuestas tienen valor numérico y en realidad en una escala cualitativa. Usar rangos es más

apropiado en este caso.

Page 11: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

11

Solución no paramétrica a la comparación de más de dos muestras independientes - Test de

Kruskal-Wallis

El test de suma de rangos de Wilcoxon sirve para comparar dos tratamientos. Ahora veremos una

alternativa no paramétrica al ANOVA de un factor, es decir, para comparar más de dos tratamientos,

que corresponde al test de Kruskal-Wallis.

Veamos una nueva versión del problema de las malezas. El investigador en realidad probó 4 tipos

de malezas 0, 1, 3 y 9 por metro cuadrado.

Descripción de la producción bajo distintas condiciones de maleza:

Maleza n Media Desviación estándar

0 4 170.200 5.4216

1 4 162.825 4.4687

3 4 161.025 10.4933

9 4 157.575 10.1181

Gráfico Q-Q normal de YIELD

Para WEEDS= 0

Valor observado

178176174172170168166164

Norm

al espera

do

1.0

.5

0.0

-.5

-1.0

Gráfico Q-Q normal de YIELD

Para WEEDS= 1

Valor observado

168166164162160158156

Norm

al espera

do

1.0

.5

0.0

-.5

-1.0

Gráfico Q-Q normal de YIELD

Para WEEDS= 3

Valor observado

180170160150

Norm

al espera

do

1.0

.5

0.0

-.5

-1.0

Gráfico Q-Q normal de YIELD

Para WEEDS= 9

Valor observado

170160150140

Norm

al espera

do

1.0

.5

0.0

-.5

-1.0

Ya analizamos que en este caso es difícil probar normalidad con tan pocos datos, por lo tanto será

conveniente usar un método no paramétrico.

Page 12: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

12

Hipótesis y supuestos

El test F de ANOVA responde a la hipótesis:

.igualesson no medias dos menos al :

...:

1

210

H

H kµµµ ===

Los datos deben provenir de k poblaciones independientes, con distribución normal y con la misma

desviación estándar.

El test de Kruskal_Wallis es un test de rangos que reemplaza al test F de ANOVA. El supuesto acerca

de la independencia de las poblaciones sigue siendo importante, pero ya no necesitamos normalidad.

Asumiremos que la respuesta tiene una distribución continua en cada población.

H0: las k distribuciones son iguales

H1: una de ellas tiene valores sistemáticamente mayores

Si todas las distribuciones tienen la misma distribución, esta hipótesis la podemos simplificar.

H0: las k poblaciones tienen la misma mediana

H1: no todas las medianas son iguales

Recordemos la idea del ANOVA: tenemos una variación total observada de la respuesta como la suma

de dos partes, una que mide la variación entre los grupos o tratamientos (suma de cuadrados entre

tratamientos, SCE) y la otra que mide la variación entre las mediciones de un mismo tratamiento (suma

de cuadrados dentro de los tratamientos, SCD). El test F de ANOVA rechaza la hipótesis nula de que

las medias son iguales si la SCE es grande relativa a la SCD.

La idea del test de Kruskal-Wallis es calcular los rangos de todas las respuestas y luego aplicar el

ANOVA a los rangos en vez de las observaciones originales.

Test de Kruskal-Wallis

Se tienen k muestras aleatorias de tamaños n1, n2,...,nk. Hay n observaciones en total, donde n es la

suma de los ni. Se calcula el rango de las n observaciones y sea Ri la suma de los rangos en el i-esima

muestra o grupo. El estadístico de Kruskal-Wallis es:

)1(3)1(

12

1

2

+−+

= ∑=

nn

R

nnH

k

i i

i

Cuando los tamaños ni son grandes y las k poblaciones tienen la misma distribución, H tiene

aproximadamente una distribución de Ji-cuadrado con (k-1) grados de libertad.

El test de Kruskal-Wallis rechaza la hipótesis nula de que todas las poblaciones tienen la misma

distribución cuando H es grande.

Page 13: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

13

Vemos que así como el test de suma de rangos de Wilcoxon, el test de Kruskal-Wallis está basado en

suma de rangos, mientras mayor sea la diferencia entre los rangos de los grupos mayor evidencia de

que las respuestas son diferentes.

La distribución exacta del estadístico H de Kruskal-Wallis bajo la hipótesis nula depende de los

tamaños muestrales n1, n2,...,nk, por lo tanto las tablas son terribles. El cálculo de la distribución exacta

es tan complicado que los softwares generalmente usan la aproximación de χ2 para obtener el valor p.

Veamos lo rangos para el problema de las malezas.

Como antes, también tenemos que corregir cuando existen empates.

Revisemos los datos de las malezas:

Malezas por metro Producción

0 166,7 172,2 165,0 176,9

1 166,2 157,3 166,7 161,1

3 158,6 176,4 153,1 156,0

9 162,8 142,4 162,7 162,4

Tenemos que calcular los rangos de todos los datos ordenados. Luego calcular H. En SPSS podemos

calcular los rangos con: Transformar, Asignar rangos a casos

Grupos

Suma de Rangos 2

iR

0 52,5 2756,25

1 33,5 1122,25

3 25,0 625,0

9 25,0 625,0

Total 136

)17(34

0,625

4

0,625

4

25,1122

4

25,2756

)17(16

12−

+++=H

( ) 56,551125,1282272

12=−=H

Rangos

4 13.13

4 8.38

4 6.25

4 6.25

16

Maleza x mt2

0

1

3

9

Total

Producción

N

Rango

promedio

Estadísticos de contrastea,b

5.573

3

.134

.130

.000

Chi-cuadrado

gl

Sig. asintót.

Sig. exacta

Probabilidad en el punto

Producción

Prueba de Kruskal-Wallisa.

Variable de agrupación: Maleza x mt2b.

Page 14: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

14

La diferencia con el cálculo de SPSS se debe a la corrección por empates. Esta corrección hace que la

aproximación de Ji cuadrado sea más precisa. Es importante hacerla si hay muchos empates.

Podemos comparar este test no paramétrico con su equivalente paramétrico:

ANOVA

Producción

340.667 3 113.556 1.735 .213

785.543 12 65.462

1126.209 15

Inter-grupos

Intra-grupos

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

Vemos que llegamos a la misma conclusión, es decir que las malezas no afectan significativamente la

producción de maíz.

¿Ustedes qué creen?

Page 15: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

15

Vienesas

Se tienen datos del contenido en calorías y sodio de 3 tipos de vienesas: cerdo, mixtas, y de ave.

171720N =

TIPOS

avemixtocarne

CA

LO

RIA

S

220

200

180

160

140

120

100

80

60

Descriptivos

CALORIAS

20 155.80 25.220 5.639 144.00 167.60 90 190

17 158.71 25.236 6.121 145.73 171.68 107 195

17 122.47 25.483 6.181 109.37 135.57 86 170

54 146.22 29.696 4.041 138.12 154.33 86 195

carne

mixto

ave

Total

N Media

Desviación

típica Error típico Límite inferior

Límite

superior

Intervalo de confianza para

la media al 95%

Mínimo Máximo

Prueba de homogeneidad de varianzas

CALORIAS

.301 2 51 .741

Estadístico

de Levene gl1 gl2 Sig.

ANOVA

CALORIAS

14074.369 2 7037.184 10.987 .000

32664.965 51 640.490

46739.333 53

Inter-grupos

Intra-grupos

Total

Suma de

cuadrados gl

Media

cuadrática F Sig.

Page 16: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

16

CALORIAS

HSD de Tukeya,b

17 122.47

20 155.80

17 158.71

1.000 .937

TIPOS

ave

carne

mixto

Sig.

N 1 2

Subconjunto para alfa

= .05

Se muestran las medias para los grupos en los subconjuntos

homogéneos.

Usa el tamaño muestral de la media armónica =

17.895.

a.

Los tamaños de los grupos no son iguales. Se utilizará

la media armónica de los tamaños de los grupos. Los

niveles de error de tipo I no están garantizados.

b.

¿Cómo hacemos el análisis no paramétrico?

Rangos

20 32.83

17 33.53

17 15.21

54

TIPOScarne

mixto

ave

Total

CALORIASN

Rango

promedio

Estadísticos de contrastea,b

15.179

2

.001

Chi-cuadrado

gl

Sig. asintót.

CALORIAS

Prueba de Kruskal-Wallisa.

Variable de agrupación: TIPOSb.

¿Qué informamos a los consumidores de vienesas?

RANK of CALORIAS

HSD de Tukeya,b

17 15.206

20 32.825

17 33.529

1.000 .987

TIPOS

ave

carne

mixto

Sig.

N 1 2

Subconjunto para alfa

= .05

Se muestran las medias para los grupos en los subconjuntos

homogéneos.

Usa el tamaño muestral de la media armónica =

17.895.

a.

Los tamaños de los grupos no son iguales. Se utilizará

la media armónica de los tamaños de los grupos. Los

niveles de error de tipo I no están garantizados.

b.

Page 17: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

17

Lo que hicimos fue calcular los rangos de la variable respuesta (calorías) y luego analizamos

paramétricamente la nueva variable. Esta propuesta no es absolutamente convencional y fue publicada

por:

Conover, W. Iman, R. (1981) Rank transformation as a bridge between parametric and non parametric

studies. The American Statistician, 35: 124-133.

Fisher, L. Van Belle, G. En Biostatistics, Wiley (1993 ) proponen rutinariamente hacer tanto el análisis

paramétrico como su equivalente no paramétrico (cuando existe) y si las conclusiones son divergentes

investigar el motivo.

Revisemos el ejemplo de los tomates

Prueba de Kruskal-Wallis

Rangos

5 4.10

5 13.00

5 6.90

15

FertilizantesA

B

C

Total

Altura de las plantas (cm)N

Rango

promedio

Estadísticos de contrastea,b

10.448

2

.005

.000

.000

Chi-cuadrado

gl

Sig. asintót.

Sig. exacta

Probabilidad en el punto

Altura de las

plantas (cm)

Prueba de Kruskal-Wallisa.

Variable de agrupación: Fertilizantesb.

Hacemos las comparaciones múltiples en los rangos de la variable altura:

Page 18: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

18

Rank of altura

HSD de Tukeya

5 4.10000

5 6.90000

5 13.00000

.202 1.000

Fertilizantes

A

C

B

Sig.

N 1 2

Subconjunto para alfa

= .05

Se muestran las medias para los grupos en los subconjuntos

homogéneos.

Usa el tamaño muestral de la media armónica = 5.000.a.

Comparamos con el resultado paramétrico:

Altura de las plantas (cm)

HSD de Tukeya

5 34.00

5 36.40

5 43.20

.170 1.000

Fertilizantes

A

C

B

Sig.

N 1 2

Subconjunto para alfa

= .05

Se muestran las medias para los grupos en los subconjuntos

homogéneos.

Usa el tamaño muestral de la media armónica = 5.000.a.

Page 19: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

19

Correlación por rangos de Spearman*

Hasta ahora hemos analizado la correlación mediante el coeficiente de correlación lineal r de Pearson,

sin embargo existen otros coeficientes de correlación útiles, particularmente el coeficiente de

correlación por rangos de Spearman (rs). El uso de este coeficiente es apropiado cuando la escala de

medida de las variables de interés no es cuantitativa sino que es ordinal.

La r de Spearman es en realidad el coeficiente de correlación lineal r de Pearson, aplicado a los datos

que satisfacen los requisitos de una escala ordinal. La ecuación más sencilla para el cálculo de rs

cuando no existen empates, o existen pocos, con respecto al número de pares de datos (x, y) es:

( )nn

YRXRr

ii

s −

−−= ∑

3

2)()(6

1

Donde: )( iXR es el rango del i-ésimo dato X y )( iYR es el rango del i-ésimo dato Y.

Se puede mostrar que si los datos no tienen empates, la r de Pearson se reduce algebraicamente a la

ecuación anterior.

Ejemplo: Suponga que una gran corporación está interesada en calificar a un grupo de 12 aspirantes a

gerentes según su capacidad de liderazgo. Se contrata a dos psicólogos para realizar el trabajo. Como

resultado de sus exámenes y entrevistas, cada uno de los psicólogos, de manera independiente, han

clasificado a los aspirantes según su capacidad de liderazgo. Los rangos van de 1 a 12, donde 1

representa el nivel máximo de liderazgo. Los datos aparecen en la tabla. ¿Cuál es la correlación entre

las clasificaciones de los dos psicólogos?

Sujeto

Orden de

Psicólogo 1

Orden de

Psicólogo 2

Diferencias ( )2)()( ii YRXR −

1 6 5 1 1

2 5 3 2 4

3 7 4 3 9

4 10 8 2 4

5 2 1 1 1

6 3 6 -3 9

7 9 10 -1 1

8 1 2 -1 1

9 11 9 2 4

10 4 7 -3 9

11 8 11 -3 9

12 12 12 0 0

52

818,0182,011212

5261

3=−=

−×

−=sr

* Spearman, C. (1904) "The proof and measurement of association between two things", American Journal of Psychology,

15: 72-101.

Page 20: Capítulo 12. Métodos no paramétricos - ftp.utalca.clftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 12 Metodos... · La salida de SPSS nos da el valor p exacto para la

20

Comparemos con la salida de SPSS:

Correlaciones

1.000 .818**

. .001

12 12

.818** 1.000

.001 .

12 12

Coeficiente de

correlación

Sig. (bilateral)

N

Coeficiente de

correlación

Sig. (bilateral)

N

PSI1

PSI2

Rho de Spearman

PSI1 PSI2

La correlación es significativa al nivel 0,01 (bilateral).**.

Correlaciones

1 .818**

. .001

12 12

.818** 1

.001 .

12 12

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

PSI1

PSI2

PSI1 PSI2

La correlación es significativa al nivel 0,01

(bilateral).

**.

PSI2

14121086420

PSI1

14

12

10

8

6

4

2

0

En este caso los dos coeficientes de correlación son iguales, pero tenemos argumentos a favor de usar

un método no paramétrico.