28
Tema 5: Contrastes de Hipótesis no-paramétricos

Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

Embed Size (px)

Citation preview

Page 1: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

Tema 5: Contrastes de Hipótesis no-paramétricos

Page 2: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

PRELIMINARES:

Test de hipótesis

Paramétricos: hipótesis sobre los parámetros que definen la pobla-ción (por ej., pobl. Normales, y tests sobre la media o la desv. típica).

No paramétricos: no se refieren a parámetros de la población; se aplican típicamente cuando no conocemos la distribución de la población, o cuando sudistribución es no normal.

Primer cuatrimestre

Page 3: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

PRELIMINARES:

Media versus Mediana

¿Diferencias/Semejanzas?

Page 4: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

• Ambas sirven para estimar el valor o tamaño medio de una variable, que debe entenderse como el “valor esperable” o “normal”.• Si la distribución es normal, media y mediana coinciden.• Si hay discrepancia entre ambas, es preferible la mediana. • La razón es que la mediana es robusta, es decir, poco sensible a datos atípicos. La media, en cambio, es muy sensible.

PRELIMINARES:

Media versus Mediana

En particular, en ausencia de normalidad son relevanteslos contrastes no sobre la media, sino sobre la mediana

Page 5: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

Ejemplo: La biblioteca de un museo recibe en un día 9 peticiones dedistintas instituciones para consultar volúmenes de la biblioteca; cada uno de los peticionarios solicita consultar el siguiente número de volúmenes:

6, 3, 10, 3, 3, 120, 3, 11, 2

Media: 17’89

Mediana: 3

Page 6: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

PRELIMINARES:

Simetría

Media Media

- Normalidad implica simetría; sin embargo, simetría no implica necesariamente normalidad.- Se mide con el coeficiente de asimetría (debe estar entre -2 y 2).- Si hay simetría, media y mediana coinciden.

Page 7: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

1. Tests sobre la mediana.

Ho: M = Mo

H1: M ≠ Mo; M>Mo; M<Mo

(A)t-test (t de Student): requiere normalidad

(B) Test de los signos: requiere var. continua.

(C) Test de los rangos signados o test de Wilcoxon: requiere simetría.

Pizarra + Statgraphics

(IMPORTANTE: los tests no-param. Son intrínsecamente robustos,i.e. funcionan relativamente bien incluso si no se cumplen sus requisitos)

Page 8: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

2. Tests de bondad de ajuste.

Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

(A) Test chi-cuadrado: general (todas las variables, todas las distribuciones.

(B) Test de Kolmogorov-Smirnov : requiere var. continua.

(C) Tests de normalidad: sólo para contrastar normalidad

Page 9: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

(A) Test Chi-cuadrado:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

Por ejemplo, Ho: X=N(10,2.85)

1.- Tomamos muestra de tamaño n (por ej., n=32)

2.- Establecemos regiones en el intervalo donde puede tomar valores la variable:

10 12’857’15

1 2 3 4

Page 10: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

10 12’857’15

1 2 3 4

(A) Test Chi-cuadrado:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

Por ejemplo, Ho: X=N(10,2.85)

3.- Establecemos los valores esperados: (n=32)

0,34 34%

0,16 16%

E1: 16% de 32 = 5 (aprox.)E2: 34% de 32 = 11 (aprox.)

Page 11: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

10 12’857’15

1 2 3 4

(A) Test Chi-cuadrado:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

Por ejemplo, Ho: X=N(10,2.85)

4.- Contabilizamos los valores observados, en la muestra, en cada intervalo:

E1: 5; E2: 11; E3: 11; E4: 5O1: 4; O2: 9; O3: 13; O4: 6

Page 12: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

(A) Test Chi-cuadrado:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

Por ejemplo, Ho: X=N(10,2.85)

5.- La idea es RECHAZAR la hipótesis, si los valores observados difieren demasiado de los observados. Concretamente, se utiliza el estadístico:

k

i i

ii

E

EOD

1

2

Requisitos: n suficientemente grande; Ei mayores o iguales de 5

Page 13: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

(B) Test de Kolmogorov-Smirnov:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

%

El test anterior, en realidad, compara las frecuencias “obtenidas”, con las esperadas; es decir, compara el polígono de frecuencias (muestra), con la curva correspondiente a la distribución que conjeturamos:

muestra población

Page 14: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

(B) Test de Kolmogorov-Smirnov:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

El test de Kolmogorov-Smirnov, que requiere variable continua, compara el polígono de frecuencias acumuladas, con la función de distribución.

%

muestra población

Page 15: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

(C) Test de normalidad:Ho: X es normalH1: X no es normal

Sólo sirven para contrastar la normalidad, y no otro tipo de distribuciones.

Page 16: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

3. Tests de comparación de poblaciones.

Ho: M1 = M2

H1: M1 ≠ M2; M1 >M2; M1<M2

(I) Datos no pareados:

Si las poblaciones que queremos comparar son normales,podemos comparamos las medias (mediante el t-test, o test de la t de Student)

Ho: µ1 = µ2

H1: µ1 ≠ µ2; µ1 > µ2; µ1< µ2

Si alguna de las poblaciones es no normal, entonces comparamos medianas:

Para comparar medianas, se utiliza el test de Mann-Whitney

(A) Comparación de medianas:

Page 17: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

Test de Mann-Whitney : La idea es similar a la del test de los rangos signados:

1. tomamos muestras en ambas poblaciones (x1…xn, y1… ym)

2. mezclamos los datos, y los ordenamos: x6<y4<x1<x5<y1< … 3. Asignamos rangos (1 a x6, 2 a y4, etc.) 4. Si la mediana es similar, la media de los rangos de las x’s y de las y’s será parecida; rechazamos si esas medias son muy diferentes.

Page 18: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

Ho: MD = 0H1: MD ≠ 0; MD >0; MD<0

(II) Datos pareados: trabajamos con la diferencia (D) de las variables.

Si D es normal comprobamos si la media de D es 0, o no.

Ho: µD = 0H1: µD ≠ 0; µD > 0; µD< 0

Si D no es normal, entonces comprobamos si la mediana de D es 0, o no, utilizando el test de los signos y, si D es simétrica, el de los rangos signados.

IMPORTANTE: como la media (resp. la mediana) de D es igual a la diferencia de las medias (resp. de las medianas), aceptar la hipótesisnula equivale a aceptar que ambas medias (resp. medianas ) son iguales.

Page 19: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

¿Mis datos son pareados?

NO SI

¿La diferencia D es normal?

SI NO

H0: µD=0(t-test)

H0: MD=0(test signos,etc.)

¿Las variables son normales?

SI

H0: µ1=µ2

(t-test)(Ojo, primerohay que comprobarsi las desviaciones típicasson iguales, o no…)

NO

H0: M1=M2

(test de Mann-Whitney)

Page 20: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

Ho: X e Y tienen la misma distribuciónH1: X e Y no tienen la misma distribución

Test de Kolmogorov-Smirnov (comparación de distribuciones): idea similar a la del test de bondad de ajuste (comparamos funciones de distribución deX e Y). Requiere variable continua.

(B) Comparación de distribuciones:

Statgraphics

Page 21: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

4. Tests de aleatoriedad.

Una secuencia de datos es aleatoria si no exhibe ninguna tendenciaconcreta, es decir, si se entiende que las fluctuaciones en los datosse deben al AZAR.

Page 22: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

Gráfico de Series Temporales para Empresa B

Em

pres

a B

0 2 4 6 8 10 125,9

6,3

6,7

7,1

7,5

7,9

8,3

ALEATORIEDAD/NO ALEATORIEDAD

Gráfico de Series Temporales para Empresa A

0 2 4 6 8 10 127,5

8,5

9,5

10,5

11,5

12,5

Em

pres

a A

Gráfico de Series Temporales para Empresa C

0 2 4 6 8 10 126,1

7,1

8,1

9,1

10,1

11,1

Em

pres

a C

Gráfico de Series Temporales para Empresa D

0 2 4 6 8 10 127,1

8,1

9,1

10,1

11,1

Em

pres

a D

Page 23: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

Tests de aleatoriedad: tests de RACHAS

-Test 1: ejecuciones por encima y debajo de la mediana.

- Test 2: ejecuciones “arriba” y “abajo”.

- Test 3: test de Box-Pierce (autocorrelaciones). Busca “ciclos”.

Ho: Los datos son aleatoriosH1: Los datos no son aleatorios

Page 24: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

5. Test de independencia chi-cuadrado.

Se trata de contrastar si dos variables CUALITATIVAS son independien-tes (es decir, si existe relación entre ellas), o no. Por ejemplo:

- ¿Ser hombre o mujer predispone, de algún modo, a fumar o no fumar?- ¿Los hábitos de lectura de los padres influyen en los hábitos de lectura de los hijos?- ¿Los gustos literarios son los mismos en las distintas comunidades españolas?- ¿La proporción de textos de ficción/no ficción es la misma en todas las bibliotecas de Alcalá?

Ho: X e Y son independientesH1: X e Y no son independientes

X e Y están relacionadas, una de ellas influye en la otra, hay diferencias significativas, determinadas proporciones cambian…

Page 25: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

EJEMPLO: Hemos preguntado a un grupo de 20 hombres y 20 mujeressi fumaban o no. ¿Crees que hay diferencias significativas entre ambossexos?

Hombres Mujeres TOTAL:

Fuma 5 7 12

No fuma 15 13 28

TOTAL: 20 20 40

X: sexo; Y: Fumador (S/N) Ho: X e Y son independientesH1: X e Y no son independientes

Page 26: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

Hombres Mujeres TOTAL:

Fuma 12

No fuma 28

TOTAL: 20 20 40

¿Qué debería salir, si fueran “perfectamente” independientes?

Page 27: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

Hombres Mujeres TOTAL:

Fuma 6 6 12

No fuma 14 14 28

TOTAL: 20 20 40

50% 50%

¿Qué debería salir, si fueran “perfectamente” independientes?

Page 28: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción

Comparamos frecuencias observadas (Oi) y esperadas (Ei)

La idea es RECHAZAR la hipótesis, si los valores observados difieren demasiado de los observados. Concretamente, se utilizael estadístico:

k

i i

ii

E

EOD

1

2

(Igual que en tests de bondad de ajuste)

Statgraphics