22
PLANTEAMIENT O DE HIPÓT E SIS EN MÁS DE DOS POBLACIONES RES TAUR ANTES 2

Planteamiento de hipótesis en más de dos poblaciones

Embed Size (px)

Citation preview

Page 1: Planteamiento de hipótesis en más de dos poblaciones

PLANTE

AMIENTO

DE

HIPÓTE

SIS E

N MÁS D

E

DOS POBLA

CIONES

RE

ST A

UR

AN

TE

S 2

Page 2: Planteamiento de hipótesis en más de dos poblaciones

PLANTEAMIENTO DE HIPÓTESIS EN MÁS DE DOS POBLACIONES

Algunas veces se consideran problemas en que debemos decidir si las diferencias observadas entre más de dos medias se pueden atribuir al azar o si existen diferencias reales entre las medias de las poblaciones de las que se obtuvieron las muestras.

Y esto se estudia cuando por ejemplo lo que queremos conocer sobre la base de datos muéstrales, si en realidad existe alguna diferencia:

en la efectividad de 3 métodos de enseñanza de una lengua extranjera, o quizás

queremos comparar la producción promedio por caballería de distintas variedades de arroz.

Un investigador agrícola pudiera estar interesado en saber que tipo de fertilizante da mejores rendimientos,

ó sí en determinado laboratorio médico se desea evaluar el efecto de diferentes medicamentos en la presión sanguínea. El método que utilizamos para este propósito es un instrumento estadístico poderoso conocido como ANALISIS DE VARIANZA.

Page 3: Planteamiento de hipótesis en más de dos poblaciones

PLANTEAMIENTO DE HIPÓTESIS EN MÁS DE DOS POBLACIONES

FORMULARIO

1: 2

2

0 D

E

SESE

H 1: 2

2

1 D

E

SESE

H

k

i

k

iiji

k

ii

k

i

ni

jij nindondeyyTTTdonde

nT

y111

2

1 1

2

2

122

n

N i

k

ii

T

22 T

22 T

insesgadoestimadorunesSEdondeyykn

S D

ni

jiijD

222

1

2 1

22

2

2

1221

2

2

011

E

i

k

iii

E

k

iii

E

SElaentonces

yquecasoesteenesqueyaciertanulahipótesislabajoinsesgadoserásóloy

desesgadoestimadorunesquelopork

nSEsudonde

k

yynS

2

11 1

2

1 1

2

k

iii

k

i

ni

jiij

k

i

ni

jij yynyyyy

122

k

SCCMS

kn

SCCMS E

EED

DD

Page 4: Planteamiento de hipótesis en más de dos poblaciones

FUENTE DE VARIACIÓN

SUMA DE CUADRADOS

GRADOS DE LIBERTAD

CUADRADO MEDIO

ESTADÍSTICO

ENTRE GRUPO

2

1

K

Iii yyn k – 1

1nSCE F0 = 2

2

D

E

S

S

k

i

ni

jiij yy

1

2

1

n – k kn

SCD

DENTRO DE GRUPO

TOTAL

K

i

ni

jij yy

1 1

2 N - 1

Page 5: Planteamiento de hipótesis en más de dos poblaciones

INTRODUCCION

Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que puede ser cierta o no. Las hipótesis estadísticas se pueden contrastar con la información extraída de las muestras y tanto si se aceptan como si se rechazan se puede cometer un error.

Student y Ronald Fisher iniciaron una nueva era en el estudio de las distribuciones muéstrales. Ronald Aylmer Fisher encontró en muestras procedentes de una población normal, la distribución del coeficiente de correlación, los coeficientes de regresión, los coeficientes de correlación múltiple y de proporción de variables conocida por el nombre de F.

Esta distribución de probabilidad se usa como estadística prueba en varias situaciones. Se emplea para probar si dos muestras provienen de poblaciones que poseen varianzas iguales. Esta prueba es útil para determinar si una población normal tiene una mayor variación que la otra y también se aplica cuando se trata de comparar simultáneamente varias medias poblacionales. La comparación simultánea de varias medias poblacionales se conoce como análisis de varianza (ANOVA). En ambas situaciones, las poblaciones deben ser normales y los datos tener al menos la escala de intervalos.

 

Page 6: Planteamiento de hipótesis en más de dos poblaciones

ANÁLISIS DE VARIANZA

El análisis de varianza, como técnica de lo que trata es: si se está estudiando la característica cuyos valores dependen de varias clases de efectos que operan simultáneamente, poder decidir si tales efectos son debido al azar o si realmente son diferentes.

Esta técnica de lo que trata es de expresar una medida de la variación total de un conjunto de datos como una suma de términos, que se pueden atribuir a fuentes o causas específicas de variación; pues bien esta descomposición de la varianza total se denomina: Identidad fundamental. Ella junto a la formación del estadístico de prueba, se refleja en una tabla llamada “Tabla de Análisis de Varianza”, que resume los principales aspectos teóricos prácticos de la técnica.

Hay un corolario que plantea que:

Si “k” poblaciones se unen y las varianzas de las “k” poblaciones son iguales a 2 se tiene que:

Page 7: Planteamiento de hipótesis en más de dos poblaciones

2

122

n

N i

k

ii

T

Por lo tanto si todas las medias son iguales entonces:

22 T , mientras que si alguna es diferente, se puede concluir que 22 T

De modo que una comparación de varianza puede conducir a una conclusión sobre la igualdad de medias poblacionales.

Page 8: Planteamiento de hipótesis en más de dos poblaciones

El método que se utiliza es a través de los estimadores de 2.

Hay un Teorema que plantea que:

Si dos o más muestras proceden de una misma población o de diferentes poblaciones, pero con igual varianza, entonces un estimador insesgado de 2 podrá obtenerse a través de la siguiente expresión:

insesgadoestimadorunesSEdondeyykn

S D

ni

jiijD

222

1

2 1

A esta varianza se le da el nombre de Varianza dentro del grupo.

Page 9: Planteamiento de hipótesis en más de dos poblaciones

Hay otro Teorema, bajo las mismas condiciones que el anterior que plantea que

otro estimador de 2 es:

22

2

2

1221

2

2

011

E

i

k

iii

E

k

iii

E

SElaentonces

yquecasoesteenesqueyaciertanulahipótesislabajoinsesgadoserásóloy

desesgadoestimadorunesquelopork

nSEsudonde

k

yynS

Este estimador es conocido como varianza entre grupos.

Esta situación que expresan estos estimadores se pudiera representar gráficamente de la siguiente forma:

Para H0 cierta: Para H0 falsa:

Page 10: Planteamiento de hipótesis en más de dos poblaciones

x 1 ________ x 1

x x

3 x 2 3

x 2

1 2 3 1 2 3

En este caso las i no son iguales pero los elementos de las 3 poblaciones si casi iguales sus valores están cercanos son muy diferentes y originan medias muestrales muy diferentes.

Page 11: Planteamiento de hipótesis en más de dos poblaciones

Si estamos en caso de H0 falsa, y se nos presenta esta situación se diferencia en la suma de cuadrado entre grupo esta diferencia, mientras que si estamos en el caso de H0 cierta la diferencia entre los grupos es mínima.

En el caso de la SC, dentro de los grupos lo que hace es comparar cada elemento de la muestra con la media de su propio grupo, para una u otra conclusión de la hipótesis nula, su cálculo no se refleja, el valor es el mismo.

Como ya dijimos, el análisis de varianza consiste en dividir la suma de cuadrado total en dos fuentes de variación y proceder al análisis de las mismas, estas son la variación dentro del grupo y la variación entre grupos. Como son variaciones la vamos a expresar como sumas de cuadrados, es decir:

 

SCT = SCD + SCE

__ __ __ __

(Yij - Y) = (Yij - Yi) + (Yi – Y)

Representando estas la variación total que es igual a la variación dentro del grupo más la variación entre grupos, gráficamente se representa de la siguiente forma:

Page 12: Planteamiento de hipótesis en más de dos poblaciones

_ . yij - yi .

. _

_ . yij -y

y1 .

_ _ .

yi - y . _

Y

.

.

_ .

y2 .

Page 13: Planteamiento de hipótesis en más de dos poblaciones

Si elevamos al cuadrado ambos miembros, y sumamos por “j” e “i”, llegamos a la Identidad Fundamental, planteada anteriormente.

2

11 1

2

1 1

2

k

iii

k

i

ni

jiij

k

i

ni

jij yynyyyy donde se considera:

Suma de Suma de Suma de

Cuadrado Cuadrado Cuadrado

Total Dentro del Grupo Entre Grupo

De la misma forma resulta de gran importancia en el Análisis de varianza, la relación entre los grados de libertad (que ya se habló de ellos en el Tema anterior).

Si se aplica el valor esperado en ambos miembros se obtienen, bajo el supuesto de H0 cierto de que, los grados de libertad asociados a estas sumas de cuadrados serán:

(n – 1) = (n – k) + (k – 1) Esto es, Para la SCT, = para la SCD y para la SCE

Page 14: Planteamiento de hipótesis en más de dos poblaciones

Si dividimos las Sumas de Cuadrados entre los grados de libertad, se obtendrán

los estimadores de 2 planteados, es decir la varianza total 2TS la varianza dentro

del grupo 2DS , y la varianza entre grupo 2

ES . También estos cocientes se

denominan Cuadrados Medios.

122

k

SCCMS

kn

SCCMS E

EED

DD

Debido a que el cálculo de varianzas entre y dentro de grupos hay varios pasos, se acostumbra a dar al grupo completo de resultados en una tabla conocida como tabla de análisis de varianza (ANOVA). Esta tabla incluye las fuentes de variación, las sumas de los cuadrados(es decir las variaciones), los grados de libertad, las varianzas(es decir los cuadrados medios) y el valor del estadístico de prueba que veremos más adelante.

Page 15: Planteamiento de hipótesis en más de dos poblaciones

FUENTE DE VARIACIÓN

SUMA DE CUADRADOS

GRADOS DE LIBERTAD

CUADRADO MEDIO

ESTADÍSTICO

ENTRE GRUPO

2

1

K

Iii yyn k – 1

1nSCE F0 = 2

2

D

E

S

S

k

i

ni

jiij yy

1

2

1

n – k kn

SCD

DENTRO DE GRUPO

TOTAL

K

i

ni

jij yy

1 1

2 N - 1

Page 16: Planteamiento de hipótesis en más de dos poblaciones

Vamos a ver un Ejemplo:

Los datos siguientes corresponden al Costo de Producción de un producto fabricado bajo tecnologías diferentes. Realice una prueba estadística a un = 0.05 para decidir si existen diferencias entre las tecnologías, que puedan afectar los Costos.

Tecnología Yi j ni Ti Ti2 Ti

2/ni Y2i j

A 7 4 6 4 9 5 30 900 180 49 16 36 16 81 198

B 2 4 5 6 3 5 20 400 80 4 16 25 36 9 90

C 7 8 7 11 7 5 40 1600 320 49 64 49 121 49 332

15 90 580 620

Hay que tener en cuenta que el subíndice i, representa las filas, y el j las columnas.

Se prepara la tabla atendiendo a lo que se necesita a partir de las formulas abreviadas planteadas, únicamente hay que tener en cuenta que los niveles se deben planteara en el sentido de fila.

Page 17: Planteamiento de hipótesis en más de dos poblaciones

Resumiendo: n = 15; T = 90; k = 3; n1 = n2 = n3 = 5

Luego:

n

TYSC

k

i

ni

jijT

2

1 1

2

= 620 – 902/15 = 620 – 8100/15 = 620 – 540 = 80

SCE = n

T

n

Tk

i i

i2

1

2

= 580 – 540 = 40

SCD =

k

i i

ik

i

ni

jij n

Ty

1

2

1 1

2 = 620 – 580 = 40 o también utilizando la identidad

fundamental y en ella se despeja SCD, esto es:

SCT = SCD + SCE SCD = SCT – SCE = 80 – 40 = 40

Y ya estamos en condiciones de plantear la tabla de análisis de varianza, para el cálculo del estadístico de Prueba.

Page 18: Planteamiento de hipótesis en más de dos poblaciones

ANOVA

Fuente de Variación

Suma de Cuadrado

Grados de Libertad

Cuadrado medio

Estadístico de Prueba

Entre grupo

Dentro grupo

40

40

2

12

20

3.33

06.63.3

200 F

Total 80 14

H0: 321

H1: alguna i diferente

= 0.05

2

2

D

E

S

S = 6.06

W: 2

2

D

E

S

S F1-

(k – 1; n – k) = 2

2

D

E

S

S Fo.95

(2, 12) = 2

2

D

E

S

S 3.89

Page 19: Planteamiento de hipótesis en más de dos poblaciones

RR

3.89

R:D:/ Rechazo H0 F0 3.89

No Rechazo H0 F0 3.89

D/ F0 = 6.06 3.89 Rechazo H0 que aceptamos H1 lo que nos indica que existen diferencias significativas entre los costos de producción para por lo menos

una tecnología a un = 0.05

Si quisiéramos saber cual o cuales tecnologías son diferentes se pudiera completar el análisis con una prueba T’Student de diferencia de media, probando dos a dos dichas tecnologías.

Esta prueba de la homogeneidad de las varianzas fue desarrollada por Barttlet, y se basa en el cálculo de un cociente, el cuál se denota por M/C.

se utiliza para comprobar uno de los supuestos del análisis de varianza, si se quiere, el más importante, que es el de varianza constante(conocido por Homocedasticidad)

Así las hipótesis a plantear serían:

H0: 22

221 k

H1: alguna 2i diferente

Y el estadístico de prueba será el cociente M/C que es un estadístico que mide la variabilidad entre las varianzas muestrales ya que:

2

1

2 ln1ln i

k

iiD SnSknM

Donde

kn

SnS

k

iii

D

1

2

2

1 y

2

12

1

i

k

iiji

i n

YYS

Page 20: Planteamiento de hipótesis en más de dos poblaciones

Se puede observar que si las 2iS difieren poco entre sí el valor de M, será pequeño

y si suponemos que la 2iS son iguales, entonces M tomará el valor cero.

Demostración:

2

1

2 ln1ln i

k

iiD SnSknM

si 2iS son iguales, entonces se trata como una

constante y se saca fuera de la sumatoria.

k

iii

k

iii

nSkn

nSknM

1

21

2

1ln1

ln

Como knnk

ii

01

1

M=(n – k)

knSkn

knSi

i

22

lnln

M= (n- k) ln 2iS - (ln 2

iS ) n- k

M = 0

Page 21: Planteamiento de hipótesis en más de dos poblaciones

Veamos el cálculo del estadístico de Prueba: M/C

M = 1 +

k

i i knnk 1

1

1

1

13

1

Barttlet demostró que el estadístico M sigue aproximadamente una distribución 2,

con k-1 grados de libertad para (ni – 1) 4, y se divide entre una cantidad C, como la planteada anteriormente; el cociente mejora la aproximación, y es más preciso que si utilizáramos solamente M.

La expresión de M, puede transformarse para trabajar con logaritmos comunes.

M = 2.3026 210

1

210 log1log i

k

iiD SnSkn

se debe aclarar que se puede

aplicar tanto logaritmo comunes como naturales.

La región crítica estará dada por: 121/: kCMW que gráficamente quedará representada de la siguiente

forma:

R no R. RR

)1(2

1

k

Page 22: Planteamiento de hipótesis en más de dos poblaciones

UTILIDAD

Esta distribución de probabilidad se usa en estadística como prueba en varias situaciones. Se emplea para probar si dos muestras provienen de poblaciones que poseen varianzas iguales. Esta prueba es útil para determinar si una población normal tiene una mayor variación que la otra y también se aplica cuando se trata de comparar simultáneamente varias medias poblacionales. La comparación simultánea de varias medias poblacionales se conoce como análisis de varianza (ANOVA). En ambas situaciones, las poblaciones deben ser normales y los datos tener al menos la escala de intervalos.