28
Inferencia estadística: es el proceso de sacar conclusiones de la población basados en la información de una muestra de esa población. Objetivos de la inferencia: - estimación de parámetros, - intervalos de confianza y - docimasia, test de hipótesis o pruebas de significación estadística.

Inferencia estadística: es el proceso deftp.utalca.cl/profesores/gicaza/Clases/ICproporciones.pdf · Cada una de estas preguntas es sobre “el valor de la proporción P”. Es decir,

  • Upload
    ngodung

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Inferencia estadística: es el proceso de

sacar conclusiones de la población basados

en la información de una muestra de esa

población.

Objetivos de la inferencia:

- estimación de parámetros,

- intervalos de confianza y

- docimasia, test de hipótesis o pruebas de

significación estadística.

Intervalos de Confianza para una

proporción

Cuando hacemos un test de hipótesis

decidimos sobre un valor hipotético del

parámetro.

• ¿Qué proporción de mujeres espera compartir las tareas de la casa con su

pareja?

• ¿Qué proporción de la población sufre de cáncer?

Cada una de estas preguntas es sobre “el

valor de la proporción P ”. Es decir,

queremos estimar P .

Una proporción muestral p̂ es un

estimador puntual de la proporción en la

población P .

Un estimador de intervalo de confianza de

la proporción en la población P , es un

intervalo, calculado a partir de los datos de

la muestra, en el cual nosotros “confiamos”

se encuentra la proporción de la población P .

El nivel de confianza es la probabilidad de

que el método de estimación nos dé un

intervalo que contiene al parámetro (P en

este caso).

El nivel de confianza se denota por 1−α .

Nivel de significación

α

Nivel de confianza

1−α

0,10 o 10% 90%

0,05 o 5% 95%

0,01 o 1% 99%

Para construir intervalos de confianza recordemos la

distribución muestral de $p:

))1(

,(~ˆn

PPPNp

−&

entonces aproximadamente 95% de los valores de $p

estarán entre dos desviaciones estándar de P :

))1(

,(n

PPPN

p

p

p - 2 p ( 1 - p )

n p + 2

p ( 1 - p )

n

9 5

4

%

Hacemos un intervalo: n

PPp

)1(96,1ˆ

−±

Esperamos que 95% de esos intervalos contengan a

P y 5% no.

El problema es que no podemos conocer la

desviación estándar porque contiene al parámetro

desconocido.

Solución: Estimar la desviación estándar, con el

error estándar de $p:

n

pppS

)ˆ1(ˆ)ˆ(

−=

Un intervalo de 95% de confianza para P esta dado por:

±

n

)p̂-(1p̂ 1,96 p̂

En teoría esta aproximación funciona bien si

se cumple que: 5)1(y 5 ≥−≥ PnnP .

En la práctica la comprobamos con: 5)ˆ1(y 5ˆ ≥−≥ pnpn

Estudio: Síndrome de fatiga crónica o

encefalopatía miálgica

Se realiza un estudio para conocer la proporción de adultos

que sufren del síndrome de fatiga crónica (SFC).

Para este estudio, se eligen al azar 4000 miembros de una

Isapre, a los que se les envía un cuestionario por correo.

En el cuestionario se les pregunta por cualquier fatiga

inusual que haya interferido sus responsabilidades en el

trabajo o en la casa en los últimos 6 meses.

De las 3066 personas que respondieron (posible sesgo por

no respuesta), 590 afirmaron haber sufrido de fatiga

crónica.

Se quiere estimar la proporción de adultos que piensan

que sufren de síndrome de fatiga crónica.

De las 3066 respuestas, 590 dicen sufrir fatiga

crónica, un estimador puntual será:

192,03066

590ˆ ≈=p

o 19,2%

Un intervalo de confianza 95% para la

verdadera proporción de adultos que piensan

que sufren de SFC está dado por:

3066

)3066/5901)(3066/590(96,1

3066

590 −±

013954,01924,0 ±

[ ]206,0 ; 179,0

o una tasa de 179 a 206 por 1.000 adultos.

Este intervalo nos da valores posibles de la

proporción en la población de personas que

piensan que sufren del SFC basado en una

muestra de tamaño n = 3066.

Pensemos:

¿Sabemos si el intervalo de 95% de

confianza contiene a la verdadera

proporción en la población que piensan que

sufren de SFC?

¿Este nivel de 95% confianza significa que

hay una probabilidad de 95% de que la

verdadera proporción P está en el intervalo [0,179 ; 0,206]?

¿Podemos extender estos resultados al resto

de la población general de adultos?

Interpretación!

El intervalo que construimos o contiene P o no lo contiene.

No es correcto decir que la probabilidad de

que el intervalo [0,178 ; 0,206] contenga a

P es 0,95.

El valor del parámetro P es fijo. No varía.

La interpretación del nivel de 95% de

confianza tiene que ver con la proporción

de veces que intervalos como el que

construimos contiene a P si lo hiciéramos muchas veces.

pm.a.s #1

m.a.s. #2

m.a.s. #3

m.a.s. #4

Si repetimos este procedimiento muchas

veces, calculando muchos intervalos de

confianza de 95% para P , podemos esperar que aproximadamente 95% de

estos intervalos contenga P (y

aproximadamente 5% no).

Revisemos los percentiles de la Tabla

N(0,1): Nivel de

Confianza

1−α

21

α−

z12

−α

0,90 0,95 1,645

0,95 0,975 1,96

0,98 0,99 2,33

0,99 0,995 2,575

N(0,1)

Z

αααα2222

αααα22221−α1−α1−α1−α

-z1−1−1−1− αααα

2222

+z 1−1−1−1− αααα2222

Un intervalo de confianza )1( α− *100%

para P está dado por:

$$ $

p p(1- p)

−z12

α

donde:

z12

−α es un percentil de la distribución

N(0,1)

Este intervalo da valores posibles para la

proporción en la población P basado en sólo una proporción muestral $p.

Esta aproximación esta basada en el

supuesto de que los datos provienen de una

muestra aleatoria de la población y

funciona bien si 5)1(y 5 ≥−≥ PnnP .

Esta condición se puede corroborar con

5)ˆ1(y 5ˆ ≥−≥ pnpn .

Forma general de los Intervalos de

Confianza:

±

estimador del

estándar error

muestralón distribuci

percentil

puntual

estimador

PES revisitado

Recordemos el experimento diseñado para

probar si un sujeto tiene PES (poderes

extrasensoriales). De un mazo corriente bien

barajado, se eligen 96 cartas, una por una, con

reemplazo. A la persona en cuestión se le pide

que adivine la pinta de la carta.

Sea P la proporción de respuestas correctas si el sujeto no tiene PES.

La persona tiene 35 correctas de las 96 cartas,

entonces la proporción muestral de respuestas

correctas es: $p

Construya un intervalo de 95% confianza para

P basado en los resultados observados.

¿Este intervalo de confianza contiene a 0,25? Si

es así, ¿qué implica? Si no lo contiene, ¿qué

podemos inferir?

Pensemos:

Si el nivel de confianza aumenta de 95% a

99%, el intervalo de confianza será:

¿más ancho, más angosto, o el mismo?

Si el tamaño muestral aumenta (pero la

proporción muestral es la misma), el

intervalo de confianza será:

¿más ancho, más angosto, o el mismo?

Si el tamaño de la población aumenta, el

intervalo de confianza será:

¿más ancho, más angosto, o el mismo?

FUMADORES

Tabaquismo

Total

n (%)

Hombres

n (%)

Mujeres

n (%)

Total

(n=1007)

368 (36,5)

134 (39,5)

234 (35,0)

La tabla presenta la prevalencia de fumadores

en una encuesta realizada en residentes de la

ciudad de Talca, adultos de 18 a 74 años, el año

2005 (http://pifrecv.utalca.cl/)

a) ¿Cuál es la población bajo estudio?

b) Basado en los resultados del estudio,

construya un intervalo de 90% de confianza

para la proporción de sujetos que fuman.

c) Interprete el intervalo.

d) Construya un intervalo de 95% de confianza

para la proporción de sujetos que fuman. ¿Es

este intervalo más ancho o más angosto del

calculado en (b)?

e) ¿Cuál es la mitad del ancho del intervalo?

Definición:

El margen de error para una proporción es

la mitad del ancho del intervalo de

confianza, y está dado por:

E z=

p(1- p)

n12

α

$ $

___________________________

E = Margen de Error ---------(------------------------------|------------------------------)--------

$$( $)

p zp p

n−

−12

1α $p $

$( $)p z

p p

n+

−−12

_______________________________________________________

Ancho

Se calcula un intervalo de 99%

confianza para P que resulta: (0,27 , 0,42)

(a) ¿Cuál es el valor de la proporción

muestral $p?

(b) ¿Cuál es el margen de error?

(c) Dé dos sugerencias para reducir el

margen de error.

¿Cuál es el tamaño de la muestra?

A partir del margen de error podemos

resolver ahora cuanto puede ser un tamaño

muestral mínimo n.

Tamaño de la muestra:

2

2

1)ˆ1(ˆ)(

2

E

ppzn

−=

−α

Pero esta fórmula contiene a la proporción

muestral $p y todavía no tenemos la muestra!

Encontremos el máximo.

Dibuje $p versus $p(1- $p)

P P(1-P)

0,0 0,0

0,1 0,09

0,2 0,16

0,3 0,21

0,4 0,24

0,5 0,25

0,6 0,24

0,7 0,21

0,8 0,16

0,9 0,09

1,0 0,0

0

0.05

0.1

0.15

0.2

0.25

0.3

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

P

P(1-P)

Definición:

Si desconocemos la variabilidad en la

población, el tamaño muestral requerido

para estimar la proporción de una población

con nivel de confianza )1( α− y margen de

error E esta dado por:

2

2

21 2

11

2

1)(

=E

z

n

−α

2

2= 2

1

E

z

n

α

La Cruz Roja quiere venir a sacar

sangre a la Universidad de Talca y nos pide

que estimemos la proporción de estudiantes

y funcionarios que estarían dispuestos a

donar sangre. Con confianza 99% y un 4%

de margen de error ¿a cuantas personas

debemos entrevistar?

Una estimación conservadora sería:

84,1036)04,0(2

576,2

2=

22

21

=

=

E

z

n

α

Por lo tanto necesitamos entrevistar al

menos 1037 estudiantes y funcionarios.

En la oficina de admisión de la UTal

quieren estimar la proporción de alumnos

que abandona la Universidad después del

primer año de estudio. ¿A cuantos

estudiantes debe entrevistar para construir

un intervalo de confianza para P del 90% con un margen de error de 2 puntos

porcentuales?

Corrección para población finita (cpf)

(Opcional)

La fórmula para calcular el tamaño muestral

supone que el tamaño de la población es

grande o es un muestreo con reemplazo.

Cuando queremos sacar una muestra de una

población “pequeña” en conveniente usar la

cpf

Nn

nnc −=1

Ejemplo: Crédito universitario.

Supongamos que queremos conocer la

proporción que tiene crédito universitario

entre los alumnos de Psicología de la UTal.

Con un nivel de confianza de 95% y un

margen de error del 5% ¿a cuantos

estudiantes debe encuestar?

16,384)05,0(2

96,1

2=

22

21

=

=

E

z

n

α

Pero en el año 2001 había sólo 71 alumnos

en la carrera!

9,59713841

384=

+=cn

Tienen que encuestar a 60 personas.