Download pdf - INFERÊNCIA ESTATÍSTICA: ESTIMAÇÂO PONTUAL E …wiki.icmc.usp.br/images/1/13/Inferência1_2011.pdf · Determinação do tamanho da amostra para estimação de µ Erro máximo (E)

INFERÊNCIA ESTATÍSTICA:

ESTIMAÇÂO PONTUAL E

INTERVALOS DE CONFIANÇA

2011

Problemas de inferência

Inferir significa fazer afirmações sobre algo desconhecido.

A inferência estatística tem como objetivo fazer afirmações sobre uma característica de uma população a partir do conhecimento de dados de uma parte desta população (isto é, uma amostra de n observações).

A população é representada por uma distribuição de probabilidade com parâmetro(s) cujo(s) valor(es) é (são) desconhecido(s).

Fazemos inferências sobre o(s) parâmetro(s).


Se θ é um parâmetro da distribuição de uma v. a. X e X1,...,Xn é uma amostra desta distribuição, encontramos três problemas típicos:

1. Estimação pontual

Apresentar um valor para θ, que é uma função da amostra X1,...,Xn (“cálculo” de θ), chamada de estimador de θ.

Espera-se que o estimador tenha boas propriedades: (i) em média esteja próximo de θ, (ii) o estimador se aproxima de θ quando n aumenta, ...b


2. Estimação intervalar

Apresentar um intervalo de possíveis valores para θ, chamado de intervalo de confiança. Os limites do intervalo são funções da amostra X1,...,Xn (são aleatórios).

A probabilidade de que o intervalo contenha θ deve ser alta.vv

A amplitude do intervalo deve ser tão pequenaquanto possível (intervalo mais preciso).


3. Teste de hipóteses

Uma hipótese estatística (H) é uma afirmação sobre o valor de θ. Pode ser verdadeira ou falsa.

Se θ é a probabilidade de sucesso no modelo binomial, H: θ = ½, H: θ ≠ ½ e H: θ > ¾ são exemplos de hipóteses.

Com base na amostra X1,...,Xn, formulamos uma regra de decisão que permita concluir pela rejeiçãoou não rejeição (aceitação) de H. A decisão pode ser correta ou errada.

Estimação pontual – método de substituição

(b). Distribuição de Poisson. X ~ Po(µ). Vimos que E(X) = µ.

. : paraestimador Um Xµ

Obs. Existem outros métodos de estimação.

(c). Distribuição exponencial. X ~ Ex(λ). Vimos que E(X) = 1 / λ.

.1

: paraestimador UmX

=λ

(d). Distribuição normal. X ~ N(µ, σ2). Vimos que E(X) = µ e Var(X) = σ2.

. : paraestimador Um Xµ .)(1

1 : paraestimador Um 2

1

22 ∑=

−−

=n

ii XX

nsσ

(a). Distribuição binomial. X ~ B(n, p). Vimos que E(X) = np.

∑=

==n

iiX

nXp

1

sucessos. de amostral proporção 1

: paraestimador Um

Estimação por intervalos

X1,...,Xn é uma amostra aleatória de uma variável cuja distribuição depende do parâmetro θ.

Se L(X1,...,Xn) e U(X1,...,Xn) são duas funções tais que L < U eP(L ≤ θ ≤ U) = 1 – α,

o intervalo [L, U] é chamado de intervalo de confiança (IC) de100(1-α)% para θ.

100(1-α)% é o coeficiente de confiança do intervalo. Deve ser “alto”.

O coeficiente de confiança é escolhido (90%, 95% e 99% são comuns). Em seguida calculamos L e U.

IC para uma média populacional

nXX L,1 é uma amostra aleatória de tamanho n de uma população normalcom média µ (desconhecida) e variância σ2 (conhecida). Vimos que a

média amostral X , tem distribuição normal com média µ e variância σ2/n. Isto é,

.)1,0(~)(

NXn

Zσ

µ−=

Logo, fixando um coeficientede confiança (1-α), pode-sedeterminar zα/2 (consultando atabela normal):

Se a distribuição de X não é normal, o resultado acima é válidoaproximadamente.

z

f(z)

− zα 2 0 zα 2

α 2 α 2

1 − α

ασµσαα −=

≤−≤−⇔ 1P 2/2/n

zXn

z

[ ]

máximo erro o é E que sendo

,;;];[

2/

2/2/

nz

EXEXn

zXn

zXUL

σ

σσ

α

αα

=

+−=

+−=

Logo, um IC de 100 (1-α)% para a média µ é dado por

IC para uma média populacional

e a amplitude do IC é U – L = 2E.

,1)(P assim, Sendo 2/2/ ααα −=≤≤− zZz

que equivale a ασ

µαα −=≤−≤− 1)

)((P 2/2/ z

Xnz

.1P 2/2/ ασµσαα −=

+≤≤−⇔n

zXn

zX

Como 1-α = 0,95, temosda tabela normal padrãoz0,025 = 1,96.

×+×−=n

Xn

Xσσ

96,1;96,1

[ ] [ ] ml. em ,31,347;69,34431,1346;31,134620

396,1346;

20

396,1346 =+−=

×+×−=

Em uma fábrica de cerveja a quantidade de cerveja em latas seguia umadistribuição normal com média 350 ml e desvio padrão 3 ml. Após algunsproblemas na linha de produção, suspeita-se que houve alteração namédia. Uma amostra de 20 latas forneceu uma média de 346 ml. Obtenhaum intervalo de 95% para a quantidade média de cerveja envasadasupondo que não tenha ocorrido alteração na variabilidade.

Exemplo

Obtemos IC = [L; U]

Determinação do tamanho da amostra para estimação de µ

Erro máximo (E) na estimação de µ: .2/n

zEσ

α=

.2

22/

2

E

zn

σα ×=

zα/2 é obtido da tabela normal após a escolha do coeficiente de confiança (1 – α).

(a) Especificamos o erro máximo. Se o desvio padrão (σ) for conhecido, podemos calcular n:

(b) Especificamos o erro máximo . Se o desvio padrão (σ) não for conhecido, podemos utilizar o desvio padrão obtido de uma amostra piloto com n0 observações:

,2

202/

2

E

szn

×≅ αsendo que s0

2 é a variância amostral da amostra piloto.

(c) Especificamos o erro máximo em função do desvio padrão como E = k σ:

.2

2/2

k

zn

α=

Em uma siderúrgica estuda-se a resistência média de barras de açoutilizadas na construção civil. Qual o tamanho amostral necessário paragarantir que um erro máximo de 8 kg seja superado com probabilidadeigual a 0,01? O desvio padrão da resistência para este tipo de barra é de25 kg.Solução. Do enunciado tem-se σ = 25 kg, E = 8 kg e

Exemplo

,01,01)(P01,0)(P1 −=+≤≤−⇒=+≤≤−− EXEXEXEX µµou seja, α = 0,01 (o coeficiente de confiança do IC é 1 – α = 99%).

Consultando a tabelanormal encontramoszα/2 = 2,575.

.658

25575,2

Portanto,

2

22

2

22/

2

=×=

×=E

zn

σα

IC para uma média populacional ( σ desconhecido)

Se a variável de interesse (X) tem distribuição normal, então

, ~)(

1n-ts

XnT

µ−= : distribuição t de Student com n – 1 g.l.,

Se a distribuição de X não é normal, o resultado acima é válidoaproximadamente.

sendo que s é o desvio padrão amostral.

Um IC de 100(1-α)% para µ é dado por

. que em ],;[];[ 1,2/n

stEEXEXUL n−=+−= α

IC para uma proporção populacional

Cada observação pode ser classificada como sucesso (X = 1) ou insucesso (X = 0) e a probabilidade de sucesso é p. Dispomos de uma amostra aleatória X1…, Xn. Vimos que

∑=

=

−−=

n

iiX

np

Npp

ppnZ

1

1 que sendo

mente,aproximada ,)1,0(~)1(

)(

Para um nível confiança fixado em 100(1-α)%, obtemos (veja lâmina 4)

.1)1(

)1(

P 2/2/ ααα −≅

−×+≤≤−×−n

ppzpp

n

ppzp

: proporção amostral de sucessos.

(a) Abordagem otimista

:)1(por1Substituir pp-p)p( −

(b) Abordagem conservativa

Substituir p(1 – p) por ¼, quecorresponde ao valor máximo dep(1 – p).

.)1(

;)1(

IC 2/2/

−×+−×−≅n

ppzp

n

ppzp αα

.4

1;

4

1IC 2/2/

×+×−≅n

zpn

zp αα

IC para uma proporção populacional

Um estudo foi realizado para determinar a proporção de componentes de um certotipo que resistem durante um certo período a condições de uso mais rigorosas doque as especificadas. Em uma amostra de 200 componentes selecionados aoacaso, 160 resistiram. Apresente um intervalo de 95% de confiança para aproporção de componentes que resistem.

Como 1 – α = 0,95, obtemos databela normal padrão z0,025 =1,96.

[ ].855,0;745,0

200

)8,01(8,096,18,0;

200

)8,01(8,096,18,0IC

=

−×+−×−≅

[ ].869,0;731,02004

196,18,0 ;

2004

196,18,0IC =

××+

××−≅

Abordagem conservativa:

Exemplo

Solução. Estimativa pontual de p: %).80(8,0200

160 ==p

Abordagem otimista:

Determinação do tamanho da amostra para estimação de p

Erro máximo de estimação de p é fixado:

n

ppzE

)1(2/

−×= α .)1(

2

22/

E

ppzn

−×=⇒ α

(b) Não há informação sobre p:

.24

2

2/2

2/2

==E

z

E

zn αα

Coeficiente de confiança de 95%: α = 5%, zα/2 = 1,96 ≅≅≅≅ 2 e

n ≅≅≅≅ 1 / E2.

(a) Há informação sobre p: p* (estudos anteriores,especialistas, amostra piloto, etc):

.)1(

2

**22/

E

ppzn

−×= α

p(1 – p) é substituído pelo valor máximo, igual a ¼ (veja lâmina 15):

Uma equipe pretende estimar a proporção de avarias ocorridas notransporte de um produto. Estudos anteriores indicam que esta proporçãonão ultrapassa 20%. Que tamanho de amostra é necessário paraassegurar com uma confiança de 99% que o erro de estimação destaproporção seja no máximo igual a 0,05?Solução. Do enunciado obtemos p ≤ 0,2, 1 – α = 0,99 e E = 0,05. Databela normal padrão, z0,005 = 2,575.

Exemplo

Proteção em relação à situaçãomais desfavorável: p* = 0,20.

Finalmente,

.4254,424

05,0

)2,01(2,0575,2

)1(

2

2

2

**22/

=⇒=

−××=

−×=

n

E

ppzn α