Upload
froilan-otero
View
226
Download
0
Embed Size (px)
Citation preview
7/25/2019 Tema 6 Estadstica
1/13
Tema 6: INFERENCIA ESTADSTICA:Estimacin puntual e intervalos de confianza
Introduccin
En temas anteriores hemos estudiado la Estadstica Descriptiva que se dedica al
anlisis y tratamiento de datos.
A partir de ellos resume, ordena y extrae los aspectos ms relevantes de la informacin
que contienen. Sin embargo, los objetivos de la Estadstica pretenden adems extraer
conclusiones para la poblacin de la que fueron extrados.
A esta ltima tarea la llamamos Inferencia Estadstica.
Obtendremos las muestras de forma aleatoria y por tanto necesitaremos la Teora de
la Probabilidad vista anteriormente para valorar nuestras afirmaciones. Hemos visto
algunos modelos de variables discretas y continuas para una poblacin y sus
caractersticas ms importantes, como la media y varianza poblacionales y otros
parmetros. En este tema vamos a construir estimadores de los parmetros de inters
a partir de una muestra y adems vamos a estudiar qu propiedades deben tener los
estimadores para obtener buenas estimaciones.
Comenzamos recordando algunos conceptos bsicos para este tema ya introducidos
anteriormente:
La Inferencia Estadstica es una tcnica matemtica basada en el Clculo de
Probabilidades que tiene por objeto incrementar el conocimiento acerca de
una poblacin a partir de la informacin facilitada por muestras de la misma.
Poblacines un conjunto finito o infinito de individuos sobre los que interesa
estudiar una caracterstica. Por ejemplo deseamos conocer el gasto de los
turistas que pernoctan, en Galicia durante un cierto mes, en hoteles de dos,
tres o cuatro estrellas. O queremos conocer la intencin de voto de los
electores en las siguientes elecciones.
7/25/2019 Tema 6 Estadstica
2/13
Tema 6: Estimacin puntual e intervalos de confianza
2
M. Angeles Fdez. Sotelo
Cuando se recoge informacin de la caracterstica de inters en todos y cada uno de
los elementos de la poblacin se dice que se est realizando un censou observacin
exhaustiva.
Al resultado de medir la caracterstica de inters sobre un subconjunto de la poblacinse le denomina muestra. Con esto la informacin ser manejable y evitaremos el coste
que conlleva, en algunos casos, trabajar con toda la poblacin.
El tamao muestrales el nmero de elementos que componen la muestra.
Cabe hablar de una primera distincin, al hablar de Inferencia, segn la naturaleza del
problema que se plantee:
1) Inferencia paramtrica: cuando conocemos de qu tipo es la variable de
inters y queremos averiguar el parmetro o parmetros de los que depende.
Por ejemplo, la variable de inters puede ser la estatura de una poblacin, se
sabe que es Normal y nos interesan los parmetros y 2, es decir, la media y
la varianza de la estatura. A su vez, dentro de la inferencia paramtrica,
vamos a distinguir distintos enfoques:
a) Estimacin puntual: como valor del parmetro desconocido vamos a dar
un nmero.
b)
Intervalos de confianza: daremos un intervalo que contiene al parmetro
con un cierto "nivel de confianza".
c) Test (o contraste) de hiptesis: tenemos una hiptesis sobre el valor del
parmetro desconocido y se trata de aceptar o rechazar esa hiptesis
utilizando la informacin que nos proporciona la muestra.
2) Inferencia no paramtrica: cuando no conocemos de qu tipo es la variable de
inters. Tambin se pueden plantear las tareas de estimacin, intervalos de
confianza y contrastes de hiptesis, aunque las tcnicas estadsticas son
diferentes.
Consideramos un experimento aleatorio sobre el cual medimos una cierta variable
aleatoria, que denotaremos por X. El objetivo es estudiar la variable aleatoria X, cuya
funcin de distribucin F es en mayor o menor grado desconocida.
Ejemplo 1: Provocamos una reaccin qumica y medimos el calor que se desprende: X.
7/25/2019 Tema 6 Estadstica
3/13
Tema 6: Estimacin puntual e intervalos de confianza
3
M. Angeles Fdez. Sotelo
Nos interesa saber qu valores puede tomar y con qu probabilidades, esto es, su
distribucin.
Ejemplo 2: Queremos conocer la proporcin de individuos con cierta caracterstica en
una poblacin. El experimento consiste en extraer uno al azar y as la distribucin deBernoulli que indica la presencia de la caracterstica tiene como parmetro la
proporcin desconocida.
Suponemos que la distribucin de X, an siendo desconocida, sigue un modelo como
los del tema anterior. En el caso del calor desprendido en la reaccin del Ejemplo 1,
podra ser normal, y en el caso de la proporcin del Ejemplo 2, es claramente de
Bernoulli.
As, el problema se reduce a averiguar los parmetros caractersticos.
Vamos a estudiar los distintos enfoques citados dentro de la inferencia paramtrica.
Hacemos notar que los resultados que obtendremos son vlidos para el caso de
poblaciones infinitas o muy grandes. En caso contrario hay que hacer algunas
modificaciones, debido al cambio de valor de los errores muestrales.
ESTIMACIN PUNTUAL DE UNA MEDIA Y DE UNA PROPORCIN
Supongamos un experimento aleatorio susceptible de repeticin en unas condicionessimilares (por ejemplo, supongamos que seleccionamos personas en una comunidad).
A cada resultado del experimento le asociamos el valor de una variable de inters, X
(por ejemplo, la estatura). Supongamos que conocemos el tipo de la variable (por
ejemplo, es normal) y nos interesa el valor de un parmetro (por ejemplo, la media).
Para obtener informacin vamos a observar repetidamente la variable objeto de
estudio. Estadsticamente, eso quiere decir que vamos a considerar una muestra
aleatoria de tamao n, un conjunto de nvariables:
1 2, ,...,
nX X X
independientes y con la misma distribucin que la variable en estudio. Un valor
concreto de las n variables que constituyen la muestra aleatoria es lo que recibe el
nombre de realizacin muestral o simplemente muestra. (La idea es que vamos a
tomar una muestra de nestaturas, pero los valores de esa muestra dependen de las
personas concretas que consideremos, por tanto realmente partimos de nvariables y
despus consideraremos un valor concreto de cada una de esas variables).
7/25/2019 Tema 6 Estadstica
4/13
Tema 6: Estimacin puntual e intervalos de confianza
4
M. Angeles Fdez. Sotelo
Un estadsticoes una funcin de la muestra aleatoria. Es tambin una variable
aleatoria y por tanto tendr una cierta funcin de distribucin que se denomina
distribucin del estadstico en el muestreo.
Un ejemplo de estadstico es la "media muestral" (suma de las nvariables dividido porn). Al valor del estadstico para una muestra concreta se le denomina estimacin(por
ejemplo, la media de una muestra de nestaturas).
Cuando en una variable de una poblacin desconocemos un parmetro y como valor
de ese parmetro tomamos una estimacin, diremos que estamos ante un problema
de estimacin puntual.
Cuando un estadstico se utiliza en un problema de estimacin puntual se le
denomina estimador.
Indudablemente el problema est en elegir un "buen" estimador, es decir, una funcin
de la muestra con "buenas propiedades":
Insesgado(centrado): el valor esperado del estimador (su centro) coincide con
lo que queremos estimar.
Eficiente: es el de mnima varianza entre los insesgados.
Consistente: al aumentar el tamao muestral el estimador se acerca
indefinidamente al parmetro que queremos estimar.
Formalmente,
Llamamos sesgode un estimador para un parmetro poblacional a
Sesgo ( )=E ( )-
y diremos que el estimador es insesgadosi su sesgo vale cero.
Definimos el error cuadrtico medio de un estimador
para un parmetropoblacional como
E ( -)2= (Sesgo ( ))
2+Var ( )
y diremos que dicho estimador es consistentesi lim E( - )2= 0 , cuando n tiende a .
Es intuitivo y se puede demostrar matemticamente que, en general, un buen
estimador de un parmetro poblacional (media, proporcin, etc.) va a ser el
correspondiente parmetro muestral (media de la muestra, proporcin muestral, etc.),
aunque en algn caso deba modificarse ligeramente. Por ejemplo, para estimar la
varianza de una poblacin la varianza muestral no es un estimador insesgado y
podemos sustituirlo por la cuasivarianza muestral, definida como
7/25/2019 Tema 6 Estadstica
5/13
Tema 6: Estimacin puntual e intervalos de confianza
5
M. Angeles Fdez. Sotelo
2
2 1
1
n
i
i
X
n
(es decir, dividimos por n-1 en vez de hacerlo por n).
Observemos que, al ser la varianza muestral
22 1
n
i
i
X
sn
, se tiene
2 2
1
ns
n
Ejemplo de Estimacin Puntual
Supongamos que nuestra poblacin es un conjunto de 4 nmeros:
{0, 2, 3, 5}
y que deseamos conocer la proporcin, p, de cincos en la poblacin. Obviamente la
respuesta es:
10.25
4p
Pero vamos a utilizar argumentos propios de inferencia estadstica para obtener
aproximadamente el valor de p. (Ntese que el problema que estamos tratando
presenta caractersticas anlogas, por ejemplo, al de conocer la proporcin devotantes de un partido poltico antes de unas elecciones, proporcin de piezas que
fallan en una instalacin,).
Para resolver el problema, en lugar de trabajar con toda la poblacin, vamos a
considerar una muestra (con reemplazamiento) de tamao 2 y vamos a considerar
como estimador la proporcin de cincos en la muestra, es decir, la proporcin
muestral. Esta proporcin muestral es, en principio, una variable aleatoria, porque
depende de la muestra.
Posibles muestras (de tamao 2):
0, 0 0, 2 0, 3 0, 5
2, 0 2, 2 2 ,3 2 ,5
3, 0 3, 2 3, 3 3, 5
5, 0 5, 2 5, 3 5, 5
La proporcin muestral es, en este caso, una variable discreta, que se distribuye de la
siguiente forma:
7/25/2019 Tema 6 Estadstica
6/13
Tema 6: Estimacin puntual e intervalos de confianza
6
M. Angeles Fdez. Sotelo
ix
ip
i ix p 2
i ix p
0 9/16 0 0
1/2 6/16 6/32 6/64
1 1/16 1/16 4/64
La media de esta variable es 0.25 (precisamente el verdadero valor de p) y su
varianza es 3/32.
Las posibles estimaciones son 0, 1/2 y 1.
Notemos que ninguna estimacin coincide con el verdadero valor dep.
Tomando muestras de tamao 3, las estimaciones que se pueden conseguir son: 0,
1/3, 2/3 y 1.
En la prctica, en un problema de estimacin puntual:
1) Fijaremos el tamao de la muestra, de acuerdo con ciertos criterios.
2) Obtendremos una muestra de tamao n, por medio de algn mtodo de
muestreo.
3) Calcularemos el valor del estadstico para nuestra muestra. Ese valor, que es
una estimacin, nos da un valor aproximado para el parmetro desconocido.
Dado que el estadstico es una variable, si elegimos una muestra distinta obtendremos
una estimacin distinta. Por eso es importante elegir un estadstico con buenas
propiedades, y un tamao adecuado para la muestra.
ESTIMACIN DE UNA PROPORCIN (O PARMETROpDE UNA BINOMIAL)
Consideremos un experimento aleatorio, E, que admite dos posibles resultados:
AyAc
siendo ( )p p A
Si X es la variable aleatoria nmero de veces que ocurre A en una prueba de este
experimento, sabemos queXes una variable aleatoria binomial de parmetros 1 yp.
Si p es desconocido, vamos a considerar 1 2, ,..., nX X X , n variables aleatorias
independientes con la misma distribucin que X, es decir, vamos a considerar n
pruebas del experimento E y definimos el siguiente estadstico al que se denomina
proporcin muestral:
7/25/2019 Tema 6 Estadstica
7/13
Tema 6: Estimacin puntual e intervalos de confianza
7
M. Angeles Fdez. Sotelo
nmero de veces que ocurre en pruebas
A np
n
Como todo estadstico, p es una variable aleatoria. Se puede probar que para n
grande:
(1 ) ,
p pp N p
n
As pues, el estadstico p tiene las siguientes propiedades:
p tiene distribucin Normal.
p es una variable, ahora bien, aunque puede tomar diferentes valores se
verifica que
E p p . Como hemos dicho, un estadstico cuya esperanza esel verdadero valor del parmetro se dice que es insesgado.
La varianza del estadstico es importante. De poco sirve que su esperanza
coincida con el parmetro desconocido si presenta mucha varianza. En nuestro
caso lim ( ) 0n
V p
.
Ejemplo
El fabricante de un determinado tipo de lmparas desea averiguar la proporcin de
lmparas defectuosas que produce. Para ello selecciona y prueba 200 unidades y
descubre un total de 80 unidades defectuosas.
Una estimacin de la proporcinde lmparas defectuosas es
p = 80/200=0.4
ESTIMACIN DE LA MEDIA DE UNA VARIABLE NORMAL
Consideramos una poblacin en la que la variable de inters, X, sigue una distribucin2( , )N . Si
1 2
, ,...,n
X X X es una muestra aleatoria, vamos a definir el
siguiente estadstico, al que denominamos media muestral:
1 2 ...
n
X X X
n
, se tiene que
2
,Nn
.
Por tanto, vemos que este estadstico tambin es insesgado.
7/25/2019 Tema 6 Estadstica
8/13
Tema 6: Estimacin puntual e intervalos de confianza
8
M. Angeles Fdez. Sotelo
Si n es grande, sigue siendo aproximadamente
2
,Nn
sin necesidad de
exigir queX sea2( , )N . Por ello, las tcnicas que veremos a continuacin para la
media de poblaciones normales, siguen siendo vlidas para poblaciones que no sean
normales, si las muestras son grandes.
Ejemplo
En una poblacin de 10000 individuos se sabe que la estatura sigue una distribucin
aproximadamente normal, y estamos interesados en estimar la estatura media. Para
ello se elige una muestra de 50 individuos elegidos al azar, se miden sus estaturas y se
calcula la media de esos 50 valores; se obtiene como media 162 cm.
Este valor, =162, constituye una estimacin de la mediade la poblacin.
OBTENCIN DE INTERVALOS DE CONFIANZA
La estimacin puntual tiene el inconveniente de que no tenemos una medida de la
seguridad con la que el estadstico se aproxima al verdadero parmetro. Para poder
dar respuesta a esta cuestin construimos intervalos de confianza, que permiten
precisar la incertidumbre existente en la estimacin.
Un intervalo de confianza es aqul cuyos extremos son funciones de una
muestra aleatoria (y por tanto variables aleatorias) y que contienen al
parmetro con una cierta probabilidad que se denomina nivel de confianza.
Sea el parmetro desconocido y1
L y2
L los extremos del intervalo. Se dice
que el intervalo 1 2,L L tiene un nivel de confianza 1 , 0 1 , sidicho intervalo contiene al parmetro con probabilidad1 .
El nivel de confianza se suele expresar en tanto por cien, as un intervalo de confianzadel 95 por cien es un intervalo de extremos aleatorios que contiene al parmetro con
una probabilidad de 0.95.
INTERVALO DE CONFIANZA PARA UNA PROPORCIN
Si p es la proporcin de individuos que en una poblacin verifican una cierta
propiedad, un intervalo de confianzade nivel 1 para dicha proporcinser, paravalores grandes de n:
7/25/2019 Tema 6 Estadstica
9/13
Tema 6: Estimacin puntual e intervalos de confianza
9
M. Angeles Fdez. Sotelo
2 2
(1 ) (1 ) ,
p p p pp z p z
n n
Donde, como sabemos, 2z es tal que, si ZN(0,1), 2( ) 2P Z z y p denota la proporcin muestral.
Notemos que a mayor valor de n, menor longitud del intervalo de confianza y que a
mayor nivel de confianza mayor longitud del intervalo.
Ejemplo
Con los datos: El fabricante de un determinado tipo de lmparas desea averiguar la
proporcin de lmparas defectuosas que produce. Para ello selecciona y prueba 200
unidades y descubre un total de 80 unidades defectuosas. Obtener un intervalo de
confianzadel 99 por cien para la proporcin de lmparas defectuosas.
El intervalo es:
2 2
(1 ) (1 ) ,
p p p pp z p z
n n
Sustituyendo 0.4p ,2 2.575z
y n=200 se obtiene el intervalo
(0.311,0.489).
INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA VARIABLE NORMAL
Consideramos ahora una poblacin en la que la variable de inters, X, sigue una
distribucin2( , )N . Vamos a estudiar el intervalo de confianza para la media,
de nivel 1 en distintas situaciones:
Cuando la varianza de la poblacin es conocida, el intervalo es:
2 2 ,z z
n n
Cuando la varianza de la poblacin no es conocida, el intervalo adecuado es:
1; 2 1; 2
,
n nt t
n n
7/25/2019 Tema 6 Estadstica
10/13
Tema 6: Estimacin puntual e intervalos de confianza
10
M. Angeles Fdez. Sotelo
siendo1; 2n
t
tal que si tes una distribucin t de Student con n-1grados de
libertad, se tiene 1; 2( ) 2nP t t y es la cuasidesviacin tpica
muestral, estimacin de la desviacin tpica, que viene dada por
21
1
n
i
i
X
n
Cuando la varianza de la poblacin no es conocida, y el tamao de la muestraes grande(nmayor que 30), debido a la aproximacin de la distribucin t a lanormal, el intervalo anterior puede sustituirse por
2 2
,z z
n n
Vemos que es el mismo intervalo del caso de varianza conocida sustituyendo la
varianza por su estimacin.
Ejemplo
La administracin de una empresa desea saber el tiempo que los trabajadores
emplean en desplazarse al trabajo. Para ello observa una muestra de 200 trabajadores,
que dan un tiempo medio de 45 minutos y una desviacin tpica de 30 minutos.
Vamos a calcular un intervalo de confianza del nivel 95% para el tiempo medio.
Se trata de un caso de varianza desconocida y tamao muestral grande por lo que el
intervalo ser2 2
,z z
n n
. Teniendo en cuenta la relacin
entre la varianza y la cuasivarianza, tenemos que200
30199
. Adems
2 1.96z
. Por tanto, el intervalo tendr los lmites 45 4.17
3045 1.96
199
,
con lo cual se obtiene (40.83, 49.17).
Si la muestra fuese de solo 20 trabajadores y la media y desviacin tpica fuesen las
mismas, el intervalo sera1; 2 1; 2
,
n nt t
n n
, suponiendo que la
variable es normal.
7/25/2019 Tema 6 Estadstica
11/13
Tema 6: Estimacin puntual e intervalos de confianza
11
M. Angeles Fdez. Sotelo
En este caso,1; 2 19;0.025
2.093n
t t
y los lmites del intervalo son
45 4.17 45 14.40530
45 2.09319
, es decir (30.595,59.405).
Observemos que es mucho ms amplio que en el caso anterior, lo cual nos confirma
que la precisin de la estimacin es mayor al aumentar el tamao de la muestra.
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES
Consideramos dos poblaciones independientes y en cada una de ellas estudiamos la
proporcin de un suceso A. Estamos interesados en comparar las dos proporciones
(que denotaremosp1yp2), para lo cual construiremos un intervalo de confianza para la
diferenciap1-p2. Haremos n1pruebas en la primera poblacin y n2en la segunda.
Se obtiene el siguiente intervalo de confianza, para valores de n1y n2suficientemente
grandes:
1 1 2 2 1 1 2 21 2 2 1 2 2
1 2 1 2
(1 ) (1 ) (1 ) (1 ) ,
p p p p p p p pp p z p p z
n n n n
siendo1
p y2
p las proporciones muestrales.
Ejemplo
Se quiere estimar la diferencia de proporciones de estudiantes de dos titulaciones que
encuentran trabajo cuando terminan sus estudios. Observados 200 individuos de cada
titulacin, con la primera se colocaron el 85% mientras quede la segunda se colocaron
el 80%. Determinar un intervalo de confianza al 95% para la diferencia de
proporciones.
Los valores para sustituir en la expresin del intervalo son1
p =0.85,2
p =0.80,
2z
=1.96, n1=n2=200 con lo cual se obtiene el intervalo de lmites
0.850.15 0.800.20.85 0.80 1.96200 200
, que resulta ser (-0.0243, 0.1243).
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE POBLACIONESNORMALES INDEPENDIENTES
Consideramos ahora dos poblaciones en donde las variables de inters sern X e Y,
independientes y con distribuciones2
1 1( , )N y 2
2 2( , )N respectivamente.
Con el objeto de poder comparar las dos medias, construiremos un intervalo de
7/25/2019 Tema 6 Estadstica
12/13
Tema 6: Estimacin puntual e intervalos de confianza
12
M. Angeles Fdez. Sotelo
confianza para la diferencia 1-2. Tomaremos dos muestras,11 2
, ,...,n
X X X y
21 2, ,...,
nY Y Y . Al igual que en el caso de una poblacin, debemos distinguir varias
situaciones:
Las dosvarianzas sonconocidas. En este caso, el intervalo ser
2 2 2 2
1 2 1 21 2 2 1 2 2
1 2 1 2
,z zn n n n
Las varianzas son desconocidas pero podemos suponer que son iguales. Seobtiene el intervalo cuyos lmites son
1 2
2 2
1 1 2 21 2 2; 2
1 2 1 2
( 1) ( 1) 1 1
2n n
n nt
n n n n
Las varianzas son desconocidas y no podemos suponer que son iguales.Cuando los tamaos muestrales son suficientemente grandes, podemos utilizar
el mismo intervalo que en el caso de varianzas conocidas sustituyndolas por
sus estimaciones (cuasivarianzas), es decir, obtendremos el intervalo
2 2 2 2
1 2 1 21 2 2 1 2 2
1 2 1 2
,z z
n n n n
pero si las muestras son pequeas, este intervalo no resulta adecuado y debe
sustituirse2
z
por ; 2ft en dondefviene dado por la llamada aproximacin
de Welch, que no estudiaremos.
Ejemplo
Se quiere comparar la eficiencia de dos lneas de produccin de una empresa, para locual se observa el nmero de piezas fabricadas en cinco das por cada una de ellas. En
la primera han sido 50, 48, 53, 60 y 37 mientras que en la segunda 40, 51, 62, 55 y 64.
Vamos a construir un intervalo de confianza al nivel 95% para la diferencia de medias
suponiendo que las variables son normales y las varianzas son iguales (en realidad, a
partir de los datos podramos deducir que esta suposicin efectivamente es admisible,
pero no vamos a estudiar la tcnica correspondiente).
7/25/2019 Tema 6 Estadstica
13/13
Tema 6: Estimacin puntual e intervalos de confianza
13
M. Angeles Fdez. Sotelo
Sabemos que en este caso el intervalo viene dado por
1 2
2 2
1 1 2 21 2 2; 2
1 2 1 2
( 1) ( 1) 1 1
2n n
n nt
n n n n
De los datos deducimos1
=49.6,2
=54.4, 21 =8.38
2, 22 =9.61
2,
1 2 2; 2 8;0.025n nt t
=2.306, n1=n2=5 y, haciendo las operaciones, resulta
24.80 2.3069.02 4.80 13.16
5 , es decir, el intervalo es
(-17.96, 8.36)