37
Material Preparado por Olga Susana Filippini y Hugo Delfino Introducción a la Inferencia Estadística

Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Introducción a la Inferencia Estadística

Page 2: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Temario

• Diseño Muestral

• Teorema Central del Límite

• Inferencia estadística

· Estimación puntual y por intervalos

· Test de hipótesis.

Page 3: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

DISEÑO MUESTRAL

Page 4: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

• La gran mayoría de las encuestas estadísticas, ya sea para toma de decisiones o para formulación de hipótesis o teorías se hacen por muestreo.

· Esto se debe a que gracias a la teoría de muestreo esposible medir las propiedades de grandes masas dedatos con precisión calculada sobre la base de unamuestra.

• Las poblaciones que se investigan, pueden ser infinitas.

• La medición de una población puede ser destructiva

• La población puede no ser accesible.

• Puede llegar a ser el método o mecanismo más eficiente.

• Puede dar resultados más eficientes que un censo:recuento completo de una población.

Porque utilizar muestras

Page 5: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

• Probabilísticos

Cada uno de los elementos de la población tiene una

probabilidad conocida y no nula de ser seleccionado.La selección de las unidades es aleatoria.

• No Probabilísticos

La selección de las unidades muestrales no serealizan aleatoriamente, sino siguiendo algún otrocriterio en el que puede intervenir la subjetividad delas personas participantes del trabajo(encuestadores, supervisores, jefes de campo,investigadores, expertos, etc.).

Modelos de Muestreo

Page 6: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

• Muestras casuales o fortuitas.

• Selección experta.

• Muestra por cuotas.

• Muestra de poblaciones en movimiento.

• Grupos de enfoque.

Ejemplos de muestras No Probabilísticas

Page 7: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Muestras Probabilísticas

Page 8: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Población, Muestra y distribuciones de

muestreo

Población: es la colección, o conjunto, de individuos, objetos o eventos cuyas propiedades serán analizadas.

Muestra: es un subconjunto de la población de interés.

La utilización de encuestas por muestreo tiene como propósito hacer inferencias sobre la población.

Page 9: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Población, Muestra y distribuciones de

muestreo

Distribución de Población: distribución de frecuencia de todos los elementos de la población, que se puede ajustar con una distribución teórica de probabilidades.

Parámetros (poblacionales): la media y desviación estándar son los mas frecuentes.

Distribución de la Muestra: distribución de frecuencia de los elementos de una muestra individual.

Estadísticos (muestrales): la media ( ) y desviación estándar (Sn-1)

x

Page 10: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Caso: Cooperativa telefónica de Villa Rumipal

• La cooperativa telefónica de Villa Rumipal tiene 1336 clientes. De la misma

tenemos para cada asociado el consumo en pesos del mes de enero de

2009 en llamadas locales, a celulares y de larga distancia.

• Debemos presentar un informe al Consejo de Administración sobre nuestros

asociados, describiendo la población bajo estudio, calculando los

parámetros de la misma.

• Dado que deseamos conocer características de nuestros asociados

queremos seleccionar una muestra de los mismos y para asegurarnos que

la muestra es válida queremos verificar si el promedio de consumo es

similar al de la población bajo estudio.

• Extraemos una muestra de tamaño 20 y comparamos el resultado con el

parámetro problacional.

• Para ello utilizaremos el archivo en excel “Cooperativa telefónica de Villa

Rumipal”

Page 11: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Población, Muestra y distribuciones de

muestreo

Distribución de Muestreo de la Media Muestral: distribución de frecuencia de la media muestral de cada una de las posibles muestras de tamaño n tomadas de determinada población.

La media muestral pasa a ser una variable aleatoria que mostrará su variación de muestra en muestra.

La esperanza de una variable aleatoria es igual a su parámetro. E(x)= por lo tanto E( ) = x

Page 12: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Población, Muestra y distribuciones de

muestreo

La variancia de la media muestral mide la variación de muestra en muestra de la media muestral.

La variancia de una variable aleatoria es igual a su parámetro. V(x)= 2 por lo tanto 2 ( ) = E( -)2

La distribución de la media muestral se concentra cada vez más en el entorno de , a medida que aumenta el tamaño de la muestra (n).

x

x2

x

n

x2

2

Page 13: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Población, Muestra y distribuciones de

muestreo

Teorema Central del Limite: si una población tiene una media y variancia 2, finitas, entonces, a medida que el tamaño de la muestra (n) aumenta, la distribución de la media de la muestra ( ), tiende a la distribución normal con media y variancia ( ).

El TCL se cumple sin importar cual es la distribución de la variable aleatoria bajo estudio.

Es condición indispensable que la muestra sea aleatoria.

x

n

2

Page 14: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Caso: Cooperativa telefónica de Villa Rumipal

• TAREA

• Para construir la distribución de frecuencia de las medias

muestrales, extraemos 30 muestras de tamaño 20 cada

una.

• Analizamos si lo propuesto por el teorema general del

límite se cumple o no.

• ¿Que pasa si aumentamos el tamaño de muestra a 40?

• ¿A qué conclusiones pueden arribar?

Page 15: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

La inferencia estadística es la forma de tomar decisiones

basadas en probabilidades y presenta dos aspectos:

• Estimación de parámetros:

· Puntual

· Por intervalos

• Prueba de Hipótesis con respecto a una función elegida

como modelo.

Inferencia Estadística

Page 16: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

• Estimadores son las expresiones matemáticas que se construyen a partir de los datos de la

muestra y que tienen como objetivo estimar los

valores poblacionales o en lenguaje estadístico

los parámetros del estudio.

• Ejemplos:

· Promedio diario de llamados telefónicos al 0800.

· Número total de consumidores de la marca A.

· Porcentaje de votantes al candidato K.

Estimadores

Page 17: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

• Los estimadores deben ser considerados

variables aleatorias, ya que el valor que adopten

(la estimación a la que den origen), depende de

las unidades que integran la muestra, y éstas por

ser elegidas aleatoriamente, varían de muestra

en muestra.

Estimadores

Page 18: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Estimadores puntuales de los parámetros de

una población normal

Sea una muestra aleatoria simple, X1, X2, ...... , Xn de

una población con distribución N(, 2).

• Estimador de la media

n

i

i

n

xx

1

La distribución muestral de la media es :

),(n

x

Page 19: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Estimadores puntuales de los parámetros de

una población normal

• Estimador de la Variancia poblacional es la

variancia muestral

n

i

i

n

xxS

1

222

)1(

)(

Page 20: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Estimadores puntuales de los parámetros de

una población normal

estima a la desviación típica de la median

S

n

y se denomina error estándar de la media muestral,

por esta razón se dice que el error estándar de la

media mide la variabilidad de la media en el

muestreo.

Page 21: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Estimadores puntuales de los parámetros de

una población normal

• Estimador del total

n

i

i

n

xNxNT

1

•La variancia estimada es:

)()(ˆ)(ˆ)(ˆ2

22222

n

SNxNxNT

Page 22: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Estimadores puntuales de los parámetros de

una población normal

• Estimador de una proporción

n

i

i

n

xp

1

•La variancia estimada es:

))1(*

()(ˆ 2

n

ppp

Donde xi =1 si tiene la característica bajo estudio

Page 23: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Caso: Cooperativa telefónica de Villa Rumipal

• Con los datos de la cooperativa telefónica de Villa Rumipal

· ¿Cuál es el promedio de consumo total, que se obtuvo con una muestra

de tamaño 20?

· ¿Cuál es de desvío estándar de la estimación?

· ¿Cuál es la estimación del total de consumo?

· ¿Cuál es la proporción de clientes femenino?

· ¿Cada uno de Uds. obtuvo el mismo resultado?

· Explicar porque fueron iguales o distintas las estimaciones.

Page 24: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Estimadores

Realizada la estimación de un parámetro cabe

preguntarse:

¿ Es exacta la estimación?

¿Es probable que la estimación sea alta o baja?

¿Con otra muestra se obtendría el mismo resultado, o

bastante diferente?

La calidad de un procedimiento de estimación

¿mejora bastante si la estadística de la muestra es

menos variable e insesgada a la vez?

Page 25: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

• Ausencia de sesgo

Se dice que un estimador es insesgado (o centrado) si la

esperanza del estimador coincide con el parámetro a estimar

En caso contrario se dice que es sesgado.

• Consistencia

Se dice que un estimador es consistente si se aproxima

cada vez más al verdadero valor del parámetro a medida que

se aumenta el tamaño muestral.

Estimadores y propiedades deseables de

los estimadores

)ˆ(E

0])ˆPr[( 0, n

La distribución del estimador se concentra más alrededor del

verdadero parámetro cuando el tamaño muestral aumenta.

Page 26: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Métodos de estimación

Hay varios métodos de estimación, el de máxima

verosimilitud es el que proporciona estimadores

consistentes pero no siempre insesgados. Los

estimadores mencionados en los puntos

anteriores

son estimadores máximo verosimiles. El mismo

resultado se puede obtener por el método de los

momentos.

),,,( 2 pSTx

Page 27: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Dada una muestra aleatoria X1, X2, ... , Xn , de una población

con función de densidad f(x;) Un intervalo de confianza, de

extremos L-inferior y L-superior, para el parámetro de la

población es un par ordenado de funciones reales de las n

medidas de la muestra

I = [Linferior (X1,...,Xn);Lsuperior (X1,..., Xn)]

Construidas de forma que la probabilidad de que los extremos

contengan al verdadero valor del parámetro es un valor

prefijado (1 - ). Al número (1 - ) se le denomina “nivel de

confianza”.

Estimación por intervalos

Page 28: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

• El nivel de confianza suele ser 0,95 (95%) ó 0,99 (99%). Lainterpretación práctica es sencilla, por ejemplo si el nivel deconfianza es del 95%, significa que en el 95% de las vecesque repitiéramos el experimento, el intervalo de confianzacalculado contendría al verdadero valor del parámetro y en el5% restante el intervalo no contendría el verdadero valor.

• Una vez que el intervalo de confianza ha sido calculado parauna muestra concreta, el intervalo obtenido contiene o nocontiene al verdadero valor del parámetro, con probabilidad1, por esa razón, cuando ya tenemos un valor concretohablamos de confianza y no de probabilidad. Confiamos enque el intervalo que hemos calculado sea del 95% quecontiene el verdadero valor.

Estimación por intervalos

Page 29: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Nivel de confianza gráficamente

Page 30: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Intervalo de confianza para la media

poblacional, conocido

Supongamos que disponemos de una población en la que

tenemos una v.a. con distribución N(,) con conocida (de

estudios previos, por ejemplo).

Obtenemos una muestra de tamaño n y deseamos estimar la

media de la población. El estimador puntual de la misma es

la media muestral cuya distribución muestral es conocida

),(n

x

n

xZ

tendrá distribución

normal estándar

la cantidad

Page 31: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Intervalo de confianza para la media

poblacional, conocido

Sobre la distribución N(0 , 1) podremos seleccionar

dos puntos simétricos -z/2 y z /2 , tales que

P(-z /2 Z z /2 ) = 1-

Page 32: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Sustituyendo Z por su valor en este caso

particular

Intervalo de confianza para la media

poblacional, conocido

12/2/ z

n

xzP

Despejando nos queda el intervalo de confianza,

12/2/n

zxn

zxP

Page 33: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Recordemos que si la varianza poblacional es

desconocida y la variable es normal o se puede

aproximar a la distribución normal por el Teorema

central del límite, entonces se usaría la t de Student con

n –1 grados de libertad y el desvío estándar muestral.

El intervalo de confianza que resulta,

Intervalo de confianza para la media

poblacional, desconocido

1)1;2/()1;2/(n

stx

n

stxP nn

Page 34: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Intervalo de confianza para la

proporción poblacional

Supongamos que disponemos de una población en la que

tenemos una v.a. con distribución N(,) con conocida (de

estudios previos, por ejemplo).

Obtenemos una muestra de tamaño n y deseamos estimar la

proporción p de la población. El estimador puntual de la

misma es la proporción muestral cuya distribución muestral

es conocida ),( ppp

n

qp

ppZ

*

tendrá distribución

normal estándar

la cantidad

Page 35: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Sustituyendo Z por su valor en este caso

particular

Intervalo de confianza para la proporción

poblacional

1*

2/2/ z

n

qp

ppzP

Despejando nos queda el intervalo de confianza,

1**

2/2/n

qpzpp

n

qpzpP

Page 36: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Caso: Cooperativa telefónica de Villa Rumipal

• Con los datos de la cooperativa telefónica de Villa Rumipal

· Construya los intervalos de confianza de:

· El promedio de consumo total, que se obtuvo con una muestra de

tamaño 20

· Del total de consumo de la cooperativa.

· De la proporción de clientes femenino

· ¿Cada uno de Uds. obtuvo el mismo resultado?

· Explicar porque fueron iguales o distintas las estimaciones.

Page 37: Introducción a la Inferencia Estadísticaplatdig.unlu.edu.ar/1/archivos/repositorio//250/344/Introduccion_a_la_inferencia... · • La gran mayoría de las encuestas estadísticas,

Material Preparado por Olga Susana Filippini y Hugo Delfino

Ejercitación

• Ejercicio 1:

· Un productor desea lanzar un nuevo producto y lo hará si consigue que los supermercados vendan en promedio 880 unidades o más por semana. Para responder a esto, se coloco el producto en 12 supermercados y se registraron las ventas semanales.

· ¿Entre que valores se espera estarán las ventas del nuevo producto con un 95% de confianza? ¿Debo lanzar o no el producto? ¿Por qué?

• Ejercicio 2:· Un operador de telefonía celular quiere saber si el tiempo promedio de uso diario de

celular es diferente entre mujeres y hombres a efectos de preparar una promoción basada en minutos de consumo. Para ello realiza una encuesta a 200 usuarios.

· ¿Entre que valores se espera estará con un 95% de confianza el tiempo medio de uso diario de celular para mujeres y para hombres? ¿Preparo una única promoción o dos? ¿Por qué?

• Ejercicio 3:

· El fabricante de una marca de fideos sabe que en GBA su producto esta distribuido en el 19% de los negocios y esta interesado en saber si en la ciudad de Córdoba tiene el mismo nivel de distribución, a efectos de modificar o no su estrategia de distribución . Para ello realiza una encuesta en 85 negocios y el resultado refleja que el porcentaje de negocios que comercializan mi marca es de 14.12%

· ¿Entre que valores se espera estará la distribución de mi producto en Córdoba con un 95% de confianza? ¿Necesita modificar la estrategia? ¿Por qué?

• Los datos para los ejercicios 1 y 2 estan en un archivo excel “Encuesta a Supermercados y usuarios de Telefónia Celular”