TEMA 4.- INFERENCIA ESTADÍSTICA - acorral.etsisi.upm.esacorral.etsisi.upm.es/Tel_Estadistica/TEMA_4_INFERENCIA_2017_2018/... · • Marcan el “centro” de los datos y la “posición”

TEMA 4.- INFERENCIA ESTADÍSTICA

1

4.1. ESTADÍSTICA DESCRIPTIVA (Clase 1) 4.1.1 DATOS DE UNA VARIABLE 4.1.2. DATOS DE DOS VARIABLES 4.2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. ESTIMACIÓN PUNTUAL (Clase 2) 4.3 . INTERVALOS DE CONFIANZA (Clase 3) 4.4. CONTRASTES DE HIPÓTESIS: (Clase 4)

4.1.1. ESTADÍSTICA DESCRIPTIVA EN UNA VARIABLE

2

4.1.1.1 CONCEPTOS GENERALES. DEFINICIONES 4.1.1.2 DISTRIBUCIÓN O TABLA DE FRECUENCIAS. 4.1.1.3 REPRESENTACIONES GRÁFICAS: 4.1.1.3.1. DIAGRAMA DE BARRAS 4.1.1.3.2. HISTOGRAMA

3

4.1.1.4. MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN 4.1.1.4.1. MEDIA ARITMÉTICA 4.1.1.4.2. MEDIANA 4.1.1.4.3. PERCENTILES Y CUANTILES 4.1.1.4.4. DIAGRAMA DE CAJA O BOX PLOT 4.1.1.5. MEDIDAS DE DISPERSIÓN 4.1.1.5.1. RANGO O RECORRIDO Y RECORRIDO INTERCUARTÍLICO. 4.1.1.5.2. VARIANZA Y DESVIACIÓN TÍPICA

4.1.1.1 CONCEPTOS GENERALES. DEFINICIONES

4

ESTADÍSTICA DESCRIPTIVA: Técnicas que tratan de describir conjuntos de datos x1, x2 ,..., xn (que también llamaremos MUESTRA) que vienen del estudio de una característica o variable X (también se llama población) resumiendo la información que éstos proporcionan utilizando como herramientas:

• TABLAS DE FRECUENCIAS • GRÁFICOS • MEDIDAS NUMÉRICAS: * CENTRALIZACIÓN Y POSICIÓN * DISPERSIÓN

4.1.1.2. TABLAS DE FRECUENCIAS

5

xi ni fi

1

2

3

4

7

8

2

4

2

3

1

2

0.143

0.286

0.143

0.214

0.071

0.143

• Se llama TABLA O DISTRIBUCIÓN DE FRECUENCIAS al conjunto de valores DISTINTOS que toma la variable acompañados de sus respectivas frecuencias.

• EJEMPLO: Número de accesos de un procesador a un determinado módulo de memoria en una hora. Se toma una muestra de tamaño 14: 1,2,4,8,2,1,4,4,8,3,2,2,7,3.

Si hay muchos datos distintos en la muestra, para realizar la tabla de frecuencias se agrupan previamente estos datos en intervalos.

La frecuencia relativa fi es la PROPORCIÓN que el valor xi representa sobre el total de datos. Multiplicada por

100 es un porcentaje.

4.1.1.3.1. DIAGRAMA DE BARRAS

6

• Se realiza cuando el número de datos distintos es pequeño.

•Sobre cada valor ordenado de los datos se levanta una barra cuya altura es igual a su frecuencia.

•Se pueden representar las frecuencias absolutas o relativas.

7

NÚMERO DE LLAMADASxi Frecuencia0 401 262 143 64 35 06 1

Total 90

Número de llamadas

frecu

encia

s

0

10

20

30

40

0 1 2 3 4 5 6

4.1.1.3.2. HISTOGRAMA

8

• Es una representación que se usa cuando hay muchos datos distintos. En este caso, hay que agrupar previamente los datos en INTERVALOS.

• Sólo haremos los histogramas que proporciona Statgraphics, en los que Statgraphics usa una agrupación de los datos en intervalos de igual amplitud.

• Cada intervalo se representa mediante un rectángulo cuya altura es igual a su frecuencia.

•Se pueden representar las frecuencias absolutas o relativas.

9

Histogram

Leche

frequ

ency

0 20 40 60 80 100 120048

12162024

4.1.1.4 MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

10

• Marcan el “centro” de los datos y la “posición” de los mismos.

•Las principales son: • Media aritmética • Moda • Mediana • Cuantiles o Percentiles. Cuartiles.

11

2 2 3 3 4 4 4 5 6 6 6 7 7 8 8 515

x + + + + + + + + + + + + + += =

xi ni

2

3

4

5

6

7

8

2

2

3

1

3

2

2

Con los datos: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8

2 2 3 2 4 3 5 6 3 7 2 8 2 515

x ⋅ + ⋅ + ⋅ + + ⋅ + ⋅ + ⋅= =

La moda es el valor que más se repite. Este ejemplo tendría dos modas, Mo = 4 y 6.

4.1.1.4.1. MEDIA ARITMÉTICA

12

Es un valor tal que, ordenados de menor a mayor los datos, el 50% es menor o igual que él y el 50% mayor o igual que él. Se denota como Me:

•Si el número de datos es impar, la mediana es el valor que ocupa el centro.

• Si el número de datos es par de datos, la mediana es la semisuma de los dos datos centrales (en este caso no tiene porqué ser uno de los datos)

• Con los datos del ejemplo anterior:

2 2 3 3 4 4 4 5 6 6 6 7 7 8 8

• Si añadimos a los datos anteriores el valor 8, la mediana es 5.5, que no es uno de los datos.

4.1.1.4.2.MEDIANA

13

CUANTIL DE ORDEN α, 0<α<1, o PERCENTIL 100 α : Es un valor tal que el 100α% de los datos que es menor o igual que él y el resto de los datos es mayor o igual que él.

Los más usuales son:

•CUARTILES Q1, Q2, Q3 , que corresponden a α= 0.25, 0.5,0.75. La mediana es el segundo cuartil.

(Por ejemplo, el 25% de los datos son menores o iguales que Q1 y el 75% de los datos son mayores o iguales que Q1).

• PERCENTILES P1,...,P99 con α = 0.01,...,0.99

(Por ejemplo, el 13% de los datos son menores o iguales que P13 y el 87% de los datos son mayores o iguales que P13).

4.1.1.4.3. CUANTILES O PERCENTILES

4.1.4.4. DIAGRAMA DE CAJA (BOX-PLOT)

14

• Este diagrama se utiliza para detectar DATOS ATÍPICOS: datos muy diferentes del resto de datos.

•Los datos dentro del intervalo definido por los límites de admisión (LI, LS), se consideran normales:

•Los datos que quedan fuera de este intervalo, se consideran atípicos. Estos datos pueden ser errores o casos “raros”.

)QQ(5'1QLS)QQ(5'1QLI

133

131

−+=−−=

4.1.1.4.4. DIAGRAMA DE CAJA (BOX-PLOT)

15

Dato menor no atípico Media

Mediana

Dato mayor no atípico

Dato atípico

Box-and-Whisker Plot

Altura150 160 170 180 190 200

Dato atípico Q1

Q3

4.1.1.4.4. DIAGRAMA BOX PLOT MÚLTIPLE

16

Este diagrama se usa para representar grupos de datos de una variable a partir de los valores de una segunda variable. Ejemplo: datos de la variable mortalidad infantil, en tantos por mil, separados por la variable continente.

4.1.1.5 MEDIDAS DE DISPERSIÓN

17

•Las medidas de dispersión completan la información que dan las medidas de centralización e indican si éstas son más o menos representativas del conjunto de datos.

• A menor valor de la medida, menor dispersión en el conjunto de datos.

•Las más importantes son: Rango o recorrido

Rango o recorrido intercuartílico Varianza y Desviación típica

18

4.1.1.5.1. RECORRIDO Y RECORRIDO INTERCUARTÍLICO

18

• El rango o recorrido y el recorrido intercuartílico miden la amplitud de los datos.

• Se definen como:

• RANGO O RECORRIDO: R = xmayor –xmenor

•RANGO O RECORRIDO INTERCUARTÍLICO: RQ = Q3 - Q1

4.1.1.5.2. VARIANZA Y DESVIACIÓN TÍPICA

19

( )n

22i

i 1

1 x xn

S=

= −∑

2S S=

• VARIANZA:

•

•DESVIACIÓN TÍPICA: medida en las mismas

unidades que los datos

Ambas son medidas de dispersión asociadas a la media. Miden, entonces, la representatividad de la media en el conjunto de datos.

•Representa una especie de distancia media de los datos a la media aritmética. A mayor varianza, mayor distancia de los datos a la media y por tanto, menor representatividad de la media.

•La varianza siempre es mayor o igual que 0 y está medida en unidades al cuadrado.

20

Supongamos que tenemos las notas de dos grupos de alumnos recogidas en las siguientes tablas:

xi ni

0 20

10 20

yi ni

4.5 3

5 34

5.5 3

( ) ( )

( ) ( ) ( )

2 22

2 2 22

1 0 5 20 10 5 20 25, 5,401 4.5 5 3 5 5 34 5.5 5 3 0.0375, 0.1940

X X

Y Y

S S

S S

= − ⋅ + − ⋅ = =

= − ⋅ + − ⋅ + − ⋅ = =

Para ambas variables la media es 5, pero en el segundo caso 5 es un valor más representativo de los datos que en el primero porque su varianza (distancia a la media) es menor que en el segundo.

4.1.2. ESTADÍSTICA DESCRIPTIVA DE DOS VARIABLES

21

Se analizan de forma CONJUNTA datos de dos variables X e Y con la idea de obtener RELACIONES entre las variables.

Se tiene datos sobre n individuos

Estudiaremos:

4.1.2.1. TEORÍA DE CORRELACIÓN

4.1.2.1.1 Diagrama de dispersión o X-Y

4.1.2.1.2 Covarianza

4.1.2.1.3 Coeficiente de correlación lineal

4.1.2.2. TEORÍA DE REGRESIÓN

4.1.2.3. BOX –PLOT MÚLTIPLE

1 2 1 2en nx x x y y y, , ..., , , ...,

4.1.2.1.1 CORRELACIÓN: DIAGRAMA DE DISPERSIÓN O DIAGRAMA X-Y

• La representación gráfica de los pares

sobre unos ejes cartesianos es el DIAGRAMA DE

DIPERSIÓN o diagrama X-Y. • Este diagrama proporciona una descripción gráfica

de la relación entre las variables X e Y.

22

( ) 1i ix y i n=, , , ...,

4.1.2.1.2 CORRELACIÓN: COVARIANZA

23

•La COVARIANZA es una medida de la DEPENDENCIA LINEAL existente entre DOS variables X e Y (es decir, mide si hay relación del tipo Y = a + bX entre las variables).

•Si los datos de X e Y son:

1 2 1 2en nx x x y y y, , ..., , , ...,

( )( )1

n

i ii

x x y yCov X Y

n=

− −=∑

( , )

24

( , ) 0Cov X Y >

( , ) 0Cov X Y <( , ) 0Cov X Y =

Algunos diagrama de dispersión “típicos”

4.1.2.1.3 COEFICIENTE DE CORRELACIÓN LINEAL

25

• r ∈[-1,1]. Si: – | r | ≥ 0.75 se considera que la dependencia lineal entre X e Y es ALTA,

más alta cuanto más se acerca | r | a 1.

– Si | r | es bajo, tenemos una dependencia lineal BAJA entre X e Y, más baja cuanto más se acerca | r | a 0.

– Para valores intermedios de r , diremos que hay una dependencia lineal moderada entre X e Y.

Además, si: • r > 0, la dependencia lineal es positiva: si X crece, Y también y viceversa.

• r < 0 , la dependencia lineal es negativa: si X crece, Y decrece y viceversa.

• r = 0 (esto ocurre cuando Cov(X,Y) =0), no hay dependencia lineal entre X e Y pero puede haber otro tipo de dependencia .

X Y

Cov X Yr r X YS S

= =⋅

( , )( , )

4.1.2.2. REGRESIÓN

26

• Trata de explicar la variable Y como una función de la variable X, Y = f(X), a partir de la información contenida en los datos de los que se dispone,

•La variable Y se llama DEPENDIENTE. X es la variable INDEPENDIENTE.

• TÉCNICA: Se dibuja el diagrama de dispersión y se busca aquella función (recta, parábola, exponencial, hipérbola,...) que mejor ajuste la nube de puntos. •Nosotros solamente vamos a ver el caso de la recta de regresión.

1 2 1 2en nx x x y y y, , ..., , , ...,

27

Tendencia parabólica

X

Y

0 2 4 6 8 100

2

4

6

8

Tendencia lineal

X

Y

0 2 4 6 8 100

2

4

6

8

10

Tendencia exponencial

X

Y

0 40 80 120 160 2000

1

2

3

4 10000)

Tendencia hiperbólica

X

Y

0 1 2 3 4(X 10000)

0,27

0,47

0,67

0,87

1,07

RECTA DE REGRESIÓN de Y sobre X

28

•Se busca la recta Y = a+bX que más se aproxime a la nube de puntos obtenida al representar los datos mediante el diagrama de dispersión.

•La solución para este problema (criterio de mínimos cuadrados) es:

2

2

Y

X X

Y

X X

Cov X Y Sa y x y r xS S

Cov X Y Sb rS S

= − = − ⋅ ⋅

= = ⋅

( , ) ,

( , )

29

ESTUDIO DE REGRESIÓN: INFLUENCIA DE LA EDAD DE LA MUJER EN LA TASA DE ACIERTO EN LA

REPRODUCCIÓN ASISTIDA

30 25 33 26 32,5 27 30 28 34 29 31 30 34,5 31 32 32 31 33 30 34 29 35 28 36 27 37

24 38 21 39 20,5 40 18 41 15 42 11 43 8 44 7 45 3 46 2 47 0 48 0 49

Tasa de acierto Edad

Tasa de acierto Edad

30

Plot of Fitted Model

Edad

Tas

a_de

_aci

erto

25 29 33 37 41 45 490

10

20

30

40

Dibujamos el diagrama de dispersión para ver la tendencia del conjunto de datos.

• Vamos a usar Statgraphics para obtener la recta de regresión para la variable Tasa de acierto en función de la variable Edad.

• Obsérvese que a la vista del diagrama, la función más adecuada podría no ser una recta.

31

• TASA_DE_ACIERTO = 77.4573-1.51885*EDAD

• El coeficiente de correlación lineal es r = -0.935732, lo que indica una dependencia lineal alta y negativa (a mayor edad, menor tasa de acierto en la reproducción asistida).

•Predicciones: para una mujer de 30.5 años ¿qué tasa de acierto prevé el modelo? Sustituiríamos en la ecuación obtenida y resulta una tasa de acierto de 31.13%.

Dependent variable: Tasa_de_aciertoIndependent variable: Edad

Standard TParameter Estimate Error Statistic P-Value-----------------------------------------------------------------------------Intercept 77,4573 4,50004 17,2126 0,0000Slope -1,51885 0,119377 -12,7231 0,0000-----------------------------------------------------------------------------

Correlation Coefficient = -0,935732R-squared = 87,5594 percent

4.2.3. DIAGRAMA BOX PLOT MÚLTIPLE

32

Este diagrama se usa para representar grupos de datos de una variable a partir de los valores de una segunda variable. Ejemplo: datos de la variable mortalidad infantil, en tantos por mil, separados por la variable continente.

TEMA 4.- INFERENCIA ESTADÍSTICA

33

4.1. ESTADÍSTICA DESCRIPTIVA (Clase 1) 4.1.1 DATOS DE UNA VARIABLE 4.1.2. DATOS DE DOS VARIABLES 4.2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. ESTIMACIÓN PUNTUAL (Clase 2) 4.3 . INTERVALOS DE CONFIANZA (Clase 3) 4.4. CONTRASTES DE HIPÓTESIS: (Clase 4)

4. 2. INTRODUCCIÓN A INFERENCIA ESTADÍSTICA. ESTIMACIÓN PUNTUAL

4. 2.1. INTRODUCCIÓN. DEFINICIONES PREVIAS.

4. 2.2. TIPOS DE INFERENCIA.

4. 2.3. ESTIMACIÓN PUNTUAL

4. 2.4. DISTRIBUCIÓN DE ESTADÍSTICOS EN POBLACIONES NORMALES.

4. 2.1. INTRODUCCIÓN A INFERENCIA ESTADÍSTICA.

OBJETIVO DE LA INFERENCIA ESTADÍSTICA: Obtener conclusiones sobre una característica o variable aleatoria en estudio, X, en una población de tamaño N utilizando la información que proporciona:

- una muestra o subconjunto de individuos de la población, que denotaremos x1, x2, …, xn.

- los modelos teóricos estudiados.

Dado su carácter inductivo, las conclusiones pueden están sujetas a errores. Estos errores se miden en términos de PROBABILIDAD.

La información contenida en la muestra se obtendrá utilizando las técnicas de Estadística Descriptiva.

DEFINICIONES PREVIAS

Para conectar la Estadística Descriptiva con los modelos teóricos estudiados en los temas anteriores, usaremos dos definiciones: • Definición 1: Sea X la v.a. en estudio, con distribución Fθ, F

conocida y θ desconocido. Llamamos muestra aleatoria simple de tamaño n (m.a.s.) a la variable aleatoria n-dimensional (X1, X2,..., Xn) donde las variables X1, X2,..., Xn son independientes y tienen la misma distribución que X.

• Realización de la muestra: Es el conjunto de n valores NUMÉRICOS que toma cada variable (x1, x2,..., xn).

• Observación: La definición de muestras aleatoria simple permite dar cobertura probabilística a los cálculos que vamos a hacer y poder usar todos los resultados estudiados en el tema 3 de vectores aleatorios.

Definición 2: Sea X la v.a. en estudio con distribución Fθ con F conocida y θ desconocido. Sea (X1, X2,..., Xn) una muestra aleatoria simple de X. Llamaremos estadístico o estimador a cualquier función de la muestra aleatoria simple, T(X1,X2,...,Xn). Importante: Un estadístico es una variable aleatoria unidimensional. Tiene sentido entonces, obtener:

– su distribución de probabilidad, que dependerá de la distribución de X.

– Sus características más relevantes: esperanza y varianza. Observación: Las dos definiciones anteriores permiten tratar las medidas que hemos estudiado en Estadística Descriptiva (media, varianza,…) como variables aleatorias y así poder usar todos los resultados estudiados en el tema 2.

4.2.2. TIPOS DE INFERENCIA Sea X la v.a. en estudio con distribución Fθ, F conocida o no, y θ desconocido. Sea (X1, X2,..., Xn) una muestra aleatoria simple de X y su realización (x1, x2,..., xn). Hay tres tipos de inferencia: • ESTIMACION PUNTUAL: intenta asignar un valor numérico

adecuado, que denotaremos , al parámetro desconocido θ de la distribución de la población X, a partir de la muestra.

• ESTIMACION POR INTERVALOS DE CONFIANZA: se intenta dar una cota del error cometido al realizar una estimación puntual del parámetro θ mediante .

• CONTRASTE DE HIPOTESIS: el objetivo es aceptar o

rechazar una afirmación o hipótesis hecha sobre algún aspecto de la variable X (parámetro , distribución, ….)

θ̂

ˆ Kθ θ− <

0 0

0 0

F Fó

F Fθ θθ θ= =

≠ ≠

θ̂

4.2.3. ESTIMACIÓN PUNTUAL Objetivo: Estimar el parámetro θ, es decir, asignar un valor numérico adecuado para θ usando la muestra aleatoria simple de X, (X1, X2,..., Xn) y la realización (x1, x2,.., xn) de la que se dispone.

PARÁMETROS HABITUALES: Los parámetros habituales θ cuando se estudia una variable aleatoria X en una población son:

2

1. Parámetro media [ ]

2. Parámetro varianza ( )

3. Parámetro desviación típica ( )

4. Paráme proporción de individuos de la poblaciónque posee una cierta característica de inte

tro proporcié

ón :r s

E X

V X

V X

p

µ

σ

σ

=

=

= +

Forma de trabajo en estimación puntual: La estimación de θ se hace eligiendo un ESTADÍSTICO T(X1,X2,...,Xn) adecuado para θ y sustituyendo la realización de la muestra en el mismo T(x1,x2,...,xn) . Este valor se denota y se llama estimación de θ. ESTADÍSTICOS Y ESTIMACIONES PARA CADA PARÁMETRO

( )1 2ˆ , ,..., nT x x xθ =

1

1

*1Estimador de : (variable aleatoria)

1Êstimación de : (valor numéri

Parámetro med

co)

ia :n

i

n

i

X Xn

x xn

µ

µ

µ µ

=

= =

∑

∑

2 2 21

1

2 2

2

2 21

1

*1Estimador de : ( ) (variable aleatoria)

11Êstimación

Pará

de : ( ) (val

m

or num

etro varian

érico)1

za :n

ii

n

ii

S X Xn

s x xn

σ

σ σ

σ

=

=

= −−

= = −−

∑

∑

21 1

21 1

*

Estimador de : (variable aleatoria)

Êstimación de

Parámetro desviació

: (valor numéri

n típ ca :

co)

i

S S

s s

σ

σ

σ σ

=

= =

1

1

:nº elementos muestra que tienen la característica ,

donde es ( , ) (variable aleatoria):

nº elementos muestra que

Estimador de

Estimación dtienen la característica (valor numérico

e

)

YPn n

Y Bin n p

p

p

n

p

= =

=

* Parámetro proporción p: proporción de individuos que poseen una cierta característica La variable X que se estudia tiene distribución B(1, p). En concreto, Entonces, la realización de muestra que se toma de X, (x1, x2,.., xn), es un vector de unos y ceros.

1 si el individuo tiene la característica que se estudia (probabilidad )0 si el individuo NO la tiene (probabilidad 1 )

pX

p −

EJEMPLOS DE OTROS ESTIMADORES • Si X es Exponencial (λ), un estimador para λ es:

y la estimación puntual para λ es:

• Si X es U(a,b), estimadores para a y b son:

y sus respectivas estimaciones son:

1 21 1( , ,..., ) porque [ ]nT X X X E XX λ

= =

( ) { }( ) { }

1 1 2 1 2

2 1 2 1 2

, ,..., min , ,...,

, ,..., max , ,...,n n

n n

T X X X X X X

T X X X X X X

=

=

1ˆx

λ =

{ } { }1 2 1 2ˆˆ min , ,..., , max , ,...,n na x x x b x x x= =

4. 2.4. DISTRIBUCIÓN DE ESTADÍSTICOS EN POBLACIONES NORMALES

Teorema de Fisher: Sea X una variable aleatoria N(μ,σ). Sea (X1, X2,..., Xn) una muestra aleatoria simple de X. Entonces, se verifica que

La distribución de probabilidad que aparece en el punto 2 se llama chi -cuadrado con n-1 grados de libertad. Su función de densidad es

Ejemplo: hacer el ejercicio 1 de la hoja de problemas.

221

12

1. El estadístico ,

( 1)2. El estadístico n

X Nn

n S

σµ

χσ −

−

x0 2 4 6 8 10

0

0,1

0,2

0,3

0,4

0

Su función de distribución está tabulada.

4.3. INTERVALOS DE CONFIANZA

4.3.1. DEFINICIÓN DE INTERVALO DE CONFIANZA. 4.3.2. MÉTODO DE LA CANTIDAD PIVOTAL 4.3.3. CASOS DE INTERVALOS DE CONFIANZA

4.3.3.1. CASO 1: INTERVALO PARA LA MEDIA CON VARIANZA CONOCIDA. 4.3.3.2. CASO 2: INTERVALO PARA LA MEDIA CON VARIANZA DESCONOCIDA. 4.3.3.3. CASO 3: INTERVALO PARA LA VARIANZA CON MEDIA DESCONOCIDA. 4.3.3.4. CASO 4: INTERVALO PARA LA PROPORCIÓN.

4.3.1. DEFINICIÓN: Sea X Fθ , sea 1, , nX X una m.a.s. de X . Sea ( )1 2 nX X Xθ̂ , , ..., el estimador elegido para estimar θ. Llamaremos intervalo

de confianza para θ con nivel de confianza 1-a, 0 < a< 1 a un intervalo ( ) ( ) ( )( )1 1, , , , , ,n na b a X X b X X= tal que

( ) ( )( ) 1,P a b P a bθ θ a< < = ∈ = − Observaciones:

1. A partir de un intervalo de confianza para θ se puede dar una COTA DEL ERROR cometido al estimar θ mediante el estimador θ̂ . Esta cota, K, es la LONGITUD del intervalo, es decir,

ˆ longitud intervaloKθ θ− < = 2. La probabilidad 1-a la fija la persona que hace el estudio y suele ser un

valor alto (mayor o igual que 0.90). 3. Los extremos del intervalo a y b son variables aleatorias.

4.3.2. MÉTODO GENERAL DE CONSTRUCCIÓN DE INTERVALOS DE CONFIANZA: MÉTODO DE LA CANTIDAD PIVOTAL Paso 1: X Fθ , θ parámetro desconocido. A partir del estimador ( )1 2 nX X Xθ̂ , , ..., elegido para estimar θ se define una función ( )1 2 nT X X X, , ..., ,

que llamaremos PIVOTE. Paso 2: Obtenemos la distribución del pivote, ( )1 2 nT X X X, , ..., , que no dependerá del parámetro θ. Paso 3: Elegimos una probabilidad 1-a y calculamos 2 1 2q y qa a−/ / , cuantiles de la distribución de ( )1 2 nT X X X, , ..., . Se verifica que

( )2 1 2 1P q T qa a a−< < = −/ / Obs: Si la distribución de T es simétrica, /2 1 /2q qa a−= − . Paso 4: De la expresión anterior ( )2 1 2 1P q T qa a a−< < = −/ / , despejamos θ hasta obtener una expresión del tipo

( ) 1 donde es el intervalo de confianza paraP a b a bθ a θ< < = − ( , )

Ejemplo: Obtén un intervalo de confianza al 97% para el parámetro θ de una cierta distribución si el pivote a utilizar es ( )1 2, ,..., (5 )nT X X X Xθ= + con distribución N(0,1) y 1.5x = . Observación: • A priori, la probabilidad de que θ esté en el intervalo de extremos

aleatorios ( ) ( ) ( )( )1 1, , , , , ,n na b a X X b X X= es 1-a.

• A posteriori, una vez que sustituimos la muestra concreta en el intervalo, el intervalo ( ) ( ) ( )( )1 1, , , , , ,n na b a x x b x x= es un intervalo numérico. Para este intervalo SOLAMENTE puede pasar que θ NO esté es ese intervalo concreto o que SÍ que esté en ese intervalo. Ya no se habla de probabilidad sino de una confianza del 100(1-a)%. Esto significa que si construimos 100 intervalos numéricos para el parámetro θ con 100 muestras diferentes, en el (1-a)100% de los intervalos se encuentra el parámetro desconocido θ y en el resto de los intervalos, puede no estar el parámetro desconocido θ.

4.3.3. CASOS DE INTERVALOS DE CONFIANZA Los casos que vamos a ver son:

CASO 1: ( ),X N µ σ o X no normal, n ≥ 30. Intervalo para la media µ con varianza σ2 conocida. CASO 2: ( ),X N µ σ o X no normal, n ≥ 100. Intervalo para la media µ con varianza σ2 desconocida. CASO 3: ( ),X N µ σ o X no normal, n ≥ 100. Intervalo para la varianza σ2 o para la desviación típica σ con media µ desconocida. CASO 4: ( )1X Bin p, con n ≥ 100. Intervalo para la proporción p. • Para la obtención de todos los intervalos se usa el Método de la Cantidad

Pivotal. • Los pasos 1 y 2 del método son los más teóricos pero no los vamos a tener que

realizar: tanto el pivote como la distribución del mismo están en el formulario salvo en el caso 4.

• Sí tenéis que saber realizar en todos los casos los pasos 3 y 4 del método.

4.3.3.1. CASO 1. ( ),X N µ σ o X no normal, n ≥30. Intervalo para la media µ con varianza σ2 conocida con una confianza del 100(1-a)% (nivel 1-a) Estimador para μ : ˆ Xµ = .

Estadístico pivote: ( )0,1/

X Nnµ

σ−

; Intervalo para μ: 1 /2x qnaσ

− ± ;

Cota error al estimar por xµ : 1 /22 qnaσ

−⋅ (longitud del intervalo);

( )( )1 /2 1 /2tal que 0,1cuantil 1 / 2P qq N aa a− −≤ = − Nota: A partir de la cota de error se puede calcular el tamaño de la muestra necesario para conseguir una longitud de intervalo deseada.

Problema 2: En una muestra de tamaño 16 de una población normal de media μ y varianza conocida σ2 = 64, se calcula la media muestral y resulta

10x = . a) Obtener una estimación puntual y un intervalo de confianza al 96% para μ. b) Dar una cota del error cometido en la estimación de μ. c) Obtener el mínimo tamaño de la muestra para que la amplitud del intervalo

sea menor que 2. Observaciones: 1.- A partir del intervalo de confianza para θ se puede obtener una cota del error K cometido en la estimación de θ mediante θ̂ , es decir,

ˆ Kθ θ− <

2.- Si aumentamos el tamaño de la muestra se puede conseguir disminuir la longitud del intervalo de confianza y, por tanto, disminuir la cota de error en la estimación y mejorar la estimación del parámetro desconocido θ.

4.3.3.2. CASO 2. ( ),X N µ σ o X no normal, n ≥100. Intervalo para la media µ con varianza σ2 desconocida con una confianza del 100(1-a)% Los estimadores para μ y σ2 : ˆ Xµ = y 2 2

1ˆ Sσ = .

Estadístico pivote: 1 /XS n

µ−.

Este pivote tiene una distribución de probabilidad denominada t de Student con n-1 grados de libertad, que denotaremos tn-1. Los valores de esta distribución están tabulados.

0

0,1

0,2

0,3

0,4

Cota error al estimar por xµ : 1

1 /22 sqna−⋅ (Amplitud intervalo)

0

Intervalo: 1

1 /2sx qna−

± , /2 1 /2q qa a−= −

al ser la distribución simétrica. El valor 1 /2q a− se obtiene de la distribución tn-1 como ( )1 1 /2 1 / 2nP t q a a− −≤ = −

N(0,1)

tn-1

4.3.3.3. CASO 3. ( ),X N µ σ o X no normal, n ≥100, intervalo para σ2 ( o para σ) con µ desconocida con una confianza 100(1-a)%. El estimador puntual para σ2: 2 2

1ˆ Sσ = .

Estadístico pivote: ( ) 2

1 212

1n

n Sχ

σ −

−

Cota error al estimar 2 2

1por Sσ = longitud del intervalo.

Intervalo para σ: ( ) ( )2 2

1 1

1 /2 /2

1 1,

n s n sq qa a−

− −

. Ejemplo: hacer el problema 3.

Intervalo para σ2: ( ) ( )2 2

1 1

1 /2 /2

1 1,

n s n sq qa a−

− − donde los cuantiles se obtienen de

la distribución 2

1nχ − como ( )1

21 /2 1 / 2

nP q aχ a

− −≤ = − y ( )1

2/2 / 2

nP qaχ a

−≤ = .

4.3.3.4. CASO 4. ( )1X Bin p, con n ≥ 100. Intervalo para la proporción p con una confianza 100(1-a)%. Sea 1, , nX X la muestra (Xi = 1 si el elemento de la muestra posee la propiedad que se estudia y Xi = 0 en caso contrario). Se define la variable Y: nº de elementos que poseen la propiedad que se estudia en la muestra de tamaño n. Por definición ( ),Y Bin n p

( )( )1

10,1Estad , dondístico pivote e es el estimador de:1

P p YN P pnp p

n

−≈ =

− .

Intervalo para p (si n grande, n ≥ 100): ( )1 1

1 1 /2

1p pp q

na−

− ± (los cuantiles salen de la distribución N(0,1))

Cota de error al estimar 1porp p : ( )1 1

1 /2

12

p pq

na−

−⋅

Problema 4: En una población se desea conocer la probabilidad de que una persona sea alérgica al polen de las acacias. En 100 personas tomadas al azar se observaron 10 alérgicos. Halla una estimación puntual y un intervalo de confianza al 95% para la probabilidad pedida.

4.4. CONTRASTES DE HIPÓTESIS

4.4.1. INTRODUCCIÓN PARA CONTRASTES DE HIPÓTESIS. NIVEL DE SIGNIFICACIÓN 4.4.2. CONTRASTES PARAMÉTRICOS. PROCEDIMIENTOS DE CONSTRUCCIÓN DE CONTRASTES PARAMÉTRICOS:

4.4.2.1. MÉTODO 1: INTERVALO DE ACEPTACIÓN. 4.4.2.2. MÉTODO 2: p – VALOR.

4.4.3. CASOS PARA CONTRASTES PARAMÉTRICOS

4.4.3.1. CASO 1: CONTRASTE PARA LA MEDIA CON VARIANZA CONOCIDA. 4.4.3.2. CASO 2: CONTRASTE PARA LA MEDIA CON VARIANZA DESCONOCIDA. 4.4.3.3. CASO 3: CONTRASTE PARA LA VARIANZA. 4.4.3.4. CASO 4: CONTRASTE PARA LA PROPORCIÓN.

4.4.4. CONTRASTES NO PARAMÉTRICOS: CONTRASTE CHI - CUADRADO

4.4.1. INTRODUCCIÓN PARA CONTRASTES DE HIPÓTESIS.

Un contraste de hipótesis es una técnica estadística para decidir sobre la “veracidad” o “falsedad” de una hipótesis, en términos probabilísticos. Ejemplo 1: Se conoce que la vida media de los elementos resultantes

de un proceso de fabricación es de 5000 horas. Se introducen mejoras en el proceso y se quiere saber si la vida media ha aumentado o no (µ= 5000 ó μ > 5000).

Ejemplo 2: Se desea estudiar si la remuneración media obtenida en un trabajo análogo por personas de la misma cualificación profesional depende del sexo o no (μ1 = μ2 o μ 1 ≠ μ 2).

Ejemplo 3: Se desea saber si la variable aleatoria X que mide el tiempo que tarda en transmitirse una señal puede considerarse con distribución normal o no. ( ) ( )( , ó no es , )X N X Nµ σ µ σ

Sea X la variable aleatoria que estamos estudiando con distribución Fθ,

1( , , )nX X la m.a.s. de X y 1( , , )nx x la realización de la muestra con la que se trabaja. Los contrastes SIEMPRE se plantean en términos de dos hipótesis: • H0 se llama HIPÓTESIS NULA: se considera cierta mientras los

datos no demuestren que es falsa.

• H1 se llama HIPÓTESIS ALTERNATIVA: es la que se acepta cuando los datos muestran evidencia en contra de H0.

Las decisiones en un contraste se toman calculando el valor del estadístico del contraste T para la muestra que tenemos, T(x1, x2,…,xn). Si T(x1, x2,…,xn) está de acuerdo con la hipótesis H

0 , la aceptaremos y, en

caso contrario, rechazaremos H0 y aceptaremos H1.

4.4.2. CONTRASTES PARAMÉTRICOS

Son aquellos en que la variable de interés es X Fθ , con F conocida, θ desconocido y las hipótesis se hacen sobre el valor que puede tomar θ. Veremos sólo los contrastes:

Para la media µ: 0 0

1 0

::

HH

µ µµ µ=≠

Para la varianza σ2: 2 2

0 02 2

1 0

::

HH

σ σ

σ σ

=

≠ o para la desviación típica σ: 0 0

1 0

::

HH

σ σ

σ σ

=

≠

Para la proporción p: 0 0

1 0

::

H p pH p p

=≠

donde los valores 0 0 0, , pµ σ ∈ son siempre conocidos.

NIVEL DE SIGNIFICACIÓN DE UN CONTRASTE En un contraste de hipótesis las decisiones siempre se toman en términos de PROBABILIDAD. Definición: Llamaremos NIVEL DE SIGNIFICACIÓN de un contraste, y lo denotamos α, a la probabilidad de rechazar H

0 cuando H

0 es cierta.

Observación: α es la probabilidad de cometer un ERROR al tomar una decisión en un contraste. Este error se llama error de tipo I. Por ese motivo, los contrastes se construyen de forma que α tome un valor fijo, pequeño y que suele ser conocido de antemano.

ESTADÍSTICOS DEL CONTRASTE El estadístico que se emplea en cada contraste para un parámetro θ (µ, σ2) es EL MISMO que se empleaba para obtener el intervalo de confianza para ese parámetro θ. En el caso de que θ = p, el estadístico del contraste es distinto al que se empleaba para obtener el intervalo para p.

4.4.2. PROCEDIMIENTOS DE CONSTRUCCIÓN DE CONTRASTES PARAMÉTRICOS

Existen dos métodos diferentes de tomar decisiones en contrastes paramétricos. Ambos se basan en el valor que toma el estadístico del contraste con la muestra que tenemos, T(x1, x2,…,xn). Denotaremos t = T(x1, x2,…,xn).

Estos dos métodos son equivalentes, SIEMPRE llevan a la misma decisión. 1) MÉTODO DEL INTERVALO DE ACEPTACIÓN: se construye un

intervalo de manera que si t = T(x1, x2,…,xn) cae en el intervalo, la decisión del contrastes es ACEPTAR H

0 . En caso contrario, se

rechaza H0

y se acepta H1 .

2) MÉTODO DEL p – VALOR: A partir de t = T(x1, x2,…,xn) se obtiene un

valor numérico, que se llama p-valor y que se va a comparar con el nivel de significación del contraste, α. La decisión del contraste se toma así:

0

0 1

si valor ,si valo

se aceptase rechaza y se acept, ar

HH H

pp

aa

− > − <

4.4.2.1. MÉTODO 1 DE RESOLUCIÓN DE CONTRASTES PARAMÉTRICOS: INTERVALO DE ACEPTACIÓN

1. Se plantean H

0 y H

1. Se toma el valor de α. 2. Para los parámetros µ y σ2 se toman los mismos ESTADÍSTICOS

PIVOTES, T, que hemos usado en intervalos. Para el parámetro proporción p el estadístico pivote es diferente.

3. Se construye lo que llamamos INTERVALO DE ACEPTACIÓN a partir de la distribución de T, supuesto que H

0 es cierta:

• Distribución de T simétrica (N(0,1) y tn-1): intervalo es ( )1 /2 1 /2,q qa a− −−

• Distribución de T NO simétrica (2

1nχ − ):intervalo es ( )/2 1 /2,q qa a− 4. Se calcula el valor t = T(x1, x2,…,xn) suponiendo que H

0 es cierta.

5. La decisión del contraste se toma así: • Si t pertenece al intervalo de aceptación, se acepta H

0 .

• Si t no pertenece al intervalo de aceptación, se rechaza que H0 y se

acepta H1.

Problema 8 (hoja de problemas): Un fabricante afirma que el tiempo de vida de cierta pieza eléctrica sigue una distribución normal de media µ = 100 horas y desviación típica 20 horas. Se toma una muestra de 10 de esas piezas. Sabiendo que la media muestral es 85, contrasta con un nivel de significación α = 0.1 si µ = 100.

1.Planteamiento: ( )20X N µ σ =, , tamaño de la muestra n = 10, 0

1

: 100: 100

HH

µµ=≠

2. Estadístico: ( )0,1/

XT Nnµ

σ−

= Si H0 es cierta: ( )100 0,1

20 / 10XT N−

= ;

3. Intervalo de aceptación: ( ) ( ) ( )1 /2 1 /2 0.95 0.95, , 1.64,1.64q q q qa a− −− = − = − 4. Se calcula el valor del estadístico si H

0 es cierta:

0 85 100 2.3717/ 20 / 10

xtnµ

σ− −

= = = −

5. Decisión: Como ( )2.3717 1.64,1.64− ∉ − , rechazamos H0 y aceptamos H1 es decir, los datos tomados indican que 100µ ≠ .

4.4.2.2. MÉTODO 2 DE RESOLUCIÓN DE CONTRASTES PARAMÉTRICOS: p - VALOR

• Los paquetes estadísticos (nosotros usaremos Statgraphics) utilizan un método alternativo para tomar decisiones, que es el p-valor.

• Los pasos 1, 2 y 4 son los mismos que en el método anterior. Los demás pasos son:

PASO 4: Cálculo del p-valor: A) Distribución T simétrica (N(0,1) y tn-1 ): ( )valor 2p P T t− = ⋅ > B) Distribución de T NO simétrica ( 2

1nχ − ): ( ) ( ){ }valor 2 min ,p P T t P T t− = ⋅ ≤ ≥

PASO 5:0

0 1

si valor , se acepta:

si valor , se rechazDecisi

a y se acepó

tan

p Hp H H

aa

− > − <

Observaciones: • El cálculo del p-valor no depende de α. • Cuando α no es un dato en un contraste, calcularemos el p-valor. Entonces,

o Para aquellos valores de α que verifiquen α < p-valor, se aceptará H0 o Para aquellos valores de α que verifiquen α > p-valor, se rechazará H0

Problema 8 : Un fabricante afirma que el tiempo de vida de cierta pieza eléctrica sigue una distribución normal de media µ = 100 horas y desviación típica 20 horas. Se toma una muestra de 10 de esas piezas. Sabiendo que la media muestral es 85.

a) Calcula el p-valor del contraste y toma la decisión con α = 0.1 b) ¿Qué decisión se tomaría si α = 0.01? c) ¿Para qué niveles de significación (valores de α) se aceptaría la hipótesis µ = 100?

a) Cálculo del p-valor: Ya habíamos visto que la distribución de T si H

0 es

cierta ( )100 0,120 / 10XT N−

= , distribución simétrica y t = -2.3717. Entonces,

( ) ( )2 2 2.3717 0.018p valor P T t P T− = > = > = Con α = 0.1 se cumple que p-valor < α, por lo que la decisión es rechazar H0 y aceptamos H1 es decir, los datos tomados indican que 100µ ≠ (por supuesto la misma que por el método 1 con α = 0.1).

b) Con α = 0.01, ocurriría que p-valor > α, por lo que la decisión es aceptar H0, es decir, los datos tomados indican que 100µ = .

c) Como p-valor = 0.018, se acepta H0 para aquellos valores de α que verifican

que α < p-valor. Por tanto, se acepta H0 para valores α < 0.018.

4.4.3. CASOS PARA CONTRASTES DE HIPÓTESIS PARAMÉTRICOS CON UN NIVEL DE SIGNIFICACIÓN α

4.4.3.1. CASO 1. ( ),X N µ σ , contraste para µ, σ conocida: 0 0

1 0

::

HH

µ µµ µ=≠

Estadístico si H0 es cierta: ( )0 0,1

/XT N

nµ

σ−

= ; se calcula el valor 0

/xt

nµ

σ−

=

Intervalo de aceptación: ( )1 /2 1 /2,q qa a− −− ó p-valor: ( )valor 2p P T t− = ⋅ >

4.4.3.2. CASO 2. ( ),X N µ σ , contraste para µ, σ desconocida: 0 0

1 0

::

HH

µ µµ µ=≠

Estadístico si H0 es cierta:

01

1 / nXT tS n

µ−

−= ; Se calcula el valor

0

1 /xts n

µ−=

Intervalo de aceptación: ( )1 /2 1 /2,q qa a− −− ó p-valor: ( )valor 2p P T t− = ⋅ >

Observación: Si X NO tiene distribución normal, los contrastes realizados para los casos 1 y 2 son APROXIMADOS y son válidos si n, el tamaño de la muestra, es grande. Para el caso 1 hace falta n ≥ 30 y para el caso 2, n ≥ 100.

4.4.3.3. CASO 3. ( ),X N µ σ , contraste para σ2 2 2

0 02 2

1 0

::

HH

σ σ

σ σ

=

≠

Estadístico si H0 es cierta:

( ) 221

120

1n

n ST χ

σ −

−=

; se calcula ( ) 2

120

1n st

σ−

=

Intervalo de aceptación: ( )/2 1 /2,q qa a− ó p-valor: ( ) ( ){ }valor 2 min ,p P T t P T t− = ⋅ ≤ ≥ Importante: Si nos piden un contraste para la desviación típica, siempre hay que pasarlo a un contraste para la varianza. Por ejemplo,

20 0

21 1

: 3 : 9: 3 : 9

H HH H

σ σ

σ σ

= ⇔ =

≠ ≠

Problema 9 (hoja de problemas)

4.4.3.4. CASO 4. Sea p el parámetro que representa la proporción de

individuos que poseen una cierta característica. 0 0

1 0

::

H p pH p p

=≠ .

Ya vimos que si 1, , nX X es la muestra con la que se trabaja (su realización son unos y ceros) al definir la variable Y: nº de elementos de la muestra que poseen la característica en estudio, ( ),Y Bin n p Para el contraste de una proporción NO se usa el mismo estadístico que en el intervalo para p.

El estadístico T que se usa, si H0 es cierta es: ( )0,T Y B n p=

Se calcula el valor del estadístico con la muestra que tenemos, t = y . En el caso de la proporción p SIEMPRE usaremos el método del p-valor:

( ) ( ){ }valor 2 min ,p P Y y P Y y− = ⋅ ≤ ≥

Problema 10 (hoja de problemas)

c) ¿Para qué valores de α se rechazaría la hipótesis nula?

4.4.4. CONTRASTES NO PARAMÉTRICOS: CONTRASTE DE LA CHI - CUADRADO

Se usa para validar si la variable X en estudio sigue un cierto modelo de distribución, DISCRETO O CONTINUO. Para realizar este contraste, se usa una muestra de X , x1, x2,…,xn . El planteamiento de este contraste es:

0

1

: sigue un modelo de distribución: no sigue ese modelo de distribución

H X FH X F

θ

θ

Ejemplos: H0: X es Bin(5, p) H0: X es N(2,1) H1: X no es Bin(5, p) H1: X no es N(2,1)

Solamente resolveremos este contraste EN PRÁCTICAS. La decisión del contraste, a partir del p-valor del mismo es:

0

0 1

si valor , se aceptasi valor , se rechaza y se acepta

p Hp H H

aa

− > − <

Documents

TEMA 4.- INFERENCIA ESTADÍSTICA - acorral.etsisi.upm.esacorral.etsisi.upm.es/Tel_Estadistica/TEMA_4_INFERENCIA_2017_2018/... · • Marcan el “centro” de los datos y la “posición”