19
1. 1. Estadística clásica Estadística clásica 1-1 Estadística Avanzada y Estadística Avanzada y Análisis de Datos Análisis de Datos Máster Máster Interuniversitario Interuniversitario de Astrofísica de Astrofísica Javier Gorgas y Nicolás Javier Gorgas y Nicolás Cardiel Cardiel Curso 2006 Curso 2006 - - 2007 2007

Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

  • Upload
    doanbao

  • View
    224

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-1

Estadística Avanzada y Estadística Avanzada y Análisis de DatosAnálisis de Datos

MásterMáster InteruniversitarioInteruniversitario de Astrofísicade Astrofísica

Javier Gorgas y Nicolás Javier Gorgas y Nicolás CardielCardiel

Curso 2006Curso 2006--20072007

Page 2: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-2

IntroducciónIntroducciónEn ciencia tenemos que tomar decisiones (¿son los datos compatibles con la teoría?

¿cuáles son los parámetros que mejor ajustan? ¿son las dos muestras similares? ¿qué ha fallado, cómo podemos mejorar el experimento?)

Para cada medida o parámetro derivado necesitamos una estimación del error que nos diga, en términos de probabilidades, la confianza que tenemos en su valor.

La estadística es la herramienta, en la mayoría de los casos, inevitable para tomar las decisiones (el método científico).

If your experiment needs statistics, you ought to have done a better experiment(E. Rutherford)

En particular, en astrofísica:

Nuestras medidas están sujetas a (grandes) errores de medida.

Tenemos la manía de observar al límite de las capacidades instrumentales.

El método clásico de repetir los experimentos no es aplicable.

No podemos diseñar los experimentos (las muestras pueden ser muy pequeñas)

Page 3: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-3

Introducción (II)Introducción (II)

No podemos evitar la estadística:

¿Cómo asignamos errores a nuestros datos? (o los de otros)

¿Cómo podemos extraer la información máxima de los datos? (¿o los tiramos?)

¿Cómo comparamos muestras? (de diferentes objetos o de diferentes autores)

¿Cómo hacer correlación, contrastar hipótesis, ajustar modelos…?

¿Qué hacer con las muestras incompletas? (¿límites superiores?)

NECESITAMOS DECIDIR

Nuestros colegas usan estadística. Tenemos que entender lo qué hacen y cómo lo hacen.

Curso con un enfoque práctico (recetas)

• Métodos paramétricos clásicos

• Métodos no paramétricos

• Estadística bayesiana

Page 4: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-4

ProgramaPrograma

1.1. Estadística clásicaEstadística clásica

2.2. Introducción a la estadística Introducción a la estadística bayesianabayesiana

3.3. Cálculo de erroresCálculo de errores

4.4. Regresión linealRegresión lineal

5.5. CorrelaciónCorrelación

6.6. Regresión múltipleRegresión múltiple

7.7. Contrastes de hipótesis para una muestraContrastes de hipótesis para una muestra

8.8. Contrastes de hipótesis para varias muestrasContrastes de hipótesis para varias muestras

9.9. Análisis de componentes principalesAnálisis de componentes principales

10.10. Estimación de parámetrosEstimación de parámetros

11.11. Detección de la señal Detección de la señal –– SurveysSurveys

12.12. Análisis de datos astrofísicosAnálisis de datos astrofísicos

Page 5: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-5

Tema 1Tema 1Estadística clásicaEstadística clásica

Introducción

Estadística descriptiva

Distribuciones de probabilidad

Distribuciones discretas de probabilidad

Distribución normal

Estimación de parámetros poblacionales

Distribuciones muestrales de los estadísticos

Estimación por intervalos de confianza

Contrastes de hipótesis

Métodos no paramétricos

Page 6: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-6

Estadística descriptivaEstadística descriptiva

Media aritmética Media geométrica Media armónica Media cuadrática

cent

raliz

ació

n

MedianaMe: Valor central (con

los datos ordenados de mayor a menor)

Moda

Mo: Valor con mayor frecuencia

disp

ersi

ón

VarianzaDesviación media

Desviación típica

Coeficientes de variación

asim

etrí

a Momento de orden rrespecto a c

curt

osis

Page 7: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-7

Distribuciones de probabilidadDistribuciones de probabilidad

Función de densidad para una variable continua:

covarianza

Función de distribución:

Función de probabilidad para una variable discreta:

Función de distribución:

media (esperanza matemática) varianza

Page 8: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-8

Distribuciones discretas de probabilidadDistribuciones discretas de probabilidad

Distribución Binomial

Probabilidad de obtener x éxitos en n ensayos (p = probabilidad de éxito en un ensayo)

donde

Media: Desviación típica:

Distribución de Poisson

Probabilidad de que se den x sucesos (λ = número medio de sucesos)

Media: Desviación típica:

donde

Page 9: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-9

Distribución normalDistribución normal

Media: µ Desviación típica: σ

Teorema del límite central: Si X1, X2, …, Xn son variables aleatorias independientes con medias µi, desviaciones típicas σi y distribuciones de probabilidad cualesquiera, y definimos la variables Y = X1 + X2 + …+ Xn, entonces la variable:

Ej. la distribución binomial tiende a la distribución normal:

cuando

Normal tipificada:

Ej. la distribución de Poisson tiende a la distribución normal:

Page 10: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-10

Estimación de parámetros poblacionalesEstimación de parámetros poblacionales

Método de máxima verosimilitud: Método objetivo para encontrar buenos estimadores puntuales:

Función de máxima verosimilitud: probabilidad de obtener la muestra observada dado un valor del parámetro poblacional:

El estimador de máxima verosimilitud es el valor de α que hace máximo L

Ejemplo: para una distribución normal:

La estimación se hace a partir de estadísticos (variables aleatorias definidas sobre los valores de la muestra) con funciones de probabilidad conocidas

Estimación puntual Estimación por intervalos de confianza

Page 11: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-11

Distribuciones Distribuciones muestralesmuestrales de los estadísticosde los estadísticos

Distribución muestral de la media: Si es la media de una muestra aleatoria de tamaño n que se toma de una población con distribución cualquiera, media µ y varianza σ2, entonces la variable tipificada:

tiende a una normal N(0,1) cuando n tiende a infinito

Dsitribución muestral de la diferencia de medias: Si y son las medias muestrales de dos distribuciones (µ1, σ1) y (µ2, σ2) entonces:

tiende a una normal N(0,1) cuando n1 y n2 tienden a infinito

sigue una distribución con n-1 grados de libertad

sigue una distribución t de Student con n-1 grados de libertad

sigue una distribución Fde Fisher con n1-1 y n2-1 grados de libertad

Distribución muestralde la varianza: El estadístico t:

Distribución muestral de la razón de varianzas:

Page 12: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-12

Estimación por intervalos de confianzaEstimación por intervalos de confianza

Ejemplo: media de una población normal

Si la desviación típica es desconocida:

Muestras grandes (n > 30) Muestras pequeñas

(significado del intervalo de confianza)

nivel de confianza

Page 13: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-13

Intervalos de confianzaIntervalos de confianza

Page 14: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-14

Intervalos de confianzaIntervalos de confianza

Page 15: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-15

Contrastes de hipótesisContrastes de hipótesis

Contraste bilateral

α: nivel de significación

región crítica región crítica región crítica

región de aceptación

región de aceptación

región de aceptación

Contrastes unilaterales

Formulación de las hipótesis:

Hipótesis nula ( H0) vs Hipótesis alternativa ( H1)

• Aceptación de la hipótesis nula los datos no están en contra

• Rechazo de la hipótesis nula los datos indican que es improbable que sea cierta

Se utiliza un estadístico de prueba con distribución conocida en el caso de que H_0 sea cierta

Ejemplo: media de una población normal

Page 16: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-16

Contrastes de hipótesisContrastes de hipótesis

Page 17: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-17

Contrastes de hipótesisContrastes de hipótesis

Page 18: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-18

Contrastes de hipótesisContrastes de hipótesis

Page 19: Estadística Avanzada y Análisis de Datoswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema01.pdf · 1. Estadística clásica 1-3 Introducción (II) No podemos evitar la

1. 1. Estadística clásicaEstadística clásica1-19

Métodos no Métodos no paramétricosparamétricosMétodos parámetricos: muestras aleatorias extraídas de poblaciones con distribución de probabilidad conocida (normal). El problema es determinar los parámetros de la población (ej. µ, σ)

Métodos de distribución libre o NO paramétricos: no se supone ninguna distribución de probabilidad. Muchas veces se basan en ordenar los datos en una escala asignando rangos (análisis de rangos).

VENTAJAS

• En general no se conoce la distribución de probabilidad (el teorema del límite central puede no aplicarse).

• Menos suposiciones sobre los datos.

• Válidos para muestras muy pequeñas.

• Sirven para datos no numéricos (variables cualitativas y de rango).

• Respuestas rápidas con menos cálculos.

• La conversión a rangos elimina incertidumbres con la escala.

• A veces no existe la población (no hay parámetros que estimar).

DESVENTAJAS

• No usan toda la información disponible.

• Al no haber parámetros, es difícil hacer estimaciones cuantitativas.

• Son algo menos eficientes: (para rechazar la hipótesis nula con el mismo nivel de confianza se necesitan muestras mayores)

Eficiencia relativa asintótica:

para tomar la decisión con el mismo α(típicamente: ARE entre 0.6 y 0.95)

(Ante la duda es más seguro usar métodos no paramétricos)