46
Teoría de la estimación

Estimacion Apli

Embed Size (px)

DESCRIPTION

Presentacion

Citation preview

Page 1: Estimacion Apli

Teoría de la estimación

Page 2: Estimacion Apli

Índice  Conceptos básicos  Calidad de los estimadores  Cota de Cramer Rao  Estimador de máxima verosimilitud  Estimador bayesiano  Estimador lineal de error cuadrático medio mínimo

Page 3: Estimacion Apli

1. Conceptos básicos   Teoría de la Estimación: Rama del procesado de señales y la

estadística, que estudia las técnicas utilizadas para proporcionar un valor apróximado a un parámetro o variable, a partir de datos empíricos o medidas.

  Modelo de Estimación. El modelo normalmente utilizado, está compuesto por los siguientes elementos:   Espacio de parámetros. Es un espacio no observable, cuyos

elementos son los posibles parámetros de los que depende la generación de datos.

  Espacio de observaciones. Es el espacio cuyos elementos son los datos empíricos o medidas, que se van a utilizar en la estimación.

  Regla de transición probabilística. Distribución estadística de las observaciones, dependiendo del parámetro o parámetros.

  Estimador. Función de los datos empíricos, que se utiliza para generar la medida o estima.

Page 4: Estimacion Apli

1. Conceptos básicos

Estimador Θ*(z)

Objetivo: Medir (estimar) el valor de θ utilizando un instrumento de medida (estimador), diseñado usando algún criterio

Page 5: Estimacion Apli

1. Conceptos básicos   Modelo en Teoría de la Detección (caso binario):

Objetivo: decidir si se ha enviado un “0” o un “1” dividiendo el espacio de observaciones en regiones, asignadas a una u otra hipótesis. Para ello se utiliza un estadístico que se compara con un umbral

Page 6: Estimacion Apli

1. Conceptos básicos  Diferencias entre Teoría de la Detección y Teoría de

la Estimación:   En los problemas de detección, los parámetros

desconocidos pueden tomar un conjunto de valores finito y numerable, de forma que el número de hipótesis posibles es finito.

 En los problemas de estimación, los valores que puede tomar el parámetro desconocido son infinitos, por lo que no tiene sentido aplicar la teoría de la detección. Las observaciones (datos medidos) se utilizan para estimar o inferir el valor del parámetro.

 El parámetro a estimar puede ser determinista o aleatorio.

Page 7: Estimacion Apli

1. Conceptos básicos

x t( ) = Acos ω0t +ϕ( )ϕ, es variable aleatoria

  El parámetro θ cuyo valor desconocido queremos estimar (medir de forma aproximada) puede ser:   Determinista. Por ejemplo, cuando queremos estimar la

media de una variable aleatoria, utilizando un número de realizaciones de la misma.

  Aleatorio. Por ejemplo, la fase desconocida de una señal sinusoidal. Las señales observadas son realizaciones de una señal aleatoria, cuya fase instantánea depende de una variable aleatoria, normamente con distribución uniforme en [0, 2π).

Page 8: Estimacion Apli

1. Conceptos básicos   Los datos se generan atendiendo a la f.d.p. definida en el

mecanismo de transición probabilística y tienen, por tanto, carácter aleatorio.

  El estimador del parámetro θ, denotado como θ*, es una función de los datos (θ*(z)), y también tiene carácter aleatorio (función de un vector aleatorio)

  El estimador del parámetro es una variable aleatoria, independientemente de si el parámetro es determinista o aleatorio.

  El estimador del parámetro, al ser una variable aleatoria, se puede caracterizar por su función de densidad de probabilidad, f(θ*(z))

Page 9: Estimacion Apli

1. Conceptos básicos   El estimador puede interpretarse como un instrumento de

“medida” del valor que toma el parámetro   El error es inherente al proceso de medida, por alguno de los

siguientes factores:   Defectos en el diseño del instrumento de medida, que pueden

dar lugar a errores sistemáticos. Por ejemplo, voltímetro mal calibrado.

  Es imposible obtener datos precisos. Por ejemplo, al medir una señal contaminada con ruido, o al medir con un voltímetro real, que “carga” al circuito en el que se mide.

  No se dispone de suficientes datos, porque no es posible obtenerlos, o porque no es práctico. Por ejemplo, estimación de la intención de voto en base a resultados de encuestas (es imposible encuestar a toda la población)

  OBJETIVO: Diseñar instrumentos de medida donde la influencia de los errores sea pequeña

Page 10: Estimacion Apli

Índice  Conceptos básicos

 Calidad de los estimadores

 Cota de Cramer Rao

 Estimador de máxima verosimilitud  Estimador bayesiano  Estimador lineal de error cuadrático medio mínimo

Page 11: Estimacion Apli

2. Calidad de los estimadores   El error que se comete al estimar el valor del parámetro

desconocido (θ) mediante el estimador θ*, o “error de estimación”, es, formalmente:

  El error de estimación es una v.a., ya que el estimador tiene carácter aleatorio (el parámetro también puede ser aleatorio).

  Si el error de estimación es una variable aleatoria, podría caracterizarse estadísticamente por su f.d.p.

  En general, debido a las dificultades encontradas para obtener la f.d.p. del error de estimación, se estudian unicamente los estadísticos de primer y segundo orden del mismo.

ε = θ −θ*

Page 12: Estimacion Apli

2. Calidad de los estimadores   SESGO (BIAS): Se define como el valor medio del error de

estimación, o la diferencia entre la media del estimador y el valor medio del parámetro a estimar:

  El sesgo nos da una idea del “error sistemático” cometido en la medida o estimación. No informa sobre la dispersión de los resultados de la medida o estimación.

  Estimador insesgado: Es aquel estimador en el que el sesgo es nulo, o lo que es lo mismo, la media del estimador coincide con el valor medio del parámetro (si es aleatorio), o con el valor real del parámetro, si es determinista.

S(θ* ) = E θ* (z) −θ[ ] = E[θ* (z)]− E[θ]

Page 13: Estimacion Apli

2. Calidad de los estimadores   Varianza del estimador: Es una medida de la dispersión de las

estimas (resultados de la estimación), con relación al valor medio de las mismas:

  Valor cuadrático medio del error. Ofrece de forma conjunta, información sobre el valor medio del error y la dispersión del mismo:

σε2 = E θ* (z) − E(θ* (z)){ }

2

MSE = E θ* (z) −θ{ }2

Page 14: Estimacion Apli

2. Calidad de los estimadores   Relación entre Sesgo, Varianza y MSE en la estimación de

parámetros deterministas:

MSE(θ* ) = E (θ* −θ)2[ ]MSE(θ* ) = E (θ* − E θ*{ } + E θ*{ }−θ)2[ ]MSE(θ* ) = E θ* − E θ*{ }( ) + E θ*{ }−θ( ){ }

2

MSE(θ* ) = E θ* − E θ*{ }( ) + S(θ* ){ }2

MSE(θ* ) = E θ* − E θ*{ }( )2

+ S

2(θ* ) + 2S(θ* )E θ* − E θ*{ }[ ]MSE(θ* ) = var θ*( ) + S2(θ* )

Page 15: Estimacion Apli

2. Calidad de los estimadores Ejemplo 1: Supongamos que X es una v.a. normal o gaussiana, de la que sólo disponemos de N muestras tomadas de forma independiente. El valor de la media (η) es desconocido y es, precisamente, el parámetro que nos gustaría estimar. Se propone como estimador la media muestral:

El estimador es una v.a. Normal

Page 16: Estimacion Apli

2.Calidad de los estimadores   En el ejemplo anterior, la varianza del estimador depende del

número de datos. Al aumentar el número de datos, la varianza disminuye. Este hecho invita a definir una propiedad que permita comparar los estimadores en base a la varianza de los mismos.

Page 17: Estimacion Apli

2. Calidad de los estimadores   Problema: En general, el estimador ideal depende del parámetro

cuyo valor se quiere estimar

 Sólo es aplicable en algunos casos sencillos

Page 18: Estimacion Apli

2. Calidad de los estimadores   Eficiencia: Un estimador es más eficiente o preciso que otro, si

la varianza del primero es menor que la del segundo. El estimador para el que la varianza se hace mínima se denomina Estimador de Mínima Varianza. Si el estimador es insesgado y de mínima varianza, recibe el nombre de Estimador Insesgado de Mínima Varianza (MVUE).

  Consistencia: Un estimador es consistente si al aumentar el tamaño de la muestra el valor del estimador tiende a ser el valor del parámetro. Para que ocurra eso, debe cumplirse lo siguiente:

limN→∞

S θN*{ } = θ

limN→∞

var θN*{ } = 0

Estimador asintóticamente insesgado

Page 19: Estimacion Apli

2. Calidad de los estimadores

esmáseficienteque

Page 20: Estimacion Apli

2. Calidad de los estimadores   Ejercicio 2 : Estudiar si la media muestral es un estimador

consistente de la media de una variable aleatoria gaussiana

  Si los datos son realizaciones independientes, se puede demostrar que el estimador es una variable aleatoria gaussiana, con f.d.p. N(η,σ2/N), por lo que es insesgado, y la varianza tiende a cero al aumentar N. Es, por lo tanto, un estimador consistente.

Page 21: Estimacion Apli

2. Calidad de los estimadores Ejemplo: ¿Qué estimador es mejor?

Page 22: Estimacion Apli

Índice  Conceptos básicos  Calidad

 Cota de Cramer Rao  Estimador de máxima verosimilitud  Estimador bayesiano  Estimador lineal de error cuadrático medio mínimo

Page 23: Estimacion Apli

3. Cota de Cramer-Rao   ¿Se puede conseguir siempre que la varianza de un estimador

sea tan pequeña como se quiera?   ¿Hasta dónde se puede reducir la varianza de un estimador?

  La varianza de un estimador es siempre mayor o igual que la cota de Cramer-Rao (CCR)

CCR =−1

E∂2 ln f z |θ( )[ ]( )

∂2θ

=1

E∂ ln f z |θ( )[ ]( )

∂θ

2

Page 24: Estimacion Apli

3. Cota de Cramer-Rao

calcule la CCR del estimador de dicho parámetro.

Ejercicio 3 (propuesto): Supongamos que X es una va normal o gaussiana, de la que sólo disponemos de N muestras tomadas de forma independiente. El valor de la media es desconocido y es, precisamente, el parámetro que nos gustaría estimar. Sabiendo que el estimador de la media es:

Page 25: Estimacion Apli

Índice  Conceptos básicos  Calidad  Cota de Cramer Rao

 Estimador de máxima verosimilitud  Estimador bayesiano  Estimador lineal de error cuadrático medio mínimo

Page 26: Estimacion Apli

4. Estimador de Máxima Verosimilitud

  Se considera una familia de funciones de densidad de probabilidad parametrizadas, dependientes del parámetro θ (puede extenderse fácilmente a la estimación de vectores). El parámetro θ puede ser determinista o aleatorio.

  Se conoce un vector de datos generados con un modelo probabilístico descrito por la familia de funciones de densidad de probabilidad parametrizadas.

  El objetivo de la estima de máxima verosimilitud es encontrar un estimador del parámetro θ, dependiente de los datos conocidos.

  Conociendo un vector de datos y el modelo probabilístico subyacente, la estima de máxima verosimilitud toma el valor del parámetro que da lugar a la distribución con la que los datos son más probables.

Page 27: Estimacion Apli

4. Estimador de Máxima Verosimilitud A) Si el parámetro es determinista

Page 28: Estimacion Apli

4.Estimador de Máxima Verosimilitud Dada la observación, zobs, el objetivo es calcular el valor del parámetro θj para el cual la fdp alcanza el valor máximo. Ese valor es precisamente la estima de máxima verosimilitud.

Page 29: Estimacion Apli

4. Estimador de Máxima Verosimilitud

∂∂θ

Tmono f zθ( )( ){ } = 0→θ = ˆ θ ML

∂∂θ

f zθ( ){ } = 0→θ = ˆ θ ML

∂2

∂θ2f zθ( ){ }

θ=θML

< 0⇒máximo

  Método: Para calcular el máximo de la funcion f(z|θ) se aplica el método general para el cálculo del máximo de una función. En este caso, la variable dependiente es el parámetro desconocido:

  Puede ser conveniente aplicar una función monótona para facilitar el cálculo, teniendo en cuenta que el valor del parámetro que maximiza la función no varía al aplicar este tipo de transformación:

Page 30: Estimacion Apli

4. Estimador de Máxima Verosimilitud

f z,θ( ) = f zθ( ) ⋅ f θ( )

ln f z,θ( )[ ] = ln f zθ( )[ ] + ln f θ( )[ ]

B) Si el parámetro es una variable aleatoria, es necesario caracterizar de forma conjunta al parámetro y a los datos, que tienen carácter aleatorio.

  Si se aplica la función logaritmo, que es monótona creciente:

  En estos casos, es común el suponer que el parámetro tiene distribución uniforme (p.e. la fase de una portadora se supone con distribución uniforme en [0,2π) ), o tiene variación lenta en θ comparada con f(z|θ).

Page 31: Estimacion Apli

4. Estimador de Máxima Verosimilitud

∂∂θ

Tmono f z,θ( )( ){ } = 0→θ = ˆ θ ML

∂∂θ

ln f z,θ( )[ ] =∂∂θ

ln f zθ( )[ ] +∂∂θ

ln f θ( )[ ]

∂∂θ

ln f zθ( )[ ] ≈ 0→θ = ˆ θ ML

∂∂θ

ln f θ( )[ ] <<∂∂θ

ln f zθ( )[ ]Suponiendo que se cumple:

El estimador de Máxima Verosimilitud se obtendría a partir de:

Page 32: Estimacion Apli

4. Estimador de Máxima Verosimilitud

  Ventaja  Se puede aplicar tanto para estimar parámetros

deterministas como aleatorios   Desventaja

 No tiene en cuenta los criterios de calidad (sesgo, varianza)

  Solución: Estimador bayesiano

Page 33: Estimacion Apli

5. Estimador bayesiano   Consideramos el parámetro a estimar como una realización de

una variable aleatoria θ, de la cual se tiene cierto conocimiento a priori, reflejado en la función de densidad de probabilidad de dicho parámetro, f(θ)

  El vector de datos observado tiene, asimismo, carácter aleatorio, y su comportamiento probabilístico depende del parámetro a estimar a través de f(x|θ).

  La estimación bayesiana se basa en la minimización del riesgo bayesiano, o coste medio. Es necesario, por lo tanto, definir un coste asociado a la estima, que normalmente dependerá del error de estimación.

Page 34: Estimacion Apli

5. Estimador bayesiano Objetivo: minimizar una función de coste medio asociado al error de estimación. En primer lugar, es necesario definir la función de coste cuyo valor medio queremos minimizar:

El coste medio del error de estimación es, formalmente:

E C ε( )[ ] = C y, y ( ) ⋅ f y,x( )x∫

−∞

+∞

∫ ⋅dx ⋅dy

C ε( ) = C y− y ( ) = C y, y ( )

ε = y− ˆ y

Es necesario conocer la f.d.p. conjunta del estimador y de los datos

Page 35: Estimacion Apli

5. Estimador bayesiano

Problema: Es difícil conocer la f.d.p. CONJUNTA de las N+1 variables aleatorias (Y, X1, …, XN). Una solución es expresarla en función de la f.d.p. CONDICIONAL y de la MARGINAL:

E C ε( )[ ] = C y, y ( ) ⋅ f yx( )x∫

−∞

+∞

∫ ⋅ f x( ) ⋅dx ⋅dy

E C ε( )[ ] = C y, y ( ) ⋅ f y,x( )x∫

−∞

+∞

∫ ⋅dx ⋅dy

E C ε( )[ ] =x∫ C y, y ( ) ⋅ f yx( ) ⋅dy[ ] ⋅ f x( ) ⋅dx

−∞

+∞

= I y ( ) ⋅ f x( ) ⋅dxx∫

Page 36: Estimacion Apli

5. Estimador bayesiano   Al ser f(x) una función no negativa, para minimizar el coste

medio, es suficiente minimizar I(ŷ).   ¿Qué propiedades debe tener la función de coste?

  De ser nula en el origen, es decir, el coste asociado al error cero debe ser nulo.

  Debe ser una función no negativa.   En general, conviene que sea simétrica.

  Ejemplos de funciones de coste:   Valor cuadrático del error:   Valor absoluto del error:   Coste uniforme:

C(y, ˆ y (x)) = (y− ˆ y (x))2

C(y, ˆ y (x)) = y− ˆ y (x)

C(y− y(x)) =0 | y− ˆ y (x) |≤ Δ / 21 | y− ˆ y (x) |> Δ / 2

Page 37: Estimacion Apli

5. Estimador Bayesiano

E C ε( )[ ] =x∫ C y, y ( ) ⋅ f yx( ) ⋅dy[ ] ⋅ f x( ) ⋅dx

−∞

+∞

con I y ( ) = y− y ( )2 ⋅ f yx( ) ⋅dy−∞

+∞

Estimador bayesiano de error cuadrático medio mínimo:

∂∂ y

I y ( ) = 0⇒ y opt = y ⋅ f yx( ) ⋅dy−∞

∫ = E yx[ ]

Como f(x) es una fdp (por definición, no negativa), minimizar el coste medio es equivalente a minimizar I(ŷ(x)):

Page 38: Estimacion Apli

5. Estimador Bayesiano

y opt = y ⋅ f yx( ) ⋅dy−∞

∫ = E yx[ ]

•  Este estimador es difícil de obtener pues requiere conocer f(y|x), la fdp de la variable a estimar dependiente de los datos.

•  Una alternativa más práctica consiste en construir un estimador sub-óptimo que sea más fácil de calcular: por ejemplo, obligando a que sea una combinación lineal de los datos.

Page 39: Estimacion Apli

6. Estimador LINEAL de error cuadrático medio mínimo

y = aixii=1

N

OBJETIVO: encontrar el valor de los coeficientes ai que minimizan el error cuadrático medio:

∂∂a j

E y − ai xii=1

N∑

2

= 0, j =1,2,, N ⇒

Para evitar los problemas mencionados, se propone un estimador que sea una combinación lineal de los datos conocidos.

Page 40: Estimacion Apli

6. Estimador LINEAL de error cuadrático medio mínimo

⇒ E y − ai xii=1

N∑

y− y =ε

x j

= 0, 1≤ j ≤ N

E ε x j[ ] = 0, 1≤ j ≤ N

Rε x j= 0, 1≤ j ≤ N

Principio de ortogonalidad: El error (de estimación) debe ser ortogonal (en el sentido estadístico) a los datos, es decir, la correlación entre las variables aleatorias ε y xj debe ser nula

Page 41: Estimacion Apli

6. Estimador LINEAL de error cuadrático medio mínimo

E y− aixii=1

N

y− y =ε

x j

= 0, 1≤ j ≤ N ⇒

aiE xi x j[ ]i=1

N∑ = E y x j[ ] = 0, 1≤ j ≤ N

Ecuaciones normales o de Wiener-Hopf

aiRxi x ji=1

N

∑ = Ry x j , 1≤ j ≤ N

o, equivalentemente,

Page 42: Estimacion Apli

6. Estimador LINEAL de error cuadrático medio mínimo

Ecuaciones normales o de Wiener-Hopf

RXi X j

i=1

N

∑ ai = RY X j, 1≤ j ≤ N

RX1X1…RX1XN

RXNX1

…RXNXN

a1 aN

=

RYX1

RYXN

Page 43: Estimacion Apli

6. Estimador LINEAL de error cuadrático medio mínimo

U.lizandoestapropiedad

E y2[ ] = E ε2[ ] + E y 2[ ]yteniendoencuentalasecuacionesdeWienerHopf

E y x j[ ] = aiE xi x j[ ]i=1

N∑ 1≤ j ≤ N

sellegaaque:

Page 44: Estimacion Apli

Estimador LINEAL de error cuadrático medio mínimo

¡ Para disminuir el error de este estimador hay que añadir datos (xi) que estén correlados con la v.a. (y) a estimar! Si añadimos nuevos datos ortogonales (correlación nula), no se disminuye el error de estimación

E ε2[ ] = E y2[ ] − ai E y xi[ ]i=1

N∑

Ry xi

Page 45: Estimacion Apli

Estimador LINEAL de error cuadrático medio mínimo Aplicación 1: Filtro de Wiener-Kolmogorov

La señal (s) y el ruido (n) son procesos estacionarios con autocorrelación y correlación cruzada conocidas

El objetivo es calcular los coeficientes del filtro que estiman la “señal limpia”

Elcriteriodediseñoesminimizarelvalorcuadrá.comediodelerrordees.mación

Ello es equivalente a resolver las ecuaciones normales

Page 46: Estimacion Apli

Estimador LINEAL de error cuadrático medio mínimo Aplicación 2: Predicción lineal

es la muestra de X cuyo valor desconocido estamos interesados en estimar. Los datos disponibles son los p muestras anteriores

El predictor lineal de la muestra x[n] tiene la forma

ysuspcoeficientessecalculanu.lizandolasecuacionesnormales,oloqueeslomismo,minimizandoelvalorcuadrá.comediodelerrordees.mación(predicción):