11
Sección : Búsqueda de estimadores Previo : Noción de verosimilitud Siguiente : Intervalos de confianza Ejemplos de máxima verosimilitud En la mayor parte de los casos de interés práctico, la ley y por tanto también la verosimilitud , tienen una expresión calculable en función de . Para calcular el máximo de la verosimilitud, es necesario determinar los valores para los cuales la derivada de la verosimilitud se anula, pero por definición la verosimilitud es un producto de probabilidades o de densidades, lo cual puede ser bastante complicado de derivar. Es preferible derivar una suma, y es por esto que comenzamos por substituir la verosimilitud por su logaritmo. Al ser el logaritmo una función creciente, es equivalente maximizar o . Una vez determinado el valor de para el cual la derivada se anula, hay que asegurarse con la ayuda de la segunda derivada que el punto en cuestión es realmente un máximo. Trataremos a continuación los casos de algunas familias clásicas.

Maxima Verosimilitud

Embed Size (px)

Citation preview

Page 1: Maxima Verosimilitud

Sección : Búsqueda de estimadores Previo : Noción de verosimilitud Siguiente : Intervalos de confianza 

Ejemplos de máxima verosimilitud

En la mayor parte de los casos de interés práctico, la ley   y por tanto también la verosimilitud, tienen una expresión calculable en función de  . Para calcular el máximo de la verosimilitud, es necesario determinar los valores para los cuales la derivada de la verosimilitud se anula, pero por definición la verosimilitud es un producto de probabilidades o de densidades, lo cual puede ser bastante complicado de derivar. Es preferible derivar una suma, y es por esto que comenzamos por substituir la verosimilitud por su logaritmo. Al ser el logaritmo una función creciente, es equivalente

maximizar  o  . Una vez determinado el valor de   para el cual la derivada se anula, hay que asegurarse con la ayuda de la segunda derivada que el punto en cuestión es realmente un máximo. Trataremos a continuación los casos de algunas familias clásicas. 

Leyes de Bernoulli: El conjunto de los valores posibles es  .

El parámetro desconocido es  . Si   es una muestra, la verosimilitud vale:

Su logaritmo es:

Page 2: Maxima Verosimilitud

La derivada con respecto a   es:

Ella se anula en:

La segunda derivada es:

Ella es estrictamente negativa, el valor   es efectivamente un

máximo. Si   es una muestra de la ley de Bernoulli de

parámetro  , el estimador de máxima verosimilitud de   es:

es decir la frecuencia empírica. 

Leyes geométricas: El conjunto de valores posibles es  , el

parámetro desconocido es  . 

Si   es una muestra entera, la verosimilitud vale:

Su logaritmo es:

Page 3: Maxima Verosimilitud

La derivada con respecto a   es:

Ella se anula en:

La segunda derivada es:

Ella es estrictamente negativa, el valor   es efectivamente un

máximo. Si   es una muestra de la ley geométrica de

parámetro  , el estimador de máxima verosimilitud de   es:

es decir el inverso de la media empírica, lo que es coherente con el

hecho que el parámetro   es el inverso de la esperanza. 

Leyes exponenciales: El parámetro desconocido es  . Se trata en este caso de leyes continuas, la verosimilitud es por tanto un producto de valores de la densidad. Para una  -tupla de números

reales positivos   ella vale:

Su logaritmo es:

Page 4: Maxima Verosimilitud

La derivada con respecto a   es:

Ella se anula en:

La segunda derivada es:

Ella es estrictamente negativa, el valor   es efectivamente un

máximo. Si   es una muestra de la ley exponencial de parámetro  , el estimador de máxima verosimilitud de   es:

es decir el inverso de la media empírica, lo que es coherente con el hecho que el parámetro   es el inverso de la esperanza. 

Leyes normales: Para un parámetro multidimensional el principio es el mismo, pero los cálculos de optimización son más complicados. Para las leyes normales hay dos parámetros desconocidos. Para evitar confusiones en las notaciones de las derivadas, denotaremos por   al parámetro de la varianza, usualmente denotado por  . Para una  -tupla de números

reales   la verosimilitud vale:

Page 5: Maxima Verosimilitud

Su logaritmo es:

Las derivadas parciales con respecto a los parámetros   y   son:

y

Ellas se anulan en:

   yLas segundas derivadas parciales son:

Por tanto la matriz hessiana (matriz de las segundas derivadas

parciales) en el punto   es:

Page 6: Maxima Verosimilitud

Sus valores propios son negativos, el punto   es efectivamente

un máximo. Si   es una muestra de la ley normal de

parámetros   y  , los estimadores de máxima verosimilitud de   y   son respectivamente la media y la varianza empíricas de la muestra, tal como era de esperar.

El método de máxima verosimilitud (MLE) es uno de los más robustos y poderosos de los métodos modernos para obtener una aproximación de la confiabilidad.

La evaluación por el método de máxima verosimilitud procura encontrar los valores más probables de los parámetros de la distribución para un conjunto de datos. Maximizando el valor de lo que se conoce como la “función de verosimilitud” La función de verosimilitud se basa en la función de la densidad de la probabilidad fdp para una distribución dada. Como ejemplo considere una fdp genérica:

Donde x representa los datos (tiempo a la falla), y θ1, θ2, ...,θk son los parámetros que se estimarán y k el número de parámetros a evaluar. Por ejemplo para una distribución de Weibull de dos parámetros, β beta y θ theta son los parámetros que se deben estimar. Para un conjunto de datos de observación completa, la función de verosimilitud es un producto de la función de la densidad de la probabilidad, con un elemento por cada punto en el conjunto de datos:

R es el número de observaciones independientes que corresponden al tiempo a la falla en un análisis de ciclo de vida, xi es la iésimo tiempo a la falla. Matemáticamente es más fácil

Page 7: Maxima Verosimilitud

manipular esta función tomando su logaritmo. Luego la función logarítmica de la verosimilitud se expresa de la siguiente forma:

Por lo tanto para encontrar los valores de los parámetros θ1, θ2, ...,θk se debe maximizar L ó Λ. Esto comúnmente se hace tomando la derivada parcial de la ecuación de Λ para cada uno de los parámetros e igualándolos a cero:

Esto resulta en un número de ecuaciones con un igual número de variables, las cuales pueden resolverse simultáneamente. Si existen las soluciones de forma cerrada para las derivadas parciales la solución puede ser relativamente simple. En las situaciones donde no se da el caso, se necesitan emplear algunos métodos numéricos.

El método de estimación de máxima verosimilitud tiene varias propiedades que hacen atractiva su aplicación. Por ejemplo:

Es consistentemente asintótico, que significa que mientras que el tamaño de muestra aumenta, las estimaciones convergen a los valores correctos. Es asintótico eficiente, que significa que para conjuntos de datos grandes produce las estimaciones más exactas. Es asintótico imparcial, que significa que para conjuntos de datos grandes uno espera conseguir el valor correcto en promedio. La distribución de las estimaciones mismas es normal, si el conjunto de datos es bastante grande. Todas éstas son características excelentes para conjuntos de muestras grandes. Desgraciadamente, el tamaño necesario de la muestra para alcanzar estas características puede ser bastante grande: treinta a cincuenta hasta cientos de muestras de tiempos exactos de falla, dependiendo de la aplicación. Con pocas muestras, los métodos pueden ser desgraciadamente polarizados o tendenciosos. Se han conocido resultados, por ejemplo, que la estimación por máxima verosimilitud del parámetro de forma para la distribución Weibull ha sido polarización para tamaños de muestras pequeños, y el efecto puede aumentar dependiendo de la cantidad de datos censurados. Esta polarización puede causar discrepancias importantes en el análisis.

En general, la recomendación de la literatura es utilizar técnicas de regresión (gráficas de riesgo y probabilidad) cuando la muestra de datos es pequeña y sin censura. Cuando hay muchos datos censurados y/o cuando el tamaño de muestra es suficiente, Máxima verosimilitud (MLE) debe ser preferido.

Superficie de la función de verosimilitud

La representación tridimensional de la función logarítmica de la verosimilitud para dos parámetros, los parámetros están en los ejes Y y X, y los valores logarítmicos de la verosimilitud

Page 8: Maxima Verosimilitud

en el eje Z. En la siguiente gráfica es un ejemplo de la superficie de la función de verosimilitud para una distribución Weibull de dos parámetros. Los valores del logaritmo de la verosimilitud están normalizados a un valor de  100 %

En esta gráfica “la cima” de la superficie de la función verosimilitud corresponde a los valores de los parámetros que maximizan la función de verosimilitud.

Ejemplo de MLE para la Distribución exponencial

Este ejemplo es para una distribución de un solo parámetro y por lo tanto hay una sola ecuación diferencial a resolver. Además esta ecuación diferencial está en forma cerrada, debido a la naturaleza misma de la función de la densidad de la probabilidad. La función de verosimilitud para la distribución exponencial se representa a continuación:

Page 9: Maxima Verosimilitud

Donde lambda λ es el parámetro a estimar. Tomamos el logaritmo natural de la función de verosimilitud debido a que matemáticamente es más fácil de manipular tenemos la siguiente expresión.

Si se deriva la ecuación con respecto a λ e iguala a cero se obtiene como resultado

Reordenando los términos o resolviendo por λ la expresión queda:

Esta es la solución de forma cerrada para la estimación de la máxima verosimilitud para la distribución exponencial de un solo parámetro. Obviamente, este es el ejemplo más sencillo, pero sirve para ilustrar el proceso. La metodología es más compleja para distribuciones con múltiples parámetros o que no tengan una solución cerrada.

Referencias

1. Gupta S., “Order Statistics from the Gamma Distribution”, Technometrics, Vol. pp 243-262,

1962.

2. Howard, B. T. y G. A. Dodson, “High Stress Aging to Failure of Semiconductor Devices”,

Proceedings of the Seventh National Symposium on Reliability and Quality Control, 1961.

3. B. S. Dhillon, “Design Reliability Fundamentals and Applications”, CRC Press, United States

of America, 1999. TA 174.D4929

4. Schafer Ray E., Singpurwalla Nozer D., Mann R. Nancy, “Methods for Statistical Analysis of

Reliability and Life Data”, John Wiley & Sons.

5. Información general de las distribuciones: Weibull, Exponencial, Normal y Log_normal

www.itl.nist.gov/div898/handbook/.

6. Beckwith, Thomas G., Buck, N. Lewis, Maragoni, Rod D., “Mechanical Measurements”, Third

edition, Addison-Wesley, Reading, Massachusetts, 1981

7. http://www.weibull.com/