4
MÉTODOS DE LLENADO DE DATOS FALTANTES 1. U.S. National Weather Service. = ( ) Px = Dato perdido para el dia, mes, o año en la estacion x. Pi = Dato existente en la estacion auxiliar i, donde: i = 1,2,…n (minimo n=2) para el mismo dia, mes o año. = 1 2 Siendo Di la distancia entre cada estación circundante auxiliar y la estación del dato perdido Este método es similar al de la media aritmética con la diferencia del agregado de ponderación por distancia. 2. Relación Normalizada = 1 3 + + Px = Dato perdido para el día, mes, o año en la estación x. NX, NA, NB, NC = Precipitación media diaria, mensual o anual en la estación de dato faltante (x) y en las estaciones auxiliares A, B y C. (medias de todas las series históricas) PA, PB, PC= Precipitación registrada en las estaciones auxiliares el día o mes o año en el que falta el dato en la estación x. 3. Media Aritmética Es posiblemente uno de los métodos más antiguos y sencillo para estimar datos faltantes. Sigue el modelo y = a , donde y, es la estimación del dato faltante, y a, es el promedio obtenido con los registros de la variable de interés en otros tiempos. Aunque esta estrategia es sencilla, tiende a subestimar la variabilidad real.

Métodos de Llenado de Datos Faltantes

Embed Size (px)

DESCRIPTION

Distintos metodos de llenado de datos faltantes de precipitacion

Citation preview

  • MTODOS DE LLENADO DE DATOS FALTANTES

    1. U.S. National Weather Service.

    = () Px= Dato perdido para el dia, mes, o ao en la estacion x. P i = Dato existente en la estacion auxiliar i, donde:

    i = 1,2,n (minimo n=2) para el mismo dia, mes o ao.

    = 12 Siendo D i la distancia entre cada estacin circundante auxiliar y la estacin del dato perdido Este mtodo es similar al de la media aritmtica con la diferencia del agregado de ponderacin por distancia. 2. Relacin Normalizada

    = 13 + + Px = Dato perdido para el da, mes, o ao en la estacin x. NX, NA, NB, NC = Precipitacin media diaria, mensual o anual en la estacin de dato faltante (x) y en las estaciones auxiliares A, B y C. (medias de todas las series histricas) PA, PB, PC= Precipitacin registrada en las estaciones auxiliares el da o mes o ao en el que falta el dato en la estacin x. 3. Media Aritmtica

    Es posiblemente uno de los mtodos ms antiguos y sencillo para estimar datos faltantes. Sigue el modelo y = a , donde y, es la estimacin del dato faltante, y a, es el promedio obtenido con los registros de la variable de inters en otros tiempos. Aunque esta estrategia es sencilla, tiende a subestimar la variabilidad real.

  • 4. Componentes Principales Este mtodo se utiliza para la extraccin de factores o componentes de un grupo de variables observadas con el fin de formar combinaciones lineales de esas variables de manera que tales combinaciones sean independientes. Con lo que el objetivo de este mtodo es la reduccin del conjunto original de variables en un conjunto ms pequeo de variables derivadas de las primeras, las cuales no estn correlacionadas entre s y representan la mayor parte de la informacin encontrada en las variables originales. La primera componente tiene la varianza mxima. Las componentes sucesivas explican progresivamente proporciones menores de la varianza y no estn correlacionadas las unas con las otras. La tcnica es ms til cuando un extenso nmero de variables impide una interpretacin eficaz de las relaciones entre los objetos (sujetos y unidades). Al reducir la dimensionalidad, se interpreta un pequeo nmero de componentes en lugar de un extenso nmero de variables. En la mayora de casos las dos primeras componentes dan cuenta de entre el 75 y 90% de la varianza, con lo que normalmente se utilizan slo esas componentes para ajustar el comportamiento de los datos. La aplicacin del ACP requiere que se sigan los siguientes pasos:

    I. Clculo de la matriz de las covarianzas entre cada par de variables. La covarianza entre dos variables se calcula a partir de la expresin:

    Donde r(x,y) es el coeficiente de correlacin lineal de Pearson entre las variables x y; x y y son las desviaciones tpicas o estndares de las variables x e y; x y y son las medias aritmticas de las variables x e y.

    II. Diagonalizacin de la matriz de covarianzas: clculo de los valores y vectores propios. Los valores propios dan constancia de la varianza expresada por cada componente y los vectores propios dan cuenta de la relacin de cada componente con las variables originales.

    III. Clculo del porcentaje de la varianza total que explica cada componente:

    IV. Eleccin de las componentes que dan cuenta de gran parte de la varianza total. Dependiendo de la exactitud que se quiera obtener y de la simplificacin del modelo se escogern ms o menos componentes. Normalmente el

  • umbral utilizado es que se escojan aquellas componentes que expliquen como mnimo el 85% de la varianza total.

    5. Racional Deductivo

    Cuando en el registro de lluvias mensuales, de una determinada estacin, existen uno o ms aos incompletos, el llamado Mtodo Racional Deductivo permite estimar los registros mensuales faltantes (como mximo once), apoyndose en la informacin que brindan los aos completos. El desarrollo del mtodo se puede sintetizar en los siguientes cuatro pasos:

    I. Se efecta la suma de precipitaciones mensuales en todos los aos completos y se obtiene la lluvia mensual promedio.

    II. Se calculan para todos los aos completos los porcentajes mensuales de

    precipitacin, los que sern igual a la lluvia mensual entre el promedio mensual calculado en el paso anterior y por 100. Al sumar los porcentajes calculados y obtener su promedio debern de obtenerse 1,200 y 100, respetivamente.

    III. Todos los porcentajes mensuales correspondientes a cada uno de los doce meses se suman y se divide tal suma entre el nmero de aos completos, es to es, se calcula el porcentaje promedio que se denomina Sj, con j varando de 1 a 12, uno para enero y doce para diciembre.

    IV. El mtodo acepta la hiptesis que considera que los meses desconocidos tendrn un porcentaje igual al porcentaje promedio (Sj). Se designan las variables siguientes:

    i = cada uno de los meses desconocidos, como mximo pueden ser once. Pi = precipitacin mensual desconocida en cada ao incompleto, en milmetros. Si = suma de los porcentajes promedio de los meses cuya precipitacin se desconoce, en porcentaje. p = suma de las precipitaciones mensuales conocidas en los aos incompletos, en milmetros. Si = porcentaje promedio asignado a cada uno de los meses desconocidos o faltantes.

    De acuerdo a las variables anteriores se puede establecer la siguiente proporcin:

    = 1200 Por lo cual:

  • = 1200

    La expres1on entre parntesis es una cantidad constante para cada ao incompleto, por lo que finalmente se tiene:

    =