24
Taller #2: Modelos estadísticos de cultivos Sharon Gourdji CIAT 11-Apr-2013

Taller 2 modelos estadísticos de cultivos

Embed Size (px)

Citation preview

Taller #2: Modelos estadísticos

de cultivos

Sharon Gourdji

CIAT

11-Apr-2013

Perfil de temas

• Cómo hacer un modelo estadístico del cultivos que explique rendimiento con datos climáticos

• Ejemplo con ensayos internacionales de trigo – Definir etapas

– Escoger variables (selección de modelos)

– Relaciones no lineales e interacciones

– Interpretar resultados • Derivar curvas de temperatura – rendimiento

• Estimar incertidumbre con el “bootstrap”

• Medir progreso genético con tiempo

• Modelos estadísticos del grupo….

Modelos estadísticos/ de proceso

• Generalmente, los modelos estadísticos son más sencillos que los modelos de proceso, y más esforzados por los datos

• Pero todos los modelos son una mezcla – En modelos estadísticos, usamos conocimientos

fisiológicos cuando escogemos variables e interacciones

– Los modelos de proceso (e.g. DSSAT) están calibrados usando datos….

• Pero, porqué son más sencillos, es muy fácil crear un modelo estadístico si tiene un base de datos adecuado!!!

Modelos estadísticos en R

• Comandos básicos:

model = lm(Y ~ X)

summary(model)

model$coef

summary(model)$coef

model$fitted, model$resid

ls(modelb)

ls(summary(model))

Usamos la base de datos y el modelo de esta publicación como ejemplo:

Empezamos con 25 años de ensayos internacionales del trigo de CIMMYT…

Gran variabilidad de rendimientos y condiciones climáticas en la base de datos

Ensayos de 3 viveros con estrategias diferentes:

– Elite Spring Wheat Yield Trial (ESWYT), n=959

– Semi-Arid Wheat Yield Trial (SAWYT), n=259

– High Temperature Wheat Yield Trial (HTWYT), n=135

• Filtramos ensayos con plaga o “lodging”

• ESWYT & HTWYT tienen riego, pero SAWYT no

Reconstrucción de datos climáticos

• Interpolamos a cada punto de ensayo desde la fecha de siembra hasta 300 días después (temp max y min)

• Bajamos datos de radiación y humedad relativa de NASA POWER (http://power.larc.nasa.gov/cgi-bin/cgiwrap/solar/[email protected])

Interpolación de temperatura (taller #1)

• Estaciones climáticas del Global Historical Climatology Network & Global Surface Summary of the Day

• En cada punto y día, interpolamos anomalías de la climatología de WorldClim usando “angular distance weighting” con estaciones en radio de 100km

Definir etapas

• Se pueden tener relaciones diferentes entre las variables climáticas y el rendimiento en diferentes etapas fisiológicas

Perfil de temperatura típico del trigo

siembra

inflorescencia

cosecha Usamos 3 etapas: vegetativa, reproductiva y llenado de granos

Definir variables potenciales

• No tiene que explicar toda la variabilidad de rendimiento!!! – Necesitamos que la variabilidad “inexplicable” no está

correlacionado con las variables en la regresión…

• Nos preocupamos aquí de la precipitación (debido a que se estudia el efecto de las labores de riego)

• Usamos: – Temperatura (y rango de temperatura diaria) – Radiación y horas de sol – Deficit de presión de vapor (VPD) – Longitud de etapa (días)

Relaciones nonlineales

• La relación entre temperatura y rendimiento no es lineal (EJEMPLO EN R…)

Interacciones entre variables

• De wikipedia: “the interaction between an explanatory variable and an environmental variable suggests that the effect of the explanatory variable has been moderated or modified by the environmental variable.”

• Por ejemplo, el calor tiene efecto diferente en clima húmida vs. seca, porque de la tasa de transpiración

𝑦𝑖𝑒𝑙𝑑 = 𝛽0 + 𝛽1 ∗ 𝑡𝑒𝑚𝑝 + 𝛽2 ∗ 𝑉𝑃𝐷 + 𝛽3 ∗ (𝑡𝑒𝑚𝑝 ∗ 𝑉𝑃𝐷)

En R: lm(yield ~ temp*VPD)

Escoger variables

• Queremos un modelo que sea suficientemente complejo para capturar procesos importantes, pero que no trata de explicar “ruido” en los datos…

• Podemos usar: – Conocimientos “expertos”

– Pruebas de “backward selection”, R2a, AIC, BIC

– (Nota: es dificil probar efectos fijos con estas pruebas…)

• EJEMPLO EN R…

Modelo estadístico “final”

Yield = βW + cj + αn + (αn x year) + ε

W: variables ambientales por las 3 etapas (vegetativa,

reproductiva, llena de granos)

cj : promedios por país

αn : promedios por vivero

αn x year: cambios en tiempo por vivero

ε: errores

(W: tavg, tavg2, vpd, longitud de etapa, srad, daylength, dtr, interacciones entre tavg, tavg2 & vpd, interacciones entre tavg & longitud de etapa)

Nota en asunción de normalidad

• Las asunciones de la regresión son que los errores (ε) tienen una distribución normal – No es necesario que los predictores o variable de

respuesta tienen distribuciones normales

– A veces, se puede hacer un “log” del variable de responsa, pero este cambia el significado de los coeficientes….

• Se puede probar la normalidad de los errores con la prueba de Shapiro-Wilk en R, pero con muchos datos, es probable que la prueba rechaza normalidad….

Sabiduría del internet

• De http://stackoverflow.com/questions/7781798/seeing-if-data-is-normally-distributed-in-r :

– “I have never come across a situation where a normal test is the right thing to do. When the sample size is small, even big departures from normality are not detected, and when your sample size is large, even the smallest deviation from normality will lead to a rejected null.”

Resultados – efectos fijos

• Se pueden interpretar como promedios de rendimiento, por país o nursery, que no se puede explicar por las otras variables.

• Todos los niveles de los efectos fijos en R son relativos al primer efecto (empezando con A…)

– En nuestro modelo, todos los efectos del país son relativos a Afghanistan…

• Interpretamos los efectos fijos del país aquí cómo los efectos de manejo

Resultados – relaciones temperatura/ rendimiento

• Cuando una variable está en más de un término en la regresión, tiene que derivar la relación entre sí y la variable de respuesta.

– Usar derivadas!!

• EJEMPLO EN LA PIZARRA

Curvas temperatura-rendimiento

Intervalos de confidencia?

• Para solo una variable, se puede mirar los errores estanderes asociados con el coeficiente.

• Pero cuando se tiene una relacion más complicada (e.g. con temperatura y rendimiento en en este modelo), se puede hacer …

– Bootstrap!

Qué es bootstrap?

• Hacer n modelos usando las observaciones como una distribución y tomando muestreas diferentes (con reemplazo) de ella

• Usar los coeficientes estimados de los modelos diferentes como medida de incertidumbre

• EJEMPLO EN LA PIZARRA

Aumento “genético” de rendimiento

Usando el modelo, podemos cuantificar el aumento “verdadero” en rendimiento desde el principio del vivero

- corrigiendo el aumento observado por la variabilidad de clima y país en la base de datos

ESWYT

Progreso genético por vivero y temperatura durante la etapa de llena de granos

Desde 1983

SAWYT ESWYT

• El único progreso en ESWYT ha sido en las temperaturas más frías, cerca de lo óptimo para producción

• En SAWYT, vemos el opuesto, pero no tiene el mismo potencial de rendimiento como en ESWYT