Modelos para la predicción de la distribución de especies

Preview:

DESCRIPTION

Introducción a los métodos de predicción de distribución potencial de especies. Uso de bases de datos, DivaGIS, MaxEnt, Bioclim, Worldclim. Validación de los modelos por AUC y ROC.

Citation preview

Modelos para la predicción de la distribución de especies

12 de abril de 2023

Problemática

Se desconoce la distribución real de las especies.

Utilidad de conocer la distribución ecológica y geográfica

• Conservación del recurso• Predicción en climas pasados y futuros• Entender patrones espaciales de diversidad• Potencial invasivo de especies no-nativas• Comparación entre especies relacionadas

¿Qué es el área de distribución?

Es el producto de 3 factores:• B: Bióticos• A: Ambientales• M: Movimiento

Es el espacio donde se encuentra una especie.

Áreas ocupadas vs Áreas potenciales

La modelación de áreas ocupadas (GO), se conoce como Environmental Niche Modelling

La modelación de áreas potenciales (GI), se denomina Species Distribution Modelling

¿Qué información necesitamos para hacer modelaje?

DATOS

TIPOS DE DATOS

Datos de ocurrencia

• Primarios: Ubican a un individuo de una especie en un lugar y tiempo (observación o ejemplar).

• Secundarios: Depende de la interpretación, generalización, promedio de los datos primarios.

Datos de ocurrencia

• Presencia: Se observó o colectó un individuo en un sitio y tiempo dado.

• No-presencia• Ausencias estrictas: La especie no aparece en inventarios

exhaustivos.• Pseudoausencias: Se generan usando la distancia de presencia.

A mayor distancia->Más puntos de ausencia. GARP los genera al azar.

• Trasfondo (background): Datos al azar para caracterizar el ambiente en general. Puede coincidir con puntos de presencia. Adecuados para Maxent.

Datos de ocurrencia• Suelen ser escasos y obtenidos

sin planeación (museos y herbarios).

• Considerar nomenclatura de la especie, georeferenciación y resolución.

• Usar datos disponibles públicamente (repetible).

• Mínimo ideal 40 puntos. Sin evaluar bastan 20 puntos. No usar menos de 10. Más de 200 puede producir “sobreajuste”.

Datos de ocurrencia (fuentes)• CONABIO (REMIB)• UNAM (UNIBIO)• Global Biodiversity Information Facility (GBIF)• Vertebrados (VertNet )• SpeciesLink• Southwest Environmental Information Network (SEINet)• National Biodiversity Institute (INBIO)• Ocean Biogeographic Information System (OBIS)• Australia’s Virtual Herbarium (AVH)

Datos ambientales Son capas predictoras obtenidas de interpolaciones o

transformaciones de datos primarios climáticos o percepción remota.

Se deben seleccionar variables que incidan en la ecología de la especie.

Se debe conocer la precisión, la resolución y la fuente de estos datos.

Eliminar variables correlacionadas (redundantes), usar no más de 10 en total.

Usar interacciones entre variables para ajustar superficies (sólo si hay más de 20 ocurrencias).

Datos ambientales: Vector vs. Raster

RASTER = La información está contenida en celdas, organizada por filas y columnas (v.g. fotografía digital).

VECTOR =La información está

expresada en vectores, manteniendo las características geométricas de las figuras.

Datos en Vector

Ventajas• Estructura de datos

compacta. Poca memoria.• Codificación eficiente de

topología.• Buena salida gráfica

(mapas).• Re-escalado y re-proyección

fáciles de hacer.

Desventajas• Estructura de datos

compleja.• Superposición de capas

complicada.• Poco eficaz con alta

variación de datos.• Difícil de mantener

actualizado.

Datos en Raster

Ventajas

• Estructura de datos simple• Superposición sencilla• Optimo para registrar

variaciones altas

Desventajas

• Mucha memoria• Mapas poco vistosos

(granulados) por baja resolución.

Variables ambientales

Climáticas• Temperaturas

– Promedio– Mínima– Máxima

• Precipitación• Altitud

BioclimáticasBIO1 = Annual Mean TemperatureBIO2 = Mean Diurnal Range (Mean of monthly (max temp - min temp))BIO3 = Isothermality (BIO2/BIO7) (* 100)BIO4 = Temperature Seasonality (standard deviation *100)BIO5 = Max Temperature of Warmest MonthBIO6 = Min Temperature of Coldest MonthBIO7 = Temperature Annual Range (BIO5-BIO6)BIO8 = Mean Temperature of Wettest QuarterBIO9 = Mean Temperature of Driest QuarterBIO10 = Mean Temperature of Warmest QuarterBIO11 = Mean Temperature of Coldest QuarterBIO12 = Annual PrecipitationBIO13 = Precipitation of Wettest MonthBIO14 = Precipitation of Driest MonthBIO15 = Precipitation Seasonality (Coefficient of Variation)BIO16 = Precipitation of Wettest QuarterBIO17 = Precipitation of Driest QuarterBIO18 = Precipitation of Warmest QuarterBIO19 = Precipitation of Coldest Quarter

Filtros Ambientales

Se pueden determinar las variables limitantes en el área de distribución: Most limiting factors.

Son variables que limitan el establecimiento de una especie (usualmente los máximos y mínimos en temperatura y precipitación).

Datos ambientales (fuentes)

• CONABIO: Topografía y clima• WorldClim: 19 variables bioclimáticas.• CRU: Coberturas globales. Relacionado con IPCC.• EROS: Imágenes aéreas y satelitales, elevación e

hidrología.

Ejercicio 1

1. Descargar coordenadas para 1 especie presente en México.

2. Transformarlas a decimales.

3. Proyectarlas en Google Maps.– Transformar a formato KMZ en:

http://www.earthpoint.us/ExcelToKml.aspx

4. Proyectarlas en Diva-Gis.– Cargar también un mapa de la República Mexicana

TIPOS DE MÉTODOS

Modelos predictivos

• Hacen predicciones detalladas de la distribución, asociando la presencia de la especie a factores ambientales.

• Son una herramienta en estudios de ecología, evolución y conservación.

• Se construyen con métodos muy variados

De acuerdo a su amplitud:

• Métodos de una especie: Predicen la distribución usando datos para una sola especie.

• Métodos de comunidad: Definen un modelo usando todos los sitios disponibles para todas las especies del grupo biológico de interés.

De acuerdo a su resultado:

• Mapa Binario: No da información sobre la relación de la especie con las variables ambientales ni de las variables ambientales entre sí (útil para determinar la distribución potencial, el riesgo de invasión biológica, y encontrar nuevos lugares).

• Mapa Probabilístico: Informa sobre la relación de la especie con las variables ambientales y entre ellas (útil para encontrar las variables determinantes).

BIOCLIM

• Es el más simple y fácil de entender.• Requiere datos de presencia.• Algoritmo de Envoltura Bioclimática.• Produce mapas binarios. • No considera las relaciones entre las variables.• No asigna probabilidades.

Falso-Verdadero Factor más limitante

BIOCLIM

El usuario puede definir los valores mínimos y máximos para cada variable ambiental donde la especie está presente, creando una envoltura ambiental rectangular.

Es recomendable explorar los datos para evitar sesgo en la distribución de las observaciones.

DOMAIN• Requiere datos de presencia.• Algoritmo de distancia.• Usa un índice de similitud para comparar el sitio donde está

presente la especie contra un nuevo sitio. La similitud de las variables ambientales entre los dos sitios es evaluada y se genera un valor que muestra la similitud y confianza del cálculo.

También genera mapas de:Verdadero-Falso y Factor Más Limitante.

GARP(Genetic Algorithm for Rule-set Production)

• Requiere datos de presencia (genera sus propios datos de ausencia).

• Algoritmo Genético que compara distintos algoritmos:– Atómica– Regresión logística, – Envoltura bioclimática – Envoltura bioclimática inversa

• Se deben hacer de 100 a 1000 simulaciones por grupo de datos.• Produce mapas binarios.• No produce probabilidades, sino un índice de lo adecuado que es

el ambiente para la especie.

GARP• GARP analiza estos algoritmos para encontrar correlaciones no-aleatorias entre los

datos de presencia y pseudo ausencia. • El modelo se corre varias veces y los mapas de predicción se combinan para crear un

mapa final que muestre la frecuencia con que cada localidad apareció en los mapas de predicción (selección natural).

Mapa 1 Mapa 2 Mapa n

Mapa combinado

MaxEnt

• Algoritmo de Distribución de Máxima Entropía• Requiere datos de presencia (genera sus propios

datos de ausencia).• Produce:

– Mapas probabilísticos– Variables explicativas– Curvas ROC

• Tiende a sobreajustar el modelo (no descarta datos).

MaxEnt• Esta técnica usa el máximo valor de entropía para estimar la distribución

más uniforme de los datos de ocurrencia en el área de estudio. • Esta distribución uniforme está restringida por los valores ambientales o

la proporción de ocurrencia de puntos en una categoría. • La distribución predicha resultante es regularizada para evitar el

sobreajuste.

Los valores de salida se representan como porcentajes donde 100% es el más adecuado y 0% el menos adecuado.

Software SIG

ArcView y ArcGIS: desarrollados por ESRIEnvironmental Systems Research Institute

http://www.esri.com/

DIVA-GIS: gratuito, incluye DOMAIN y BIOCLIM http://www.diva-gis.org/

GRASS: gratuito http://grass.osgeo.org/

Ejercicio 2

• Modelar los datos de ocurrencia de 1 especie en. – BIOCLIM – DOMAIN– Desktop GARP– MaxEnt

EVALUACIÓN DE MODELOS

Validar un modelo consiste en contrastar sus predicciones respecto a datos considerados independientes para obtener una medida de:

I. Su significancia en relación con una hipótesis nula.

II. Su desempeño (capacidad de clasificar correctamente nuevos datos).

Errores que pueden ocurrir• De omisión: El modelo no tomó en cuenta una

ocurrencia (subpredicción).

• De comisión: El modelo predijo una ocurrencia donde no existe (sobrepredicción).

Matriz de Confusión

Errores duros y Errores blandos

Un error de omisión es considerado un error duro puede ocurrir por :

a) Mala identificación de la especie.

b) Mala georreferenciación.

c) Especies en tránsito, fuera de su nicho.

Un error de comisión es considerado un error blando y ocurre porque:

d) Faltó esfuerzo de muestreo, pero el área es adecuada.

e) El área es adecuada pero la especie no está ahí por algún evento histórico.

f) El área no es adecuada = verdadero error de comisión

Métodos de Evaluación

• Curvas ROC y AUC (Área Bajo la Curva)

• Curvas de omisión (Omission curves)

• Jackknife Model Testing

Receiver Operating Characteristic (ROC)

• Es una curva que describe la tasa de identificación correcta de presencias (sensitivity) contra la tasa de falsas alarmas (specificity).

• La línea recta no tiene valor predictivo (es aleatoria).

Area Under the Curve (AUC)

• Es el área total bajo la curva.

• Un clasificador aleatorio tiene un área de 0.5; un muy buen clasificador tiene un área muy cercana a 1.

• Un ROC ≥ 0.9 es bueno.

Problemas de la AUC• Requeriría de datos de ausencias verdaderas.• Asigna igual ponderación a los errores de omisión y

comisión.• Presupone que el clasificador (algoritmo de

modelación) genera todos los valores del rango, lo cual no siempre es cierto.

Ausenciasverdaderas

Omisión y Comisión

Rango

ROC parcialAUC parcial

INTERPRETACIÓN DEL MODELO

1. Mundo Clásico• Las ausencias se deben a

razones radicalmente diferentes dependiendo de la zona.

• Las presencias están determinadas por una combinación de factores de tal forma que se pueden cometer errores por dos causas distintas.

• G0 y A son distintas y los métodos basados en presencias solas tienden a estimar un área intermedia entre G0 y A.

2. Mundo de Hutchinson• Todas las ausencias tienen una

sola causa (medio ambiente inadecuado).

• Las presencias se deben a un único factor, por lo que todos los errores de comisión se deberían a una pobre estimación de un factor para el cual existen datos (variables ambientales).

• En este escenario G0=A y los métodos basados en presencias solas harán un buen o mal trabajo de estimar ambas zonas por igual.

3. Mundo de Wallace• Todas las ausencias tienen una

sola causa (incapacidad de dispersarse).

• Las presencias se deben a un único factor, por lo que todos los errores de comisión se deberían a una pobre estimación de un factor para el cual no existe información (la dispersión).

• En este escenario A contiene a G0 y los métodos basados en presencia solas, en el mejor de los casos, proveerán una estimación más o menos completa de A.

Ejercicio 3

• Validar por ROC un modelo de Bioclim usando Diva-Gis.

Recommended