30
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests Arantzazu Larrañaga 1 y Jesús Álvarez-Mozos 2 (1) Departamento de Ingeniería y Sistemas Territoriales, Tracasa (2) Departamento de Proyectos e Ingeniería Rural, Universidad Pública de Navarra ([email protected]) XVII Congreso de la AET, Murcia, 3-7 octubre 2017

Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

Embed Size (px)

Citation preview

Page 1: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos

obtenida mediante Random Forests

Arantzazu Larrañaga1 y Jesús Álvarez-Mozos2

(1) Departamento de Ingeniería y Sistemas Territoriales, Tracasa (2) Departamento de Proyectos e Ingeniería Rural, Universidad Pública de Navarra ([email protected])

XVII Congreso de la AET, Murcia, 3-7 octubre

2017

Page 2: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

INTRODUCCIÓN

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

La clasificación de cultivos es una de las principales

aplicaciones de la teledetección en el entorno agrícola.

La información sobre el cultivo implantado en cada

parcela es de utilidad para aplicaciones como:

-La gestión de la producción

-La predicción de cosechas

-El diseño de políticas agrarias

-La gestión de ayudas (PAC)

El procedimiento más habitual es la clasificación supervisada en la que

partiendo de una muestra de entrenamiento se establecen relaciones o

patrones que permiten inferir la clase de nuevos elementos (píxeles o

parcelas) a clasificar.

La irrupción de algoritmos de clasificación basados técnicas de aprendizaje

automático (Machine Learning) ha resultado en mejoras significativas frente

a clasificadores clásicos.

CONCLUSIONES AGRADECIMIENTOS

Trigo

Avena

Girasol

Colza

Guisantes

Cebada

Alfalfa

Habas Espárragos

Veza

Trigo

Page 3: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

RANDOM FORESTS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

Random Forests (RF) es una herramienta de aprendizaje conjunto (ensemble

learning) propuesta por Breiman (2001) que es utilizada principalmente

como una herramienta supervisada de clasificación y regresión.

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Se basa en la construcción automática de

múltiples árboles de decisión (decisión tree, DT) a

partir de un conjunto de datos de entrenamiento

formado por n observaciones (samples) y m

variables explicativas (features).

Cada DT se va construyendo mediante la división

del conjunto de datos de entrenamiento en

sucesivos nodos utilizando la feature que maximice

el índice de desigualdad de Gini.

Los árboles se despliegan hasta su nivel máximo (unprunned trees) lo que

permite aprender patrones de gran irregularidad, sin embargo esto hace

que tiendan al sobreajuste de los datos de entrenamiento (overfitting o

overtraining).

árbol de decisión

Page 4: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

RANDOM FORESTS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

Para para evitar el sobreajuste y garantizar que los árboles son distintos RF

incorpora dos procedimientos:

-Selección aleatoria de p (p<m) variables explicativas en los nodos (random

subspace method) (Ho, 1998)

-Empaquetado (bagging o bootstrapping) de los datos de entrada

mediante un muestreo aleatorio y con reemplazo de 2/3 · n (Breiman, 2001)

Los únicos parámetros de ajuste son el número de árboles del RF (k) y el

número de features a considerar en cada nodo (p).

Una vez construido un RF los elementos a clasificar se asignan en votación

por mayoría (moda) de los árboles individuales.

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Page 5: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

RANDOM FORESTS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

RF es flexible en cuanto a la tipología y distribución de probabilidad de

datos de entrada y eficiente desde el punto de vista computacional, otros

aspectos interesantes son:

-Cálculo de una medida interna de error (out of bag error o oob error).

-Valoración de la importancia de las variables por nº nodos o por

permutación.

-Se puede conocer el grado de incertidumbre de la clase asignada (%

mayoría).

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Page 6: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

RANDOM FORESTS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

Desde su desarrollo RF se ha utilizado para multitud de aplicaciones y sus

resultados han superado a los obtenidos por clasificadores convencionales

en distintos contextos.

Su uso en el ámbito de la teledetección se ha generalizado y

se han publicado multitud de estudios con resultados positivos.

Varias herramientas incorporan RF (R, py, Matlab, Weka,

SNAP, Envi, PCI Geomatics, etc.)

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Fuente: Web of Science, 2017

Page 7: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

DESEQUILIBRIO MUESTRAL

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

En problemas de clasificación que usan datos de entrenamiento

desequilibrados (distinto número de muestras por cada clase), tras el

bagging se tienden a generar árboles que favorecen la asignación a las

clases mayoritarias y dificultan la correcta clasificación de las clases menos

frecuentes.

Esto puede constituir una limitación importante de esta herramienta en

determinados contextos (e.g., detección de vertidos en el mar,

delineación de zonas inundadas o zonas afectadas por incendios

forestales, etc.).

En los últimos años se han propuesto técnicas para superar esta limitación

como entre otras (Sun et al., 2009):

-Sub-muestreo de las clases mayoritarias

-Sobre-muestreo de las clases minoritarias

-Ponderación en la asignación en función del tamaño de la clase

asignada

-…

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Page 8: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

OBJETIVO

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

El objetivo de este estudio es implementar una metodología de

equilibrado muestral basada en la generación de elementos sintéticos en

las clases minoritarias de forma que su tamaño se incremente hasta

alcanzar el de las clases mayoritarias.

La metodología implementada se aplicará a un caso de uso de

clasificación de cultivos utilizando imágenes radar en el que se valorará el

beneficio frente a la clasificación con los datos de entrenamiento sin

equilibrar.

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Page 9: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

ZONA DE ESTUDIO

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

-Zonas agrícolas que rodean

la ciudad de Pamplona

(Navarra).

-Topografía ondulada: zonas

cultivadas en valles,

pastizales y bosques en

zonas más escarpadas.

-Parcelas pequeñas (~1-3

ha).

-Área de estudio de

25x25km

-Cultivos de secano (trigo

55%, cebada 16%, avena

15%, girasol, colza,

guisantes, veza, pastizales y

barbecho).

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Fuente:

Page 10: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

CULTIVOS A CLASIFICAR

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Cebada Trigo Avena

Girasol Colza Veza Guisante

Pastizales Barbecho

Calendario agrícola

Cultivo I II III IV V VI VII VIII IX X XI XII

Cebada

Trigo

Avena

Girasol

Colza

Guisante

Veza

Siembra Cosecha

Page 11: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

IMÁGENES UTILIZADAS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

RADARSAT-2 Fine Quad-Pol (FQ8) (HH, HV, VH, VV)

Cobertura: 25 km x 25 km

Resolución: 5,4 m (rango) x 8,0 m (azimut)

3 adquisiciones: 12/05/2010, 5/06/2010 y 29/06/2010

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Page 12: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

IMÁGENES UTILIZADAS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

RADARSAT-2 Fine Quad-Pol (FQ8)

Cobertura: 25 km x 25 km

Resolución: 5,4 m (rango) x 8,0 m (azimut)

3 adquisiciones: 12/05/2010, 5/06/2010 y 29/06/2010

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

RADARSAT-2, 12/05/2010 RGB (HH, HV, VV)

RADARSAT-2, 05/06/2010 RGB (HH, HV, VV)

RADARSAT-2, 29/06/2010 RGB (HH, HV, VV)

Page 13: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

IMÁGENES UTILIZADAS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

RADARSAT-2 Fine Quad-Pol (FQ8) (HH, HV, VH, VV)

Cobertura: 25 km x 25 km

Resolución: 5,4 m (rango) x 8,0 m (azimut)

3 adquisiciones: 12/05/2010, 5/06/2010 y 29/06/2010

Procesado en SNAP:

-Calibración (b0)

-Filtrado del moteado (GammaMAP 3x3)

-Ortorrectificación (Range Doppler TC)

-Corrección topográfica (s0LIA=b0·qINC)

-Cálculo de ratios de polarización directa y cruzada

Cálculo en PolSARpro de los siguientes parámetros

polarimétricos:

-Coherencia y diferencia de fase de polarización directa

(|rHHVV|, fHHVV)

-Descomposición de Cloude-Pottier (H, a1, a, A)

En total 11 variables explicativas (features) x 3 imágenes = 33

features

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Page 14: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

VERDAD CAMPO

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

Datos de inspecciones de la PAC de 2010 (Dpto. M.A. Des. Rural, Gob.

Navarra)

Tasa de muestreo 5% (928 parcelas, ~1600 ha)

Training 2/3 + Test 1/3

La unidad de trabajo es la parcela agrícola.

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Cultivo Total Training Test Trigo 476 317 159

Cebada 168 112 56

Avena 165 110 55

Barbecho 34 23 11

Veza 26 17 9

Girasol 24 16 8

Pastizales 17 11 6

Colza 10 7 3

Guisantes 8 5 3

Page 15: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

EQUILIBRADO DE MUESTRAS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

Para equilibrar las muestras se implementó un procedimiento basado en el

sobre-muestreo de las clases minoritarias, pero en lugar de simplemente

remuestrear o replicar estas clases, se generaron elementos (parcelas)

sintéticos perturbando aleatoriamente los elementos originales sin alterar los

momentos estadísticos (media, varianza y asimetría) de las muestras

originales.

donde, x’ es la permutación de un elemento x, Y es un numero real aleatorio

entre -1 y 1, s es la desviación típica de la clase y k es un coeficiente de

optimización para mantener los momentos de la muestra original.

La técnica es similar a Synthetic Minority Over-sampling Technique (SMOTE)

(Chawla et al., 2002).

Los elementos sintéticos generados permiten igualar el tamaño muestral de

las clases al de la clase mayoritaria (trigo, 317 elementos).

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

𝑥′ = 𝑥 + 𝑌𝜎

𝑘

Page 16: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

EQUILIBRADO DE MUESTRAS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Page 17: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

EQUILIBRADO DE MUESTRAS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

𝑥′ = 𝑥 + 𝑌𝜎

𝑘

Page 18: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

CLASIFICADOR

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

El clasificador RF se entrenó con los datos originales y con los equilibrados, en

ambos casos se ajustó el nº de árboles a k=200 y el nº de variables a

considerar en cada nodo a p=5.

Los resultados de las clasificaciones obtenidas se valoraron mediante las

matrices de confusión obtenidas con la muestra independiente de test, en

términos de:

-Fiabilidad global

-Coeficiente kappa

-Fiabilidad del productor

-Fiabilidad del usuario

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Page 19: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

CLASIFICADOR CON TRAINING ORIGINAL (DESEQUILIBRADO)

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

↑ FP trigo, girasol y colza ~FP cebada, avena ↓FP guisante, veza, pasto,

barbecho

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Referencia Tot

FU (%)

Clasificación

Tr Ce

b Av Gir Col Gui

Vez

Pas Bar

Trigo 156 8 20 0 0 0 5 4 5 198 79 Cebada 0 47 0 0 0 0 1 0 0 48 98 Avena 1 0 35 0 0 0 0 0 0 36 97 Girasol 0 0 0 8 0 0 0 0 0 8 100

Colza 0 0 0 0 3 0 0 0 0 3 100 Guisante 0 0 0 0 0 0 0 0 0 0 - Veza 0 0 0 0 0 3 2 0 0 5 40 Pastizales 0 1 0 0 0 0 0 0 0 1 0 Barbecho 0 0 0 0 0 0 0 1 6 7 86 Total 157 56 55 8 3 3 8 5 11 306 FP (%) 99 84 64 100 100 0 25 0 55

↑ FU cebada, avena, girasol y colza ~FU trigo, barbecho ↓FU

guisante, veza, pasto

Page 20: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

CLASIFICADOR CON TRAINING EQUILIBRADO

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Referencia Tot

FU (%)

Clasificación

Tr Ce

b Av Gir Col Gui

Vez

Pas Bar

Trigo 143 2 11 0 0 0 2 1 0 159 90 Cebada 0 51 0 0 0 0 1 0 0 52 98 Avena 8 1 43 0 0 0 0 0 0 52 83 Girasol 0 0 0 7 0 0 0 0 0 7 100

Colza 0 0 0 0 3 0 0 0 0 3 100 Guisante 1 0 0 0 0 0 0 0 0 1 0 Veza 2 1 1 0 0 3 4 0 0 11 36 Pastizales 1 0 0 0 0 0 0 3 2 6 50 Barbecho 2 1 0 1 0 0 1 1 9 15 60 Total 157 56 55 8 3 3 8 5 11 306 FP (%) 91 91 78 88 100 0 50 60 82

↑ FP trigo, cebada, girasol y colza ~FP avena, barbecho, pasto ↓FP

guisante, veza ↑ FU trigo, cebada, girasol y colza ~FU avena, barbecho ↓FU

guisante, veza, pasto

Page 21: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

COMPARATIVA

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

Resultados globales:

Resultados por cultivo:

Fiabilidad del Productor Fiabilidad del Usuario

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Orig. Equil.

FG (%) 84 86 kappa 0.74 0.79

Page 22: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

ÁREA DE EJEMPLO

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Training original Training equilibrado

Page 23: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

ÁREA DE EJEMPLO

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Parcelas de avena confundidas con trigo

Training original Training equilibrado

Page 24: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

ÁREA DE EJEMPLO

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Training original Training equilibrado

Parcelas de pastizal confundidas con trigo

Page 25: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

ÁREA DE EJEMPLO

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Training original Training equilibrado

Parcelas de barbecho confundidas con trigo

Page 26: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

ÁREA DE EJEMPLO

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Training original Training equilibrado

Parcelas de veza confundidas con trigo

Page 27: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

ÁREA DE EJEMPLO

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Training original Training equilibrado

Page 28: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

CONCLUSIONES

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

La realización de clasificaciones supervisadas utilizando como

entrenamiento muestras de tamaño desequilibrado puede afectar

negativamente a los resultados obtenidos en clasificadores Random Forests.

Este problema afecta de manera directa a la identificación de las clases

minoritarias que a menudo son incorrectamente asignadas a las clases

mayoritarias.

El reequilibrado de las muestras de entrenamiento se puede hacer de forma

sencilla mediante la creación de elementos sintéticos en las clases

minoritarias que aumenten su tamaño pero asegurando que respeten los

momentos estadísticos de las muestras originales.

Tras el reequilibrado los resultados mejoran significativamente.

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Page 29: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

LÍNEAS FUTURAS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

Observar el impacto de el equilibrado de muestras en la incertidumbre de

la asignación de clases (% mayoría).

Comparar los resultados obtenidos con otras técnicas de equilibrado como

el sobre-muestreo de las clases minoritarias o SMOTE.

Extender el caso de uso a observaciones sobre zonas más amplias con un

mayor número de clases y más parcelas de entrenamiento y test.

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

Page 30: Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

AGRADECIMIENTOS

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

Departamento de Medio Ambiente y Desarrollo Rural del Gobierno de

Navarra.

Este trabajo ha sido financiado parcialmente por los siguientes proyectos:

-Agencia Espacial Canadiense: SOAR-EU 6774

-Plan Estatal de I+D+i, Retos: CGL2016-75217-R (AEI/FEDER, UE)

-Programa Programa Interreg V-A España-Francia-Andorra (POCTEFA 2014-

2020) (FEDER, UE): PyrenEOS EFA 048/15

REFERENCIAS: -Breiman, L. 2001. Random Forests. Machine Learning, 45(1): 5–32.

-Chawla, N.V., Bowyer, K.W., Hall, L.O. & Kegelmeyer, W.P. 20002. SMOTE: synthetic minority over-sampling technique, Journal of Artificial Intelligence Research, 16: 321–357. -Ho, T.K. 1998. The Random Subspace Method for Constructing Decision Forests, IEEE Transactions on Pattern Analysis and Machine Intelligence 20(8): 832–844. -Sun, Y., Wong A.C.& Kamel, M.S. 2009. Classification of imbalanced data: A review, International Journal of Pattern Recognition and A.I., 23(4): 687–719.

CONCLUSIONES AGRADECIMIENTOS

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests