Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos

obtenida mediante Random Forests

Arantzazu Larrañaga1 y Jesús Álvarez-Mozos2

(1) Departamento de Ingeniería y Sistemas Territoriales, Tracasa (2) Departamento de Proyectos e Ingeniería Rural, Universidad Pública de Navarra ([email protected])

XVII Congreso de la AET, Murcia, 3-7 octubre

2017

Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests

INTRODUCCIÓN

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS

La clasificación de cultivos es una de las principales

aplicaciones de la teledetección en el entorno agrícola.

La información sobre el cultivo implantado en cada

parcela es de utilidad para aplicaciones como:

-La gestión de la producción

-La predicción de cosechas

-El diseño de políticas agrarias

-La gestión de ayudas (PAC)

El procedimiento más habitual es la clasificación supervisada en la que

partiendo de una muestra de entrenamiento se establecen relaciones o

patrones que permiten inferir la clase de nuevos elementos (píxeles o

parcelas) a clasificar.

La irrupción de algoritmos de clasificación basados técnicas de aprendizaje

automático (Machine Learning) ha resultado en mejoras significativas frente

a clasificadores clásicos.

CONCLUSIONES AGRADECIMIENTOS

Trigo

Avena

Girasol

Colza

Guisantes

Cebada

Alfalfa

Habas Espárragos

Veza

Trigo

RANDOM FORESTS


Random Forests (RF) es una herramienta de aprendizaje conjunto (ensemble

learning) propuesta por Breiman (2001) que es utilizada principalmente

como una herramienta supervisada de clasificación y regresión.



Se basa en la construcción automática de

múltiples árboles de decisión (decisión tree, DT) a

partir de un conjunto de datos de entrenamiento

formado por n observaciones (samples) y m

variables explicativas (features).

Cada DT se va construyendo mediante la división

del conjunto de datos de entrenamiento en

sucesivos nodos utilizando la feature que maximice

el índice de desigualdad de Gini.

Los árboles se despliegan hasta su nivel máximo (unprunned trees) lo que

permite aprender patrones de gran irregularidad, sin embargo esto hace

que tiendan al sobreajuste de los datos de entrenamiento (overfitting o

overtraining).

árbol de decisión

RANDOM FORESTS


Para para evitar el sobreajuste y garantizar que los árboles son distintos RF

incorpora dos procedimientos:

-Selección aleatoria de p (p<m) variables explicativas en los nodos (random

subspace method) (Ho, 1998)

-Empaquetado (bagging o bootstrapping) de los datos de entrada

mediante un muestreo aleatorio y con reemplazo de 2/3 · n (Breiman, 2001)

Los únicos parámetros de ajuste son el número de árboles del RF (k) y el

número de features a considerar en cada nodo (p).

Una vez construido un RF los elementos a clasificar se asignan en votación

por mayoría (moda) de los árboles individuales.



RANDOM FORESTS


RF es flexible en cuanto a la tipología y distribución de probabilidad de

datos de entrada y eficiente desde el punto de vista computacional, otros

aspectos interesantes son:

-Cálculo de una medida interna de error (out of bag error o oob error).

-Valoración de la importancia de las variables por nº nodos o por

permutación.

-Se puede conocer el grado de incertidumbre de la clase asignada (%

mayoría).



RANDOM FORESTS


Desde su desarrollo RF se ha utilizado para multitud de aplicaciones y sus

resultados han superado a los obtenidos por clasificadores convencionales

en distintos contextos.

Su uso en el ámbito de la teledetección se ha generalizado y

se han publicado multitud de estudios con resultados positivos.

Varias herramientas incorporan RF (R, py, Matlab, Weka,

SNAP, Envi, PCI Geomatics, etc.)



Fuente: Web of Science, 2017

DESEQUILIBRIO MUESTRAL


En problemas de clasificación que usan datos de entrenamiento

desequilibrados (distinto número de muestras por cada clase), tras el

bagging se tienden a generar árboles que favorecen la asignación a las

clases mayoritarias y dificultan la correcta clasificación de las clases menos

frecuentes.

Esto puede constituir una limitación importante de esta herramienta en

determinados contextos (e.g., detección de vertidos en el mar,

delineación de zonas inundadas o zonas afectadas por incendios

forestales, etc.).

En los últimos años se han propuesto técnicas para superar esta limitación

como entre otras (Sun et al., 2009):

-Sub-muestreo de las clases mayoritarias

-Sobre-muestreo de las clases minoritarias

-Ponderación en la asignación en función del tamaño de la clase

asignada

-…



OBJETIVO


El objetivo de este estudio es implementar una metodología de

equilibrado muestral basada en la generación de elementos sintéticos en

las clases minoritarias de forma que su tamaño se incremente hasta

alcanzar el de las clases mayoritarias.

La metodología implementada se aplicará a un caso de uso de

clasificación de cultivos utilizando imágenes radar en el que se valorará el

beneficio frente a la clasificación con los datos de entrenamiento sin

equilibrar.



ZONA DE ESTUDIO


-Zonas agrícolas que rodean

la ciudad de Pamplona

(Navarra).

-Topografía ondulada: zonas

cultivadas en valles,

pastizales y bosques en

zonas más escarpadas.

-Parcelas pequeñas (~1-3

ha).

-Área de estudio de

25x25km

-Cultivos de secano (trigo

55%, cebada 16%, avena

15%, girasol, colza,

guisantes, veza, pastizales y

barbecho).



Fuente:

CULTIVOS A CLASIFICAR

INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS


Cebada Trigo Avena

Girasol Colza Veza Guisante

Pastizales Barbecho

Calendario agrícola

Cultivo I II III IV V VI VII VIII IX X XI XII

Cebada

Trigo

Avena

Girasol

Colza

Guisante

Veza

Siembra Cosecha

IMÁGENES UTILIZADAS


RADARSAT-2 Fine Quad-Pol (FQ8) (HH, HV, VH, VV)

Cobertura: 25 km x 25 km

Resolución: 5,4 m (rango) x 8,0 m (azimut)

3 adquisiciones: 12/05/2010, 5/06/2010 y 29/06/2010





RADARSAT-2 Fine Quad-Pol (FQ8)



3 adquisiciones: 12/05/2010, 5/06/2010 y 29/06/2010



RADARSAT-2, 12/05/2010 RGB (HH, HV, VV)





RADARSAT-2 Fine Quad-Pol (FQ8) (HH, HV, VH, VV)



3 adquisiciones: 12/05/2010, 5/06/2010 y 29/06/2010

Procesado en SNAP:

-Calibración (b0)

-Filtrado del moteado (GammaMAP 3x3)

-Ortorrectificación (Range Doppler TC)

-Corrección topográfica (s0LIA=b0·qINC)

-Cálculo de ratios de polarización directa y cruzada

Cálculo en PolSARpro de los siguientes parámetros

polarimétricos:

-Coherencia y diferencia de fase de polarización directa

(|rHHVV|, fHHVV)

-Descomposición de Cloude-Pottier (H, a1, a, A)

En total 11 variables explicativas (features) x 3 imágenes = 33

features



VERDAD CAMPO


Datos de inspecciones de la PAC de 2010 (Dpto. M.A. Des. Rural, Gob.

Navarra)

Tasa de muestreo 5% (928 parcelas, ~1600 ha)

Training 2/3 + Test 1/3

La unidad de trabajo es la parcela agrícola.



Cultivo Total Training Test Trigo 476 317 159

Cebada 168 112 56

Avena 165 110 55

Barbecho 34 23 11

Veza 26 17 9

Girasol 24 16 8

Pastizales 17 11 6

Colza 10 7 3

Guisantes 8 5 3

EQUILIBRADO DE MUESTRAS


Para equilibrar las muestras se implementó un procedimiento basado en el

sobre-muestreo de las clases minoritarias, pero en lugar de simplemente

remuestrear o replicar estas clases, se generaron elementos (parcelas)

sintéticos perturbando aleatoriamente los elementos originales sin alterar los

momentos estadísticos (media, varianza y asimetría) de las muestras

originales.

donde, x’ es la permutación de un elemento x, Y es un numero real aleatorio

entre -1 y 1, s es la desviación típica de la clase y k es un coeficiente de

optimización para mantener los momentos de la muestra original.

La técnica es similar a Synthetic Minority Over-sampling Technique (SMOTE)

(Chawla et al., 2002).

Los elementos sintéticos generados permiten igualar el tamaño muestral de

las clases al de la clase mayoritaria (trigo, 317 elementos).



𝑥′ = 𝑥 + 𝑌𝜎

𝑘







𝑥′ = 𝑥 + 𝑌𝜎

𝑘

CLASIFICADOR


El clasificador RF se entrenó con los datos originales y con los equilibrados, en

ambos casos se ajustó el nº de árboles a k=200 y el nº de variables a

considerar en cada nodo a p=5.

Los resultados de las clasificaciones obtenidas se valoraron mediante las

matrices de confusión obtenidas con la muestra independiente de test, en

términos de:

-Fiabilidad global

-Coeficiente kappa

-Fiabilidad del productor

-Fiabilidad del usuario



CLASIFICADOR CON TRAINING ORIGINAL (DESEQUILIBRADO)


↑ FP trigo, girasol y colza ~FP cebada, avena ↓FP guisante, veza, pasto,

barbecho



Referencia Tot

FU (%)

Clasificación

Tr Ce

b Av Gir Col Gui

Vez

Pas Bar

Trigo 156 8 20 0 0 0 5 4 5 198 79 Cebada 0 47 0 0 0 0 1 0 0 48 98 Avena 1 0 35 0 0 0 0 0 0 36 97 Girasol 0 0 0 8 0 0 0 0 0 8 100

Colza 0 0 0 0 3 0 0 0 0 3 100 Guisante 0 0 0 0 0 0 0 0 0 0 - Veza 0 0 0 0 0 3 2 0 0 5 40 Pastizales 0 1 0 0 0 0 0 0 0 1 0 Barbecho 0 0 0 0 0 0 0 1 6 7 86 Total 157 56 55 8 3 3 8 5 11 306 FP (%) 99 84 64 100 100 0 25 0 55

↑ FU cebada, avena, girasol y colza ~FU trigo, barbecho ↓FU

guisante, veza, pasto

CLASIFICADOR CON TRAINING EQUILIBRADO



Referencia Tot

FU (%)

Clasificación

Tr Ce

b Av Gir Col Gui

Vez

Pas Bar

Trigo 143 2 11 0 0 0 2 1 0 159 90 Cebada 0 51 0 0 0 0 1 0 0 52 98 Avena 8 1 43 0 0 0 0 0 0 52 83 Girasol 0 0 0 7 0 0 0 0 0 7 100

Colza 0 0 0 0 3 0 0 0 0 3 100 Guisante 1 0 0 0 0 0 0 0 0 1 0 Veza 2 1 1 0 0 3 4 0 0 11 36 Pastizales 1 0 0 0 0 0 0 3 2 6 50 Barbecho 2 1 0 1 0 0 1 1 9 15 60 Total 157 56 55 8 3 3 8 5 11 306 FP (%) 91 91 78 88 100 0 50 60 82

↑ FP trigo, cebada, girasol y colza ~FP avena, barbecho, pasto ↓FP

guisante, veza ↑ FU trigo, cebada, girasol y colza ~FU avena, barbecho ↓FU

guisante, veza, pasto

COMPARATIVA


Resultados globales:

Resultados por cultivo:

Fiabilidad del Productor Fiabilidad del Usuario



Orig. Equil.

FG (%) 84 86 kappa 0.74 0.79

ÁREA DE EJEMPLO



Training original Training equilibrado

ÁREA DE EJEMPLO



Parcelas de avena confundidas con trigo


ÁREA DE EJEMPLO




Parcelas de pastizal confundidas con trigo

ÁREA DE EJEMPLO




Parcelas de barbecho confundidas con trigo

ÁREA DE EJEMPLO




Parcelas de veza confundidas con trigo

ÁREA DE EJEMPLO




CONCLUSIONES


La realización de clasificaciones supervisadas utilizando como

entrenamiento muestras de tamaño desequilibrado puede afectar

negativamente a los resultados obtenidos en clasificadores Random Forests.

Este problema afecta de manera directa a la identificación de las clases

minoritarias que a menudo son incorrectamente asignadas a las clases

mayoritarias.

El reequilibrado de las muestras de entrenamiento se puede hacer de forma

sencilla mediante la creación de elementos sintéticos en las clases

minoritarias que aumenten su tamaño pero asegurando que respeten los

momentos estadísticos de las muestras originales.

Tras el reequilibrado los resultados mejoran significativamente.



LÍNEAS FUTURAS


Observar el impacto de el equilibrado de muestras en la incertidumbre de

la asignación de clases (% mayoría).

Comparar los resultados obtenidos con otras técnicas de equilibrado como

el sobre-muestreo de las clases minoritarias o SMOTE.

Extender el caso de uso a observaciones sobre zonas más amplias con un

mayor número de clases y más parcelas de entrenamiento y test.



AGRADECIMIENTOS


Departamento de Medio Ambiente y Desarrollo Rural del Gobierno de

Navarra.

Este trabajo ha sido financiado parcialmente por los siguientes proyectos:

-Agencia Espacial Canadiense: SOAR-EU 6774

-Plan Estatal de I+D+i, Retos: CGL2016-75217-R (AEI/FEDER, UE)

-Programa Programa Interreg V-A España-Francia-Andorra (POCTEFA 2014-

2020) (FEDER, UE): PyrenEOS EFA 048/15

REFERENCIAS: -Breiman, L. 2001. Random Forests. Machine Learning, 45(1): 5–32.

-Chawla, N.V., Bowyer, K.W., Hall, L.O. & Kegelmeyer, W.P. 20002. SMOTE: synthetic minority over-sampling technique, Journal of Artificial Intelligence Research, 16: 321–357. -Ho, T.K. 1998. The Random Subspace Method for Constructing Decision Forests, IEEE Transactions on Pattern Analysis and Machine Intelligence 20(8): 832–844. -Sun, Y., Wong A.C.& Kamel, M.S. 2009. Classification of imbalanced data: A review, International Journal of Pattern Recognition and A.I., 23(4): 687–719.



Documents

Presentación de PowerPoint - IDEARMidearm.imida.es/aet2017/contenidos/salaA/miercoles/07.Alvarez... · Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación