Upload
trantruc
View
225
Download
0
Embed Size (px)
Citation preview
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos
obtenida mediante Random Forests
Arantzazu Larrañaga1 y Jesús Álvarez-Mozos2
(1) Departamento de Ingeniería y Sistemas Territoriales, Tracasa (2) Departamento de Proyectos e Ingeniería Rural, Universidad Pública de Navarra ([email protected])
XVII Congreso de la AET, Murcia, 3-7 octubre
2017
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
INTRODUCCIÓN
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
La clasificación de cultivos es una de las principales
aplicaciones de la teledetección en el entorno agrícola.
La información sobre el cultivo implantado en cada
parcela es de utilidad para aplicaciones como:
-La gestión de la producción
-La predicción de cosechas
-El diseño de políticas agrarias
-La gestión de ayudas (PAC)
El procedimiento más habitual es la clasificación supervisada en la que
partiendo de una muestra de entrenamiento se establecen relaciones o
patrones que permiten inferir la clase de nuevos elementos (píxeles o
parcelas) a clasificar.
La irrupción de algoritmos de clasificación basados técnicas de aprendizaje
automático (Machine Learning) ha resultado en mejoras significativas frente
a clasificadores clásicos.
CONCLUSIONES AGRADECIMIENTOS
Trigo
Avena
Girasol
Colza
Guisantes
Cebada
Alfalfa
Habas Espárragos
Veza
Trigo
RANDOM FORESTS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
Random Forests (RF) es una herramienta de aprendizaje conjunto (ensemble
learning) propuesta por Breiman (2001) que es utilizada principalmente
como una herramienta supervisada de clasificación y regresión.
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Se basa en la construcción automática de
múltiples árboles de decisión (decisión tree, DT) a
partir de un conjunto de datos de entrenamiento
formado por n observaciones (samples) y m
variables explicativas (features).
Cada DT se va construyendo mediante la división
del conjunto de datos de entrenamiento en
sucesivos nodos utilizando la feature que maximice
el índice de desigualdad de Gini.
Los árboles se despliegan hasta su nivel máximo (unprunned trees) lo que
permite aprender patrones de gran irregularidad, sin embargo esto hace
que tiendan al sobreajuste de los datos de entrenamiento (overfitting o
overtraining).
árbol de decisión
RANDOM FORESTS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
Para para evitar el sobreajuste y garantizar que los árboles son distintos RF
incorpora dos procedimientos:
-Selección aleatoria de p (p<m) variables explicativas en los nodos (random
subspace method) (Ho, 1998)
-Empaquetado (bagging o bootstrapping) de los datos de entrada
mediante un muestreo aleatorio y con reemplazo de 2/3 · n (Breiman, 2001)
Los únicos parámetros de ajuste son el número de árboles del RF (k) y el
número de features a considerar en cada nodo (p).
Una vez construido un RF los elementos a clasificar se asignan en votación
por mayoría (moda) de los árboles individuales.
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
RANDOM FORESTS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
RF es flexible en cuanto a la tipología y distribución de probabilidad de
datos de entrada y eficiente desde el punto de vista computacional, otros
aspectos interesantes son:
-Cálculo de una medida interna de error (out of bag error o oob error).
-Valoración de la importancia de las variables por nº nodos o por
permutación.
-Se puede conocer el grado de incertidumbre de la clase asignada (%
mayoría).
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
RANDOM FORESTS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
Desde su desarrollo RF se ha utilizado para multitud de aplicaciones y sus
resultados han superado a los obtenidos por clasificadores convencionales
en distintos contextos.
Su uso en el ámbito de la teledetección se ha generalizado y
se han publicado multitud de estudios con resultados positivos.
Varias herramientas incorporan RF (R, py, Matlab, Weka,
SNAP, Envi, PCI Geomatics, etc.)
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Fuente: Web of Science, 2017
DESEQUILIBRIO MUESTRAL
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
En problemas de clasificación que usan datos de entrenamiento
desequilibrados (distinto número de muestras por cada clase), tras el
bagging se tienden a generar árboles que favorecen la asignación a las
clases mayoritarias y dificultan la correcta clasificación de las clases menos
frecuentes.
Esto puede constituir una limitación importante de esta herramienta en
determinados contextos (e.g., detección de vertidos en el mar,
delineación de zonas inundadas o zonas afectadas por incendios
forestales, etc.).
En los últimos años se han propuesto técnicas para superar esta limitación
como entre otras (Sun et al., 2009):
-Sub-muestreo de las clases mayoritarias
-Sobre-muestreo de las clases minoritarias
-Ponderación en la asignación en función del tamaño de la clase
asignada
-…
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
OBJETIVO
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
El objetivo de este estudio es implementar una metodología de
equilibrado muestral basada en la generación de elementos sintéticos en
las clases minoritarias de forma que su tamaño se incremente hasta
alcanzar el de las clases mayoritarias.
La metodología implementada se aplicará a un caso de uso de
clasificación de cultivos utilizando imágenes radar en el que se valorará el
beneficio frente a la clasificación con los datos de entrenamiento sin
equilibrar.
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
ZONA DE ESTUDIO
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
-Zonas agrícolas que rodean
la ciudad de Pamplona
(Navarra).
-Topografía ondulada: zonas
cultivadas en valles,
pastizales y bosques en
zonas más escarpadas.
-Parcelas pequeñas (~1-3
ha).
-Área de estudio de
25x25km
-Cultivos de secano (trigo
55%, cebada 16%, avena
15%, girasol, colza,
guisantes, veza, pastizales y
barbecho).
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Fuente:
CULTIVOS A CLASIFICAR
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Cebada Trigo Avena
Girasol Colza Veza Guisante
Pastizales Barbecho
Calendario agrícola
Cultivo I II III IV V VI VII VIII IX X XI XII
Cebada
Trigo
Avena
Girasol
Colza
Guisante
Veza
Siembra Cosecha
IMÁGENES UTILIZADAS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
RADARSAT-2 Fine Quad-Pol (FQ8) (HH, HV, VH, VV)
Cobertura: 25 km x 25 km
Resolución: 5,4 m (rango) x 8,0 m (azimut)
3 adquisiciones: 12/05/2010, 5/06/2010 y 29/06/2010
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
IMÁGENES UTILIZADAS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
RADARSAT-2 Fine Quad-Pol (FQ8)
Cobertura: 25 km x 25 km
Resolución: 5,4 m (rango) x 8,0 m (azimut)
3 adquisiciones: 12/05/2010, 5/06/2010 y 29/06/2010
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
RADARSAT-2, 12/05/2010 RGB (HH, HV, VV)
RADARSAT-2, 05/06/2010 RGB (HH, HV, VV)
RADARSAT-2, 29/06/2010 RGB (HH, HV, VV)
IMÁGENES UTILIZADAS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
RADARSAT-2 Fine Quad-Pol (FQ8) (HH, HV, VH, VV)
Cobertura: 25 km x 25 km
Resolución: 5,4 m (rango) x 8,0 m (azimut)
3 adquisiciones: 12/05/2010, 5/06/2010 y 29/06/2010
Procesado en SNAP:
-Calibración (b0)
-Filtrado del moteado (GammaMAP 3x3)
-Ortorrectificación (Range Doppler TC)
-Corrección topográfica (s0LIA=b0·qINC)
-Cálculo de ratios de polarización directa y cruzada
Cálculo en PolSARpro de los siguientes parámetros
polarimétricos:
-Coherencia y diferencia de fase de polarización directa
(|rHHVV|, fHHVV)
-Descomposición de Cloude-Pottier (H, a1, a, A)
En total 11 variables explicativas (features) x 3 imágenes = 33
features
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
VERDAD CAMPO
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
Datos de inspecciones de la PAC de 2010 (Dpto. M.A. Des. Rural, Gob.
Navarra)
Tasa de muestreo 5% (928 parcelas, ~1600 ha)
Training 2/3 + Test 1/3
La unidad de trabajo es la parcela agrícola.
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Cultivo Total Training Test Trigo 476 317 159
Cebada 168 112 56
Avena 165 110 55
Barbecho 34 23 11
Veza 26 17 9
Girasol 24 16 8
Pastizales 17 11 6
Colza 10 7 3
Guisantes 8 5 3
EQUILIBRADO DE MUESTRAS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
Para equilibrar las muestras se implementó un procedimiento basado en el
sobre-muestreo de las clases minoritarias, pero en lugar de simplemente
remuestrear o replicar estas clases, se generaron elementos (parcelas)
sintéticos perturbando aleatoriamente los elementos originales sin alterar los
momentos estadísticos (media, varianza y asimetría) de las muestras
originales.
donde, x’ es la permutación de un elemento x, Y es un numero real aleatorio
entre -1 y 1, s es la desviación típica de la clase y k es un coeficiente de
optimización para mantener los momentos de la muestra original.
La técnica es similar a Synthetic Minority Over-sampling Technique (SMOTE)
(Chawla et al., 2002).
Los elementos sintéticos generados permiten igualar el tamaño muestral de
las clases al de la clase mayoritaria (trigo, 317 elementos).
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
𝑥′ = 𝑥 + 𝑌𝜎
𝑘
EQUILIBRADO DE MUESTRAS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
EQUILIBRADO DE MUESTRAS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
𝑥′ = 𝑥 + 𝑌𝜎
𝑘
CLASIFICADOR
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
El clasificador RF se entrenó con los datos originales y con los equilibrados, en
ambos casos se ajustó el nº de árboles a k=200 y el nº de variables a
considerar en cada nodo a p=5.
Los resultados de las clasificaciones obtenidas se valoraron mediante las
matrices de confusión obtenidas con la muestra independiente de test, en
términos de:
-Fiabilidad global
-Coeficiente kappa
-Fiabilidad del productor
-Fiabilidad del usuario
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
CLASIFICADOR CON TRAINING ORIGINAL (DESEQUILIBRADO)
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
↑ FP trigo, girasol y colza ~FP cebada, avena ↓FP guisante, veza, pasto,
barbecho
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Referencia Tot
FU (%)
Clasificación
Tr Ce
b Av Gir Col Gui
Vez
Pas Bar
Trigo 156 8 20 0 0 0 5 4 5 198 79 Cebada 0 47 0 0 0 0 1 0 0 48 98 Avena 1 0 35 0 0 0 0 0 0 36 97 Girasol 0 0 0 8 0 0 0 0 0 8 100
Colza 0 0 0 0 3 0 0 0 0 3 100 Guisante 0 0 0 0 0 0 0 0 0 0 - Veza 0 0 0 0 0 3 2 0 0 5 40 Pastizales 0 1 0 0 0 0 0 0 0 1 0 Barbecho 0 0 0 0 0 0 0 1 6 7 86 Total 157 56 55 8 3 3 8 5 11 306 FP (%) 99 84 64 100 100 0 25 0 55
↑ FU cebada, avena, girasol y colza ~FU trigo, barbecho ↓FU
guisante, veza, pasto
CLASIFICADOR CON TRAINING EQUILIBRADO
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Referencia Tot
FU (%)
Clasificación
Tr Ce
b Av Gir Col Gui
Vez
Pas Bar
Trigo 143 2 11 0 0 0 2 1 0 159 90 Cebada 0 51 0 0 0 0 1 0 0 52 98 Avena 8 1 43 0 0 0 0 0 0 52 83 Girasol 0 0 0 7 0 0 0 0 0 7 100
Colza 0 0 0 0 3 0 0 0 0 3 100 Guisante 1 0 0 0 0 0 0 0 0 1 0 Veza 2 1 1 0 0 3 4 0 0 11 36 Pastizales 1 0 0 0 0 0 0 3 2 6 50 Barbecho 2 1 0 1 0 0 1 1 9 15 60 Total 157 56 55 8 3 3 8 5 11 306 FP (%) 91 91 78 88 100 0 50 60 82
↑ FP trigo, cebada, girasol y colza ~FP avena, barbecho, pasto ↓FP
guisante, veza ↑ FU trigo, cebada, girasol y colza ~FU avena, barbecho ↓FU
guisante, veza, pasto
COMPARATIVA
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
Resultados globales:
Resultados por cultivo:
Fiabilidad del Productor Fiabilidad del Usuario
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Orig. Equil.
FG (%) 84 86 kappa 0.74 0.79
ÁREA DE EJEMPLO
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Training original Training equilibrado
ÁREA DE EJEMPLO
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Parcelas de avena confundidas con trigo
Training original Training equilibrado
ÁREA DE EJEMPLO
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Training original Training equilibrado
Parcelas de pastizal confundidas con trigo
ÁREA DE EJEMPLO
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Training original Training equilibrado
Parcelas de barbecho confundidas con trigo
ÁREA DE EJEMPLO
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Training original Training equilibrado
Parcelas de veza confundidas con trigo
ÁREA DE EJEMPLO
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
Training original Training equilibrado
CONCLUSIONES
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
La realización de clasificaciones supervisadas utilizando como
entrenamiento muestras de tamaño desequilibrado puede afectar
negativamente a los resultados obtenidos en clasificadores Random Forests.
Este problema afecta de manera directa a la identificación de las clases
minoritarias que a menudo son incorrectamente asignadas a las clases
mayoritarias.
El reequilibrado de las muestras de entrenamiento se puede hacer de forma
sencilla mediante la creación de elementos sintéticos en las clases
minoritarias que aumenten su tamaño pero asegurando que respeten los
momentos estadísticos de las muestras originales.
Tras el reequilibrado los resultados mejoran significativamente.
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
LÍNEAS FUTURAS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
Observar el impacto de el equilibrado de muestras en la incertidumbre de
la asignación de clases (% mayoría).
Comparar los resultados obtenidos con otras técnicas de equilibrado como
el sobre-muestreo de las clases minoritarias o SMOTE.
Extender el caso de uso a observaciones sobre zonas más amplias con un
mayor número de clases y más parcelas de entrenamiento y test.
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests
AGRADECIMIENTOS
INTRODUCCIÓN MATERIALES Y MÉTODOS RESULTADOS
Departamento de Medio Ambiente y Desarrollo Rural del Gobierno de
Navarra.
Este trabajo ha sido financiado parcialmente por los siguientes proyectos:
-Agencia Espacial Canadiense: SOAR-EU 6774
-Plan Estatal de I+D+i, Retos: CGL2016-75217-R (AEI/FEDER, UE)
-Programa Programa Interreg V-A España-Francia-Andorra (POCTEFA 2014-
2020) (FEDER, UE): PyrenEOS EFA 048/15
REFERENCIAS: -Breiman, L. 2001. Random Forests. Machine Learning, 45(1): 5–32.
-Chawla, N.V., Bowyer, K.W., Hall, L.O. & Kegelmeyer, W.P. 20002. SMOTE: synthetic minority over-sampling technique, Journal of Artificial Intelligence Research, 16: 321–357. -Ho, T.K. 1998. The Random Subspace Method for Constructing Decision Forests, IEEE Transactions on Pattern Analysis and Machine Intelligence 20(8): 832–844. -Sun, Y., Wong A.C.& Kamel, M.S. 2009. Classification of imbalanced data: A review, International Journal of Pattern Recognition and A.I., 23(4): 687–719.
CONCLUSIONES AGRADECIMIENTOS
Influencia del equilibrio en el tamaño de muestra de entrenamiento en la clasificación de cultivos obtenida mediante Random Forests