Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
1
“Identificación de peatones en imágenes aéreas con redes neuronales
explicativas y fusión de sensores.”
Por
José de Jesús Velázquez Arreola
Tesis sometida como requisito parcial para obtener el grado de:
Maestría en Ciencias en el área de Ciencia y
Tecnología del Espacio en el
Instituto Nacional de Astrofísica, Óptica y Electrónica.
Supervisada por:
Dra. Raquel Díaz Hernández
Sta. Ma. Tonantzintla, Cholula, Puebla
Febrero, 2019
©INAOE 2019
Derechos Reservados
El autor otorga al INAOE el permiso de reproducir y distribuir copias de esta tesis en su totalidad o en partes.
2
IDENTIFICACIÓN DE PEATONES EN
IMÁGENES AÉREAS CON REDES
NEURONALES EXPLICATIVAS Y
FUSIÓN DE SENSORES
3
Resumen
Los inicios de la observación de la Tierra son referenciados a la primera
guerra mundial, al montar cámaras normales en aviones de reconocimiento
para identificar las posiciones y movimientos de las tropas enemigas. Esta
tecnología fue evolucionando con el pasar de los años, permitiendo montar
sensores multiespectrales en satélites para obtener imágenes de la Tierra
para diferentes estudios de la misma. Sin embargo, desarrollar tecnología
satelital es costosa y tiene como una limitante las resoluciones que se
pueden obtener en estas imágenes para propósitos específicos. Los
vehículos aéreos no tripulados (UAV) cubren estas limitaciones. Por esta
razón, los UAV son ampliamente utilizados, por ejemplo, en seguridad
nacional, topografía, minería, búsqueda y rescate. Este último es la
motivación del presente trabajo de tesis. Obteniendo información de una
cámara en el espectro visible y una segunda cámara con respuesta espectral
en el infrarrojo de longitud de onda larga, la cámara térmica aporta
información importante principalmente en escenarios con poca luminosidad.
Se clasifican las imágenes haciendo uso de dos redes neuronales
convolucionales (CNN), una para cada tipo de imagen. Estas redes son
entrenadas con imágenes obtenidas de la base de datos KAIST, que consta
de una secuencia de imágenes visibles y térmicas con peatones etiquetados,
en escenarios de día y de noche para tener datos con cambios de
luminosidad que se puede presentar en actividades diarias. Posteriormente
se implementa el método Layer-wise Relevance Propagation que permite
visualizar a través de un mapa de calor aquellos pixeles que fueron
relevantes para la decisión de las redes neuronales, finalizando el proceso
con la fusión de la información obtenida de las redes neuronales aplicando
una arquitectura de la fusión por decisión. Con esta metodología se obtiene
4
94.98% de exactitud al realizar la clasificación de las imágenes, para definir
la presencia o la ausencia personas en la escena en cuestión.
Abstract
The beginnings of the observation of the Earth are referenced to the first
world war, with the mounting of normal cameras on reconnaissance aircraft to
identify the positions and movements of the enemy troops. This technology
evolved over the years, allowing the installation of multispectral sensors in
satellites to obtain images of the Earth for different studies. However,
developing this technology is very expensive and has as a limitation the
resolutions that can be obtained in these images for specific purposes.
Unmanned aerial vehicles (UAV) cover these limitations. For this reason,
UAVs are widely used, for example, in national security, surveying, mining,
search and rescue. The latter is the motivation for the present thesis.
Obtaining information from a camera in the visible spectrum (RGB) and a
second camera with long wavelength infrared spectral range (LWIR), the
thermal camera provides important information mainly in poor light scenes.
The images are classified using two convolutional neural networks (CNN),
one for each type of image. These networks are trained with images obtained
from the KAIST database, which consists of a sequence of visible and
thermal images with pedestrians labeled, in day and night times, to have data
with changes in luminosity that can occur in daily activities. Afterwards, the
Layer-wise Relevance Propagation method is implemented, which allows to
visualize through a heatmap those pixels that were relevant for the decision
of the neural networks, ending the process with the fusion of the information
obtained from the neural networks applying an architecture of score fusion.
With this methodology 94.98% accuracy is obtained when classifying the
images, to define the presence or absence of person in the scene.
5
Agradecimientos
Agradezco al Consejo Nacional de Ciencia y Tecnología (CONACYT) por la
beca otorgada, la cual sustentó mis estudios durante este periodo,
permitiendo lograr esta meta personal.
Al Instituto Nacional de Astrofísica, Óptica y Electrónica por todo el apoyo
recibido de todo tipo. A los doctores y compañeros que hoy en día son mis
amigos les digo ¡gracias!, gracias por compartir su conocimiento, alentar y
motivar mis deseos de seguir el camino de la ciencia.
Gracias a la Dra. Raquel Díaz Hernández, quien ha sido y es parte
importante en el desarrollo de este trabajo de tesis y sobre todo por sus
consejos que desde un inicio de esta maestría me ha brindado.
Gracias al Dr. Leopoldo Altamirano Robles por la atención brindada,
aportando sus conocimientos, ideas y las herramientas necesarias para esta
tesis.
A mi equipo de trabajo del Laboratorio de Percepción Autónoma,
particularmente al M.C. Ariel, le agradezco por compartir sus conocimientos
para el desarrollo de este trabajo y a la M.C. Andrea por la motivación y
conocimientos compartidos, gracias.
6
Dedicatorias
Dedico este trabajo a mi familia, por ser mi soporte y mi principal inspiración
para alcanzar este sueño y los que están por venir. Sin su apoyo nada de
esto sería posible. Gracias a mi padre, por las grandes enseñanzas que me
has dado a lo largo de la vida, en especial a no darme por vencido ante
cualquier dificultad. Gracias por estar en cada momento presente, por guiar
mis pasos. A mi madre le doy las gracias, por estar siempre al pendiente de
mi salud, mis ánimos y sobre todo de no abandonar mis sueños, por
recordarme a diario la presencia de Dios en cada paso que doy, por estas
razones y muchas más también te dedico este trabajo. A mis hermanas
también les quiero dedicar este trabajo y agradecerles todo el apoyo
incondicional que me han dado a lo largo de la vida, por los hermosos
sobrinos que me han dado, que también son parte de mi motivación. A todos
ustedes les agradezco por hacerme sentir amado aún en la distancia. Por
último, pero no menos importante quiero dedicar este trabajo a Dios. Gracias
a ti que me has ido permitiendo descubrir la inmensidad de tu creación, sobre
todo por encontrarte en cada paso que doy y en toda persona con la que
convivo en el día a día, por ver gran amor que me tienes.
7
Tabla de contenido Resumen .................................................................................................................. 3
Abstract .................................................................................................................... 4
Agradecimientos ....................................................................................................... 5
Dedicatorias .............................................................................................................. 6
Tabla de contenido ................................................................................................... 7
Índice de figuras. ...................................................................................................... 8
Índice de tablas. ..................................................................................................... 12
Introducción ............................................................................................................ 13
1.1 Motivación. .................................................................................................................. 15
1.2 Justificación ................................................................................................................ 15
1.3 Objetivos ..................................................................................................................... 16
1.3.1 Objetivo general ................................................................................................. 16
1.3.2 Objetivos específicos ......................................................................................... 16
1.4 Alcances y Limitaciones ........................................................................................... 17
1.4.1 Alcances .............................................................................................................. 17
1.4.2 Limitaciones ........................................................................................................ 17
1.5 Estructura del documento ........................................................................................ 17
Marco Teórico ......................................................................................................... 19
2.1 La observación de la tierra con imágenes aéreas. .............................................. 19
2.2 Fundamentos teóricos .............................................................................................. 22
2.3 Técnicas de aprendizaje automático ...................................................................... 23
2.3.1 Máquina de soporte vectorial (SVM) ............................................................... 24
2.3.2 Árboles de decisión ............................................................................................ 25
2.3.3 K-NN (Vecino más cercano) ............................................................................. 25
2.3.4 Redes Neuronales ............................................................................................. 26
2.4. Métodos Explicativos de Técnicas de Aprendizaje Automático. ....................... 32
2.4.1 Método Layer-wise Relevance Propagation. ................................................. 33
2.5 Fusión Profunda en Redes Neuronales Convolucionales. ................................. 36
Trabajo Relacionado ............................................................................................... 39
3.1 Identificación de peatones con fusión de sensores. ............................................ 40
8
Trabajo desarrollado ............................................................................................... 43
4.1 Base de datos KAIST. ............................................................................................... 43
4.2 Imágenes de entrenamiento y prueba. .................................................................. 45
4.3 LRP .............................................................................................................................. 48
4.4 Fusión de información. ............................................................................................. 52
4.4.1 Fusión Máscaras. ............................................................................................... 52
4.4.2 Fusión Media IR ................................................................................................. 54
4.4.3 Fusión Media IR + Máscara RGB .................................................................... 57
4.4.4 Fusión Media IR + Score NN RGB. ................................................................. 58
4.5 Conclusión del capítulo. ........................................................................................... 59
Resultados y discusión ........................................................................................... 60
5.1 Resultados del entrenamiento de las Redes Neuronales. .................................. 60
5.2 Máscaras. ................................................................................................................... 61
5.3 Heatmaps.................................................................................................................... 62
5.4 Resultados Finales .................................................................................................... 64
5.5 Conclusión del capítulo. ........................................................................................... 74
Conclusiones y trabajo futuro. ................................................................................. 75
6.1 Conclusiones. ............................................................................................................. 75
6.2 Principales contribuciones. ...................................................................................... 77
6.3 Trabajo Futuro............................................................................................................ 77
Referencias ............................................................................................................ 78
Índice de figuras. Figura 1. Espectro electromagnético, obtenida de [6] ................................... 23
Figura 2. Espectro electromagnético Infrarrojo, obtenida de [8].................... 23
Figura 3. Técnicas de aprendizaje automático: aprendizaje supervisado y
aprendizaje no supervisado. ......................................................................... 24
Figura 4. Desafíos que se presenta en la clasificación de objetos en un
sistema computacional, obtenido de [12]. ..................................................... 28
Figura 5. Estructura de una neurona real y una neurona artificial, obtenido de
[12]. ............................................................................................................... 29
9
Figura 6. Ejemplo de una red neuronal. ........................................................ 29
Figura 7. Estructura de una Red Neurona Profunda (DNN) .......................... 30
Figura 8. Estructura de una Red Neuronal Convolucional (CNN) ................. 31
Figura 9. Estructura de una Red Neuronal Recurrente (RNN) ...................... 32
Figura 10. Diagrama de una red neuronal convolucional y la explicación por
el método LRP .............................................................................................. 36
Figura 11. Seis arquitecturas de fusión que integran modalidades de color y
térmicas en diferentes etapas: (a) Input Fusion, (b) Early Fusion (c) Halfway
Fusion (d) Late Fusion (e) Score Fusion I (f) Score Fusion II. Obtenido de [14]
...................................................................................................................... 38
Figura 12. Comparación de los seis arquitecturas de fusión en términos de
MR, figura obtenida de [14] ........................................................................... 42
Figura 13. Esquema general de la metodología desarrollada en este trabajo
de tesis ......................................................................................................... 43
Figura 14. Ejemplo de pares de imágenes de las etiquetas dentro de la base
de datos KAIST. Obtenido de [17] ................................................................ 44
Figura 15. Ejemplos de imágenes omitidas para el proceso de entrenamiento.
(a) imágenes muy obscuras, (b) imágenes con altura inferior a 45 pixeles que
dificulta el reconocimiento. (c) imagen de persona ocluida más de un 50% del
cuerpo. .......................................................................................................... 45
Figura 16. Ejemplo de pares de imágenes empleado para la etapa de
pruebas. Las imágenes de la izquierda corresponden a imágenes RGB y las
imágenes a la derecha corresponde a su par en el canal térmico. (a) captura
realizada en el día y (b) captura realizada en condiciones nocturnas. .......... 46
Figura 17. Proceso de redimensionado de las imágenes de para crear el
dataset. Las imágenes son redimensionadas a un tamaño de 32x32 pixeles
...................................................................................................................... 46
Figura 18. Proceso de conversión de matriz a vector. .................................. 47
Figura 19. En la matriz de entrenamiento m = 20000 y para el dataset de
prueba m = 3018. .......................................................................................... 47
Figura 20. Arquitectura de las redes neuronales entrenadas. ...................... 48
Figura 21. Comparación de mapas de calor con el método Alpha-Beta,
Épsilon y el método Simple. La fila superior corresponde a los heatmaps de
la imagen térmica y la fila inferior los heatmaps de la imagen RGB. ............ 50
Figura 22. Comparación de los mapas de calor en la red neuronal entrenada
para imágenes térmicas. (b) corresponde la primera convolución. (c)
corresponde la 2da. convolución. (d) corresponde la 3ra convolución. (e)
corresponde la 4ta convolución. (f) corresponde la última capa de la red
neuronal. ....................................................................................................... 51
10
Figura 23. Comparación de los mapas de calor en la red neuronal entrenada
para imágenes RGB. (b) corresponde la primera convolución. (c)
corresponde la 2da. convolución. (d) corresponde la 3ra convolución. (e)
corresponde la 4ta convolución. (f) corresponde la última capa de la red
neuronal. ....................................................................................................... 51
Figura 24. Esquema de la arquitectura de Fusión Máscaras. ....................... 53
Figura 25. Media de las imágenes IR. (a) Valores obtenidos al calcular la
media para imágenes IR capturadas de día. (b) Valores obtenidos al calcular
la media para imágenes IR capturadas de noche. ........................................ 55
Figura 26. Media de las imágenes RGB. (a) Valores obtenidos al calcular la
media para imágenes RGB capturadas de día. (b) Valores obtenidos al
calcular la media para imágenes RGB capturadas de noche. ...................... 56
Figura 27.Esquema de la arquitectura de Fusión Media IR .......................... 57
Figura 28. Esquema de la arquitectura de Fusión Media IR + Máscara RGB
...................................................................................................................... 58
Figura 29.Esquema de la arquitectura de Fusión Media IR + Score NN RGB.
...................................................................................................................... 59
Figura 30. Figura de máscaras creadas con el método Otsu. a) imagen
original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a
la imagen LWIR, c) Imagen original en escala grises de la cámara RGB, d)
máscara resultante al aplicar el método Otsu a la imagen RGB. .................. 62
Figura 31. Mapa de colores JET. .................................................................. 62
Figura 32. Figura de los mapas de calor (heatmaps) creadas con el método
LRP. a) imagen original de la cámara LWIR, b) heatmap resultante al aplicar
el método LRP a la imagen LWIR, c) Imagen original en escala grises de la
cámara RGB, d) heatmap resultante al aplicar el método LRP a la imagen
RGB .............................................................................................................. 64
Figura 33. Resultados comparativos de exactitud de las redes neuronales
RGB, LWIR y los diferentes casos al realizar la Fusión. ............................... 65
Figura 34. Comparación de las predicciones realizadas en los casos en
donde las redes neuronales RGB y LWIR discrepan entre ellas. ................. 66
Figura 35. a) imagen original de la cámara LWIR, b) máscara resultante al
aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el
método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen
original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método
LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 67
Figura 36. a) imagen original de la cámara LWIR, b) máscara resultante al
aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el
método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen
11
original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método
LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 68
Figura 37. a) imagen original de la cámara LWIR, b) máscara resultante al
aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el
método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen
original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método
LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 69
Figura 38. a) imagen original de la cámara LWIR, b) máscara resultante al
aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el
método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen
original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método
LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 70
Figura 39. a) imagen original de la cámara LWIR, b) máscara resultante al
aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el
método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen
original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método
LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 71
Figura 40. a) imagen original de la cámara LWIR, b) máscara resultante al
aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el
método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen
original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método
LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 72
Figura 41. a) imagen original de la cámara LWIR, b) máscara resultante al
aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el
método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen
original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método
LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 73
Figura 42. a) imagen original de la cámara LWIR, b) máscara resultante al
aplicar el método Otsu a la imagen LWIR, c) Heatmap resultante al aplicar el
método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen
original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método
LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 73
12
Figura 43. a) imagen original de la cámara LWIR, b) máscara resultante al
aplicar el método Otsu a la imagen LWIR, c) heatmap resultante al aplicar el
método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen
original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) heatmap resultante al aplicar el método
LRP a la imagen RGB, h) Traslape de la imagen e) y g). ............................. 74
Índice de tablas.
Tabla 1. Tabla comparativa de trabajos relacionados con esta tesis. ........... 39
Tabla 2. Tabla de resultados obtenidos en [16] ............................................ 41
Tabla 3. Reglas de decisión para fusión máscaras. ...................................... 52
Tabla 4. Reglas de decisión para etapa de fusión media IR. ........................ 56
Tabla 5. Reglas de decisión para etapa de fusión media IR + máscara RGB.
...................................................................................................................... 58
Tabla 6. Reglas de decisión para etapa de fusión media IR + Score NN RGB
previo a aplicar el método LRP. .................................................................... 59
Tabla 7. Tabla de resultados de exactitud obtenidos en el proceso de
entrenamiento en las redes neuronales. ....................................................... 61
13
Capítulo 1
Introducción
Los sistemas de identificación de personas en imágenes son ampliamente
estudiados y desarrollados para la aplicación en las áreas de seguridad
nacional, búsqueda y rescate, flujo peatonal, entre otros. México tiene una
gran extensión territorial con diferentes regiones naturales y, todos años se
ve afectado por fenómenos hidrometeorológicos, sismológicos, geológicos,
etc. que pone en riesgo la vida de personas. Una eventualidad como esta
puede suscitarse en cualquier momento del día, bajo diferentes condiciones
atmosféricas. Cuando un grupo de personas se encuentra en peligro durante
algún fenómeno natural, desconociendo su paradero y necesitan ser recatas,
el tiempo de reacción el equipo de rescate tiene que ser el mínimo para
salvaguardar las vidas de las personas. En México no se puede disponer
siempre con helicópteros para realzar una búsqueda aérea, el procedimiento
de búsqueda se realiza a pie, tardando horas o incluso días en poder
localizar a las personas extraviadas. Los vehículos aéreos no tripulados
(UAV) con un costo accesible y la capacidad de incorporar sensores sobre
ellos, permite equipar estos dispositivos para diferentes aplicaciones en
distintas áreas, por ejemplo, en la topografía, agricultura e incluso en
búsqueda y rescate. El presente trabajo de tesis tiene como principal
motivación la identificación de peatones con la aplicación de búsqueda y
rescate en casos de emergencias y desastres. Típicamente sistemas de
búsqueda y rescate emplean un solo sensor, por ejemplo, una cámara a
color (RGB) o cámara térmica. Usar sólo un sensor están limitadas en ciertas
circunstancias. La cámara RGB se puede ver limitada en condiciones a baja
iluminación y la cámara en del rango térmico del espectro electromagnético
14
se ve limitado en escenarios con altas temperaturas dónde el objeto de
interés se confunde con el fondo o algún otro objeto que se encuentre a la
misma temperatura.
Por otra parte, automatizar el proceso de identificación de objetos requiere
de técnicas de aprendizaje automático, las redes neuronales convolucionales
(CNN), máquinas de soporte vectorial (SVM) o los árboles de decisión, son
algunos ejemplos de estas técnicas. En este trabajo se implementará la
CNN, este tipo de red neuronal es la más utilizada el análisis de imágenes y
clasificar los objetos por la arquitectura que posee. AlexNet y GoogleNet son
algunas de las redes neuronales convolucionales implementadas en distintas
aplicaciones por su gran capacidad de identificación. Las CNN dentro de su
estructura tiene unas capas a las que se les llama “capas ocultas”, debido a
que se desconoce el aprendizaje adquirido en la etapa de aprendizaje, por tal
motivo, estas capas se pueden considerar como una “caja negra”, al no
saber cuál o cuáles fueron las características importantes en la clasificación
realizada por la CNN. En los últimos años, se han propuesto algunos
métodos como se exponen en [1] y [2] para identificar los pixeles con mayor
relevancia en el proceso de clasificación por la red neuronal, permitiendo de
cierta manera el dar una explicación al resultado obtenido por la CNN.
En el presente trabajo, se propone la identificación de personas empleando
dos sensores, una cámara en el espectro visible y una cámara infrarroja de
longitud de onda larga, las redes neuronales convolucionales para su
clasificación y el uso del método Layer-wase Relevance Propagation (LRP)
propuesto en [1] para su explicación de la misma. Se finaliza el proceso con
la fusión de la información de los sensores, obteniendo como resultado final
la clasificación (Ausencia o Presencia de persona) y los mapas de índices de
relevancia que representan los pixeles que fueron importantes para la
identificación del objeto por la CNN.
15
1.1 Motivación.
México por su gran extensión y variedad de regiones naturales es catalogado
como un lugar principal de visita para de la población fanática de la
excursión. En Puebla existen dos montañas principales para practicar esta
actividad, los volcanes “La Malinche” e “Iztaccíhuatl”. Personas inexpertas o
que desconocen de las rutas existentes para escalar los volcanes, se pierden
o resultan lesionadas en el trayecto. El tiempo para su localización es de vital
importancia para salvar la vida es estas personas. Actualmente en México la
actividad de búsqueda y rescate de personas extraviadas en alta montaña,
se ve limitada a las actividades que pueden realizar los rescatistas,
generalmente ésta búsqueda es realizada a pie y durante la luz del día. Esta
tesis es motivada por este hecho, para crear un sistema pueda identificar la
presencia de personas en imágenes aéreas, por ejemplo, imágenes
capturadas desde un UAV, empleando dos cámaras, una operando en el
rango visible y la otra en el rango infrarrojo térmico del espectro
electromagnético y, con ello resolver la problemática que se podría presentar
al emplear una de ellas. La identificación se realiza por redes neuronales
convolucionales, entrenadas para la identificación de personas y a su vez
implementar un método explicativo LRP que le permita al operador
corroborar la identificación hechas por las redes neuronales.
1.2 Justificación
La identificación de objetos en imágenes aéreas se aplica para diferentes
estudios en la observación de la Tierra, uno de ellos es la identificación de
objetos en estas imágenes aéreas, por ejemplo, la identificación de
personas. Esto presenta varios retos, entre ellos se tienen las variaciones de
intensidad lumínica y la correcta identificación de los objetos de interés. En
16
ese sentido las técnicas automáticas, como lo son las redes neuronales
convolucionales, mejoran el procedimiento. Sin embargo, en nuestra
aplicación, es necesario que un experto corrobore el resultado obtenido por
la CNN y realizarlo sin tener un método explicativo incorporado en el sistema,
puede volverse algo complicado o tardado.
1.3 Objetivos
1.3.1 Objetivo general
Realizar una metodología propia para la identificación de peatones en
imágenes aéreas adquiridas desde un vehículo aéreo no tripulado
empleando redes neuronales convolucionales, el método explicativo Layer-
wise Relevance Propagation y fusión información obtenida de datos de
sensores.
1.3.2 Objetivos específicos
Crear un conjunto de datos de imágenes visibles y térmicas del mismo
escenario. El conjunto de datos servirá para el entrenamiento y
pruebas de las redes neuronales.
Entrenar dos redes neuronales convolucionales, una para cada tipo de
imagen, que permita la identificación de la presencia o ausencia de
personas en la escena.
Aplicar un método de explicación de inteligencia artificial para la
obtención los pixeles relevantes de las redes neuronales.
Fusionar la información obtenida de los resultados de la clasificación
de las redes neuronales.
17
1.4 Alcances y Limitaciones
1.4.1 Alcances
Los sistemas de aprendizaje automático clasificarán el conjunto de
datos de prueba con altos índices de exactitud y precisión con
referencia a trabajos previos.
La aplicación de la metodología explicativa permitirá corroborar las
predicciones realizadas por las redes neuronales y observar el
comportamiento de éstas en la clasificación.
La implementación de las redes neuronales separadas permitirá que
en la etapa de fusión se resuelva favorablemente los casos en dónde
las clasificaciones de las redes neuronales sean discrepantes.
1.4.2 Limitaciones
Lograr que una CNN tenga un índice alto de exactitud y precisión, es
necesario contar con un gran número de imágenes para realizar el
entrenamiento de la red neuronal, además, de un poder
computacional alto, modo tal que la CNN aprenda una gran cantidad
de características de los objetos a identificar.
1.5 Estructura del documento
Para describir de manera detallada los conceptos necesarios para la
realización de este trabajo de tesis, el documento presentado tiene la
siguiente estructura:
Capítulo 1: Introducción, en este capítulo se explica el planteamiento del
problema, la justificación. Así mismo se puntualizan los objetivos, los
alcances y limitaciones de este trabajo de tesis.
18
Capítulo 2: Marco teórico, se presentan los planteamientos teóricos que
sustentan el desarrollo de esta tesis. Se ofrecen conceptos generales de las
técnicas utilizadas en el desarrollo del proyecto.
Capítulo 3: Trabajo relacionado. En este capítulo se presenta una
descripción detallada a trabajos relacionados al presente trabajo de
investigación respecto a identificación de peatones, implementando fusión de
información de sensores y métodos explicativos de inteligencia artificial para
las redes neuronales. Finalmente se muestra la conclusión de este capítulo.
Capítulo 4: Trabajo desarrollado. En este capítulo se detalla el proceso que
se llevó a cabo para la identificación de personas. En primera instancia se
muestra el conjunto de datos empleado, el procesamiento de las imágenes
utilizadas, las técnicas de aprendizaje automático implementadas, la
aplicación del método explicativo LRP, la etapa de la fusión de información y
finalmente se exponen las conclusiones de este capítulo.
Capítulo 5: Resultados y discusión. En este capítulo se detallan los
resultados obtenidos de las técnicas descritas en el Marco Teórico. Se
realizaron diferentes pruebas, logrando cumplir con los objetivos planteados
en este trabajo de tesis.
Capítulo 6: Conclusiones. Se muestran las conclusiones con base en los
experimentos y resultados, y se expone el trabajo que se pretende realizar a
futuro.
En la sección final del documento se presenta la lista de las referencias
consultadas.
19
Capítulo 2
Marco Teórico
El capítulo está organizado de la siguiente manera: en la primera sección se
hace referencia al estudio de la Tierra y su importancia a través de imágenes
aéreas o satelitales. Posteriormente, se describen los fundamentos teóricos
del espectro electromagnético, principalmente del rango espectral visible e
infrarrojo de los cuales obtendremos información para este trabajo. En el
siguiente subtema se describen las técnicas de aprendizaje automático
haciendo énfasis en las redes neuronales convolucionales, técnica aplicada
en la tesis para la clasificación de las personas. Se continúa con la sección
de métodos explicativos de redes neuronales en dónde se detalla el método
Layer-wise Relevance Propagation, esta técnica se implementa en este
trabajo de tesis. Finalmente se exponen algunas técnicas de fusión de
información obtenidas de una cámara en el espectro visible y una segunda
cámara con respuesta espectral en el infrarrojo de longitud de onda.
2.1 La observación de la Tierra con imágenes aéreas.
Según la Agencia Espacial Europea [3] la observación de la Tierra inició
durante la Primera Guerra Mundial, cuando aviones de reconocimiento
volaron sobre las fuerzas enemigas para observar los movimientos de las
tropas. Al utilizar cámaras normales montadas en los aviones, se
desarrollaron los precursores de los modernos sistemas de teledetección.
Sobre la base de las fotografías, fue posible observar la posición y
movimientos de las fuerzas enemigas.
Durante la Segunda Guerra Mundial la técnica de teledetección fue
desarrollada aún más. Como parte de los preparativos para la invasión de
20
Normandía (día D), se utilizaron fotografías aéreas para hacer un mapa de
las condiciones costeras para identificar los sitios más adecuados para
aterrizar. Al estudiar las olas cerca de la costa, fue posible determinar la
longitud de onda y, por lo tanto, calcular la profundidad del agua. Además, se
utilizó una película infrarroja para identificar la vegetación verde y distinguirla
de las redes de camuflaje.
La década de 1960 fue testigo del desarrollo de una película sensible a las
longitudes de onda del infrarrojo cercano que podría usarse para mapear
características como diferentes tipos de vegetación.
El desarrollo de otras tecnologías de teledetección continuó a buen ritmo.
Los experimentos de mapeo se realizaron con sistemas de radar en el aire.
TIROS 1, el primer satélite meteorológico, fue enviado a la órbita
geoestacionaria en 1960. Proporcionó a la Oficina Meteorológica de los EE.
UU. imágenes diarias de formación de nubes y representó un hito en el
pronóstico del tiempo.
El desarrollo de la tecnología de sensores remotos no fotográficos progresó
rápidamente después de que el primer satélite cartográfico, Landsat 1, se
pusiera en órbita en 1972. Estaba equipado con un nuevo tipo de sensor
conocido como escáner multiespectral (MSS). Con esta nueva tecnología, los
datos se produjeron en forma de matrices corológicas digitales que
permitieron avances sustanciales en el procesamiento de imágenes.
Hoy en día, el escáner multiespectral es un instrumento muy importante en la
detección remota. Se utiliza en tierra, y a bordo de aviones y satélites. Los
detectores de cada escáner están diseñados para recibir radiación en
canales específicos. El número de canales (o bandas), su ancho y su
ubicación en el espectro electromagnético varían para cada sensor, lo que da
como resultado diferentes características de resolución espectral. Esta
combinación de factores determina los usos para los cuales las imágenes del
sensor son más adecuadas.
21
La resolución obtenida de estas imágenes depende del tamaño del sensor, el
sistema óptico enfrente del sensor y de la altura al que se encuentre el avión
o el satélite que realiza las capturas. Los satélites militares más avanzados
pueden escanear áreas con resolución suficiente, del orden de unos cuantos
centímetros, para detectar detalles muy pequeños, como individuos,
vehículos e instalaciones pequeñas.
En el otro extremo de resolución espacial, el satélite meteorológico Meteosat
tiene una resolución de 5x5 km. Se ven menos detalles, pero es posible
obtener un estudio completo de un hemisferio en una sola imagen.
J. Berni [4], considera que los vehículos aéreos no tripulados (unmanned
aerial vehicle, UAV) cubren las limitaciones que hoy en día tienen el uso de
satélites y aviones para la detección de objetos de tamaño del orden de un
metro, como son la falta de imágenes con resolución espacial y espectral
necesaria para detectar determinadas situaciones en la Tierra, y los costos
requeridos para obtener información satelital o desde aviones especializados
para este propósito.
S. Montesinos [5], declara que los UAV pueden trasportar sensores o
cámaras teniendo una mayor capacidad temporal de adquisición de datos e
imágenes comparada a los satélites y aviones. Si bien es cierto que estos
últimos también pueden tener sensores multiespectrales, son los UAV los
que permiten obtener información más específica, aunque sobre áreas más
pequeñas que lo que cubren a los satélites y aviones. Por ejemplo, los UAV
son útiles en la búsqueda de objetos una zona en particular de observación,
reduciendo los recursos tanto económicos como de optimización del tiempo
de obtención de datos. De esta forma se posibilita la observación e
identificación a largo plazo de objetivos en tierra con imágenes en tiempo
real y datos transmitidos a una estación en tierra para la guía y operación del
UAV.
Actualmente son muchos los usos dados a los UAV como, la recreación,
agricultura, topografía, minería, gestión de recursos naturales, etc. Sin
22
embargo, para esta investigación se emplea un UAV para la adquisición de
imágenes aéreas para la identificación de peatones.
2.2 Fundamentos teóricos
En esta sección se establecen los conceptos relevantes para desarrollar esta
investigación, mismos que se plantean a continuación.
Espectro electromagnético: Proviene del latín espectrum y significa forma o
aspecto. Se le denomina espectro a la radiación electromagnética que emite
o absorbe un objeto. Referido a un objeto se denomina espectro
electromagnético o simplemente espectro a la radiación electromagnética
que emite (espectro de emisión o de reflexión) o absorbe (espectro de
absorción) el objeto [6]. En otras palabras, es el conjunto de longitudes de
onda que puede adoptar la radiación. Aunque se trata de una sucesión
continua de valores de longitud de onda, se suelen agrupar en bandas donde
la radiación electromagnética manifiesta comportamientos similares [7]. En la
figura 1 se muestran las agrupaciones del espectro electromagnético
enfatizando el espectro visible. Este es el rango en que opera la cámara a
color (RGB: Red-Green-Blue). En la figura 2 se ilustran las subdivisiones del
grupo infrarrojo. La cámara térmica empleada en esta investigación, su rango
espectral es de 7.5𝜇𝑚 𝑎 13.5𝜇𝑚 correspondientes al infrarrojo de longitud de
onda larga (LWIR por sus siglas en inglés).
23
Figura 1. Espectro electromagnético, obtenida de [6]
Figura 2.Espectro electromagnético Infrarrojo, obtenida de [8]
2.3 Técnicas de aprendizaje automático
Aprendizaje automático (Machine Learning) es una técnica de análisis de
datos que le permite a las computadoras hacer procesos que resulta natural
para las personas y los animales: aprender de la experiencia [7]. Los
algoritmos de aprendizaje automático emplean métodos de cálculo para
“aprender” información directamente de los datos sin depender de una
ecuación predeterminada como modelo. Los algoritmos mejoran su
rendimiento de forma adaptativa a medida que aumenta el número de
muestras disponibles para el aprendizaje.
24
Mathworks en [9] describe dos tipos de técnicas empleadas por el
aprendizaje automático: el aprendizaje supervisado, que entrena un modelo
con datos de entrada y salida conocidos para que pueda predecir salidas
futuras, y el aprendizaje no supervisado que encuentra patrones ocultos o
estructuras intrínsecas en los datos de entrada, como se muestra en la figura
3.
Figura 3. Técnicas de aprendizaje automático: aprendizaje supervisado y aprendizaje no supervisado.
2.3.1 Máquina de soporte vectorial (SVM)
Una máquina de soporte vectorial (SVM) construye un hiperplano óptimo en
forma de superficie de decisión, de modo que el margen de separación entre
dos clases de datos se amplía al máximo [10]. Los vectores de soporte
hacen referencia a un pequeño subconjunto de las observaciones de
entrenamiento que se utilizan como soporte para la ubicación óptima de la
superficie de decisión.
Una máquina de soporte vectorial se entrena en dos fases:
1) Transformar los datos de entrada en un espacio de características
altamente dimensional. En esta fase es suficiente con especificar el
kernel; los datos nunca se transforman explícitamente al espacio de
características. Este proceso se conoce comúnmente como el truco
del kernel.
Aprendizaje automático
Aprendizaje supervisado
Clasificación
Regresión
Aprendizaje no supervisado
Agrupamiento
25
2) Resolver un problema de optimización cuadrática que se ajuste a un
hiperplano óptimo para clasificar las características transformadas en
dos clases. El número de características transformadas está
determinado por el número de vectores de soporte.
Para construir la superficie de decisión solo se requieren los vectores de
soporte seleccionados de los datos de entrenamiento. Una vez entrenados,
el resto de los datos de entrenamiento son irrelevantes [7].
2.3.2 Árboles de decisión
El método de árboles de decisión es empleado principalmente en estadística,
minería de datos y aprendizaje automático. Dado un conjunto de datos se
fabrican diagramas de construcciones lógicas, muy similares a los sistemas
de predicción basados en reglas, que sirven para representar y categorizar
una serie de condiciones que ocurren de forma sucesiva, para la resolución
de un problema. Los modelos de árbol donde la variable destino puede tomar
un conjunto finito de valores se denominan árboles de clasificación. En estas
estructuras de árbol, las hojas representan etiquetas de clase y las ramas
representan las conjunciones de características que conducen a esas
etiquetas de clase. Los árboles de decisión, donde la variable destino puede
tomar valores continuos (por lo general números reales) se llaman árboles de
regresión. De forma más concreta, se puede decir que los árboles de
decisión son diagramas de decisiones secuenciales que muestran sus
posibles resultados. Estos ayudan a determinar cuáles son sus opciones al
mostrar distintas decisiones y resultados [7].
2.3.3 K-NN (Vecino más cercano)
En aplicaciones para reconocimiento de patrones en base de datos,
el algoritmo de vecinos k –más cercanos (k -NN) es un método de
26
clasificación no paramétrico, que estima el valor de la función de densidad de
probabilidad o directamente la probabilidad a posteriori de un elemento 𝑥
pertenezca a la clase 𝐶𝑗 a partir de la información de la información
proporcionada por el conjunto de prototipos [11]. En el reconocimiento de
patrones, el algoritmo k-NN es usado como método de clasificación de
objetos (elementos) basado en un entrenamiento mediante ejemplos
cercanos en el espacio de los elementos. k-NN es un tipo de aprendizaje
vago (lazy learning), donde la función se aproxima solo localmente y todo el
cómputo es diferido a la clasificación. En la clasificación k-NN, la salida es
una membrecía de clase; un objeto se clasifica por mayoría de votos de sus
vecinos, y el objeto se asigna a la clase más común entre sus 𝑘 vecinos más
cercanos (𝑘 es un número entero positivo, típicamente
pequeño). Cuando 𝑘 = 1, entonces el objeto simplemente se asigna a la
clase de ese vecino más cercano. En la regresión k-NN, la salida es el valor
de propiedad del objeto. Este valor es el promedio de los valores de
sus k vecinos más cercanos. Tanto para la clasificación como para la
regresión, se puede usar una técnica útil para asignar peso a las
contribuciones de los vecinos, de modo que los vecinos más cercanos
contribuyan más al promedio que los más distantes [11].
Los vecinos se toman de un conjunto de objetos para los que se conoce la
clase (para la clasificación k -NN) o el valor de la propiedad del objeto (para
la regresión k -NN). Esto puede considerarse como el conjunto de
entrenamiento para el algoritmo, aunque no se requiere ningún paso de
entrenamiento explícito. Una peculiaridad del algoritmo k -NN es que es
sensible a la estructura local de los datos [7].
2.3.4 Redes Neuronales
Una imagen digital está representada por una matriz de tamaño 𝑚 𝑥 𝑛 con
valores entre 0 - 255 que representa el tono de gris para imágenes en
27
escalas grises, en matrices de tamaño 𝑚 𝑥 𝑛 𝑥 3 en imágenes en RGB, existe
una matriz de tamaño 𝑚 𝑥 𝑛 por cada canal (rojo, verde y azul) con las
intensidades de color para cada canal. Uno de los problemas centrales de la
visión por computadora es la clasificación de imágenes. Esto es, pasar de los
valores de una matriz a una categoría como perro, gato, persona, etc.
Clasificar objetos en la vida cotidiana es una tarea fácil para un humano, sin
embargo, se convierte en algo complejo para un sistema computacional,
dado que tiene que afrontar algunos desafíos como se describe a
continuación:
Variación en la perspectiva. El objeto puede estar orientado de
distintas formas con respecto a la posición de la cámara.
Variación de escala. El objeto puede estar a una distancia mayor o
menor de la cámara en distintos momentos o los objetos son de
distintos tamaños.
Deformación. El objeto de interés no necesariamente es un cuerpo
rígido por lo que puede deformarse, es decir, puede tomar una forma
inusual.
Oclusión. En una escena el objeto puede estar ocluido por otro objeto
y sólo ser apreciable una pequeña sección de dicho objeto,
dificultando su reconocimiento.
Variación de iluminación. Las imágenes están sujetas a variaciones
constantes de iluminación y estas variaciones causan drásticos
cambios en los valores numéricos de los pixeles.
Confusión con el fondo. El objeto puede tener una apariencia similar al
fondo de la escena y mezclarse con ella, complicando la identificación
del objeto respecto al fondo.
28
Variación en la misma categoría. Puede existir una gran cantidad de
variantes de la misma categoría de objeto, por ejemplo, si la clase es
silla, como se sabe existe una gran variedad de formas de ella.
En la figura 4 se observa alguno de estos ejemplos.
Figura 4. Desafíos que se presenta en la clasificación de objetos en un sistema computacional, obtenido de [12].
Una de las técnicas desarrollas para resolver la problemática enlistadas
anteriormente, es a través las redes neuronales. Este tipo de clasificación se
basa en el uso de redes neuronales artificiales, una neurona artificial es un
objeto lógico (software) que recibe diversas entradas, realiza una suma
ponderada de las mismas y produce una salida a partir de la aplicación de
una función umbral a la medida ponderada [13], en la figura 5 se ilustra la
estructura de una neurona real y una neurona artificial. La conexión de las
salidas de unas neuronas con la entrada de otras, se le conoce como una
red neuronal.
29
Figura 5. Estructura de una neurona real y una neurona artificial, obtenido de [12].
En las redes neuronales la información fluye en una única dirección, de la
capa de entrada, pasando por la o las capas ocultas hacia la capa de salida.
Cada neurona de cualquier capa está conectada (en la dirección de flujo) con
todas las neuronas de la siguiente capa. Un ejemplo típico de una red
neuronal es muestra en la figura 4.
Figura 6. Ejemplo de una red neuronal.
Castillo menciona en [13], que el proceso de clasificación sigue tres fases:
1) Entrenamiento: Se introducen datos cuya clase se conoce, y se
compara la salida con la realidad. Con el resultado de la comparación
se modifican los coeficientes de ponderación de todas las neuronas
para obtener la respuesta adecuada, es decir valores de 1 en la clase
correcta y cero en la clase incorrecta.
30
2) Estabilización: Al inicio del entrenamiento los factores de ponderación
cambian rápidamente, pero conforme este se desarrolla los factores
comienzan a estabilizarse, en el momento en que no se modifican
más, finaliza la fase de entrenamiento.
3) Clasificación: Se introducen los datos de una clase no conocida y se
adjudican a la clase con la respuesta más alta.
2.3.4.1 Tipos de Redes Neuronales
Existen varios tipos de arquitecturas de redes neuronales, sin embargo, las
más usadas se pueden clasificar en Redes Neuronales Profundas (DNN),
Redes Neuronales Convolucionales (CNN) y Redes Neuronales Recurrentes
(RNN) cada una de estas se describen a continuación
Red Neuronal Profunda (DNN). Con este tipo de red se puede
procesar texto, imágenes pequeñas o datos. La estructura de esta red
se muestra en la Figura 7.
Figura 7. Estructura de una Red Neurona Profunda (DNN)
31
Este tipo de red tiene una limitante, debido a la existencia de tantas
conexiones en cada una de las capas que cuando se requiere
procesar datos grandes, por ejemplo, una imagen de tamaño 300 x
300 pixeles se tienen un total de 90 000 datos en la capa de entrada,
realizar los cálculos para cada uno de los pixeles es demasiado y
requeriría mayor poder computacional con este tipo de red neuronal.
Para darle solución a este problema con las imágenes, se crea la red
neurona convolucional.
Red Neuronal Convolucional (CNN), el uso común de esta red
neuronal es para el procesamiento de imágenes, sin embargo, se ha
estado implementando también para el procesamiento de texto. La
estructura de esta red se muestra en Figura 8. Generalmente esta red
neuronal en la última capa oculta tiene una función Softmax, que le
permitirá conectar todas las neuronas de las convoluciones y
maxpooling que emplea la red.
Figura 8. Estructura de una Red Neuronal Convolucional (CNN)
32
Red Neuronal Recurrente. Este tipo de redes se usan para tipos de
datos que son secuenciales, es decir, datos en el que el valor de una
variable en particular dependerá de el o los valores que se tuvo
previamente. Por ejemplo, datos de tipo texto. A diferencia de las
redes anteriores, esta red dentro de sus capas ocultas, cuenta con
capas recurrentes con celdas de Long Short-Term Memory (LSTM),
que le permite saber el valor que tenía anteriormente. La estructura de
esta red la podemos ver en Figura 9
Figura 9. Estructura de una Red Neuronal Recurrente (RNN)
2.4. Métodos Explicativos de Técnicas de Aprendizaje
Automático.
Recientemente se han publicado trabajos en dónde presentan métodos de
explicación de algunas técnicas de aprendizaje automático con lo son las
redes neuronales. Esto nos lleva a las preguntas ¿Para qué explicar una Red
Neuronal? ¿Es realmente necesario explicar una Red Neuronal?
Cómo lo vimos en la sección anterior las redes neuronales contienen unas
capas ocultas para el usuario, es decir, no se sabe exactamente lo que está
aprendiendo la red neuronal de los objetos de interés, por esta razón se le
puede considerar como una “caja negra” a las capas ocultas, limitando el uso
de las redes neuronales para cierto tipo de aplicaciones. Por ejemplo, se
quiere emplear una red neuronal para clasificar el tipo de cáncer que se tiene
33
en cierta muestra de una imagen digital, para ello se analizan imágenes de la
muestra de células con la red neuronal, obteniendo como resultado el tipo de
cáncer que se encuentra en la muestra. Sin embargo, el sistema sólo nos
presenta el tipo de cáncer y no sabemos que o cuales fueron las
características que la red neuronal encontró para arrojar ese resultado. Un
mal diagnóstico por parte de la red neuronal puede ser fatal para el paciente.
Para evitar un mal diagnóstico se requiere de un experto humano para
corroborar dichos resultados. Es aquí en donde encontramos la ventaja de
explicar una red neuronal. Los métodos explicativos generan de forma
gráfica un mapa de índices de relevancias, con los pixeles que fueron
importantes para la decisión que toma la red neuronal. Estos mapas le
permiten al experto corroborar de una forma más rápida los resultados que
arroja la red y con ello dar un diagnóstico en menos tiempo al paciente.
Estos métodos permiten ver de forma gráfica las características relevantes
para la red en cada categoría de clasificación. Este mapa proporciona
información incluso de los casos en donde la clasificación es errónea, con
ello se puede identificar las fortalezas y debilidades de la red y las
características en dónde requiere mayor entrenamiento. Algunos de estos
métodos se reportan en [1] y [2]
2.4.1 Método Layer-wise Relevance Propagation.
El método Layer-wise Relevance Propagation (LRP) explica la predicción de
un clasificador asignando valores de relevancia a los componentes de la
entrada, asumiendo que el algoritmo del clasificador empleado puede ser
descompuesto en varias capas computacionales; las redes neuronales, las
máquinas de soporte vectorial, son alguno ejemplos de algoritmos que se
pueden descomponer en capas [1]. Estas capas son parte de la extracción
de características de la imagen considerando que la primera capa
34
corresponde a las entradas o pixeles de la imagen y la última capa son las
predicciones. Las redes neuronales multicapas que están construidas por un
conjunto de neuronas interconectadas. Estas neuronas definen una función 𝑧
que mapea la entrada en una predicción, donde 𝑧 es un vector que contiene
el valor y el peso para esa neurona de cierta capa. Un mapeo común de una
capa a otra consiste en una proyección, como se muestra en la ecuación (1).
𝑧𝑖𝑗 = 𝑥𝑖𝑤𝑖𝑗, (1)
Dónde 𝑤𝑖𝑗 es el peso conectando la neurona 𝑥𝑖 a la neurona 𝑥𝑗
𝑧𝑗 = ∑ 𝑧𝑖𝑗 +𝑖 𝑏𝑗, (2)
Dónde 𝑏𝑗 es el bias y ∑i denota la suma a través de todas las neuronas de
esa capa.
𝑥𝑗 = 𝑔(𝑧𝑗) (3)
Dónde 𝑔 es una función de activación. Las redes multicapa contienen
múltiples capas compuestas por un gran número de neuronas.
La descomposición de las relevancias se hace hacia atrás en función de las
relevancias de la capa anterior hasta llegar a la capa de entrada. Una
alternativa para descomponer la relevancia en cada capa es mediante el
siguiente método: Cuando se conoce la relevancia de cierta neurona 𝑅𝑗(𝑙+1)
para la predicción 𝑓(𝑥) se desea obtener la descomposición de la relevancia
en función de la información (o mensajes) 𝑅𝑖←𝑗 enviada a las neuronas de las
capas anteriores. Estos mensajes cumplen con la ley de conservación
expresada en la ecuación (4).
35
∑ 𝑅𝑖←𝑗(𝑙.𝑙+1)
= 𝑅𝑗(𝑙+1)
𝑖 (4)
Para aproximarse a las propiedades de conservación, se tratan las
preactivaciones positivas y negativas por separado. Sea 𝑧𝑗+ = ∑ 𝑧𝑖𝑗
+ + 𝑏𝑗+
𝑖 y
𝑧𝑗− = ∑ 𝑧𝑖𝑗
− + 𝑏𝑗−
𝑖 , donde “-” y “+” denotan la parte positiva y negativa de 𝑧𝑖𝑗 y
𝑏𝑗. La relevancia está definida en la ecuación (5).
𝑅𝑖←𝑗(𝑙.𝑙+1)
= 𝑅𝑖←𝑗(𝑙+1)
(𝛼𝑧𝑖𝑗
+
𝑧𝑗+ + 𝛽
𝑧𝑖𝑗−
𝑧𝑗−) (5)
Dónde 𝛼 + 𝛽 = 1. De ésta manera, se tiene control de la importancia de la
evidencia positiva y negativa eligiendo diferentes factores 𝛼, 𝛽.
La relevancia de cada neurona es determinada con la suma de todas las
neuronas de capas anteriores, como se muestra en la ecuación (6).
𝑅𝑖(𝑙)
= ∑ 𝑅𝑖←𝑗(𝑙.𝑙+1)
𝑗 (6)
Dónde ∑j denota la suma a través de todas las neuronas de otra capa.
La relevancia de cada neurona es determinada con la suma de todas las
neuronas de capas anteriores, como se muestra en la ecuación (6).
Cabe mencionar que la ecuación (6) es aplicable para capas que cumplen
con cierta estructura en su activación, como se muestra en la ecuación (3),
ya que 𝑔𝑗 determina el valor de 𝑥𝑗 y con esto la relevancia de 𝑅𝑗
En la Figura 10, se describe de forma gráfica el procedimiento de las redes
neuronales y la explicación de las mismas, hasta obtener el mapa de índices
de relevancias con los pixeles importantes para esa decisión.
36
Figura 10. Diagrama de una red neuronal convolucional y la explicación por el método LRP
El método de Layer-wise Relevance Propagation es uno de los métodos que
actualmente se han propuesto para la explicación de redes neuronales.
Emplear el método con la ecuación alpha-beta, permite darle mayor o menor
importancia a los pixeles, esto según los valores que se le establezcan a 𝛼 y
𝛽. Siendo 𝛼 los valores más relevantes para la clase en cuestión
En este trabajo de tesis, se asignó 𝛼 = 1 para encontrar los pixeles más
importantes para la decisión de la red neuronal y se obtuvo el mapa con los
índices de relevancia como se observa en la Figura 10, posicionándose los
pixeles más importantes dentro del objeto a identificar.
2.5 Fusión Profunda en Redes Neuronales Convolucionales.
Cuando se emplean dos cámaras con distinto rango espectral (RGB y LWIR)
para la identificación de peatones, una de las cuestiones que se presenta es
¿en qué nivel de fusión se debe implementar para obtener mejores
resultados? La arquitectura de fusión dependerá principalmente de la
37
aplicación que se le vaya a dar a la red neuronal. En [14] Chengyang Li,
expone en su publicación algunas arquitecturas de fusión más utilizadas con
imágenes RGB y LWIR en redes neuronales para aplicaciones de
reconocimiento de peatones. Estas arquitecturas se describan a
continuación.
Input Fusion. Simplemente apila imágenes en color (RGB) y térmicas
(T) antes de introducirlas en la red. Esta fusión se hace pixel a pixel,
obteniendo una imagen de cuatro canales (RGBT).
Early Fusion. Integra las subredes térmicas y de color
inmediatamente después del primer bloque convolucional,
concatenando primero los mapas de características de ambas
subredes y una red en red (Network in Network: NIN) posterior para la
reducción de dimensión.
Halfway Fusion. Combina las subredes térmicas y de color en una
etapa posterior, en algún bloque convolucional intermedio, mediante
una concatenación de mapas de características similares y una
reducción de dimensión basada en NIN.
Late Fusion. Es un tipo de fusión de alto nivel, que concatena las
últimas capas totalmente conectadas de las subredes térmicas y de
color. Los mapas de características después de los últimos bloques
convolucionales de las dos subredes se concatenan, esta
concatenación es previo a realizar la clasificación de las redes
Score Fusion I. Genera propuestas y detecciones por parte de las
dos subredes por separado. Las detecciones luego se envían a la otra
subred para volver a calificar la confianza. Las detecciones finales se
obtienen al fusionar las puntuaciones de confianza de detección en
dos etapas con pesos iguales de 0.5. Por lo tanto, se puede ver como
un diseño en cascada de las dos subredes.
Score Fusion II. Es una forma de fusión no en cascada a nivel de
puntuación. Al igual que en Late Fusion, las propuestas humanas se
38
generan explotando mapas de características de dos subredes.
Luego, las dos subredes toman las propuestas como entrada para
generar los resultados de detección por separado. Finalmente, se
promedian las puntuaciones de detección y las regresiones de cuadro
delimitador de dos subredes para obtener las detecciones finales.
Estas arquitecturas se pueden visualizar de forma gráfica en Figura 11.
Aún no se tiene una estandarización de las diferentes arquitecturas que se
han publicado, y algunos autores como J. Wagner en [15] en su trabajo
emplea dos arquitecturas de fusión: una fusión pixel a pixel al que él le llama
Early Fusion, sin embargo, comparado con Chengyang Li corresponde a la
arquitectura Input Fusion. Por esta razón en algunos trabajos las
descripciones de las arquitecturas empleadas pueden ser similares, sin
embargo, el nombre asignado a esas arquitecturas puede variar de un autor
a otro.
Figura 11. Seis arquitecturas de fusión que integran modalidades de color y térmicas en diferentes etapas: (a) Input Fusion, (b) Early Fusion (c) Halfway Fusion (d) Late Fusion (e) Score Fusion I (f) Score Fusion II. Obtenido de
[14]
39
Capítulo 3
Trabajo Relacionado
En el presente capítulo se detallan los trabajos relacionados que sustentan y
forman parte del desarrollo de este proyecto de tesis. Se realiza una revisión
de distintos trabajos relacionados al área de identificación de peatones
empleando la fusión de sensores, particularmente una cámara en el espectro
visible (RGB) y una segunda cámara con respuesta espectral en el infrarrojo
de longitud de onda larga (LWIR) y la aplicación de un método explicativo
para redes neuronales. En el primer subtema, se describen los trabajos
relacionados con la identificación de peatones empleando la fusión de
sensores. Posteriormente los trabajos relacionados con los métodos
explicativos de sistemas de aprendizaje automático. En la Tabla 1, se
muestra una comparativa de los trabajos relacionados con esta tesis.
Autor / año Identificación
Peatones Cámara
IR Cámara
RGB Fusión
Redes Neuronales
Método Explicativo
J. Wagner (2016)
✔ ✔ ✔ ✔ ✔
Ya-Li Hou (2018)
✔ ✔ ✔ ✔ ✔
Chengyang Li (2019)
✔ ✔ ✔ ✔ ✔
G. Montavon (2017)
✔
✔ ✔
S. Bach (2015)
✔ ✔ ✔
J. Velázquez (2019)
✔ ✔ ✔ ✔ ✔ ✔
Tabla 1. Tabla comparativa de trabajos relacionados con esta tesis.
40
3.1 Identificación de peatones con fusión de sensores.
La identificación de personas en imágenes es un tema que se ha estudiado
por varios años, derivado de estos estudios se han obtenido resultados en
los que emplear un solo sensor no suele tener buenos resultados
principalmente cuando el escenario está en condiciones de baja iluminación.
Por esta razón recientemente se ha profundizado en estudiar la identificación
personas fusionando la información de cámaras a color (RGB) y cámaras
infrarrojas (T). La principal problemática de esto es definir en qué nivel y
método de fusión se obtienen mejores resultados. J. Wagner en [15], en su
trabajo emplea dos tipos de arquitecturas para realizar la fusión de las
imágenes y aplicarlas en las redes neuronales. La primera arquitectura es la
fusión a nivel pixel, que consiste en fusionar las imágenes pixel a pixel para
crear una imagen de cuatro canales (RGBT), esta fusión se realiza previo a
ser introducida la red neuronal. La segunda arquitectura empleada por J.
Wagner, consiste en una fusión conocida como Late Fusion, la arquitectura
consta dos subredes neuronales, entrenadas para la identificación de
personas en sus respectivos canales (RGB y Térmico) y la fusión se realiza
una capa antes de realizar la clasificación en las redes neuronales, las
características de estas redes se fusionan en un solo conjunto para
posteriormente aplicar la capa final que lleva a la clasificación de la red. J.
Wagner concluye que la late fusion obtiene mejores resultados en
comparación con la fusión a nivel pixel, 43.80% y 53.94% respectivamente.
Wagner emplea la base de datos KAIST y la arquitectura y la red pre-
entrenada CaffeNet en la investigación.
En [16] Ya-Li Hou hace uso de la red neuronal VGG-16 pre-entrenada para
realizar el trabajo de investigación, que consiste en probar arquitecturas de
fusión y el método Single Shot Detector (SSD). Las arquitecturas empleadas
por Ya-Li Hou son: fusión a nivel pixel, Early Fusion y Late Fusion. Prueban
tres métodos clásicos de fusión basados en la transformación y método de
41
fusión espacial, que incluye Lapace Pyramid, Wavelet fusion, curvelet fusion
y fusión basado en un joint bilateral filter. Los resultados obtenidos por Ya-Li
Hou se muestran en la Tabla 2.
Methods Day (%) Night (%)
RGB 68.11 70.86
Early Fusion (RGBT)
66.24 59.51
Late Fusion (RGB + T)
65.01 48.23
Wavelet 66.15 65.88
Laplace 65.08 67.23
Curvelet 64.78 68.14
Join 71.31 46.08
Early Fusion, Wavelet
63.77 (RGBWaveletI)
54.54 (WaveletT)
Early Fusion, Laplace
62.51 (RGBLaplaceI)
57.81 (LaplaceT)
Early Fusion, Curvelet
62.03 (RGBCurveletI)
53.71 (CurveletT)
Early Fusion, Joint bilateral filter
70.69 (RGBJoin) 43.46 (JoinT)
Late Fusion, Wavelet
62.81 (RGB + WaveletI)
47.15 (Wavelet + T)
Late Fusion, Laplace
61.13 (RGB + LaplaceI)
46.10 (Laplace + T)
Late Fusion, Curvelet
60.73 (RGB + CurveletI)
45.38 (Curvelet + T)
Late Fusion, Joint bilateral filter
70.44 (RGB + Join) 38.02 (Join + T)
Tabla 2. Tabla de resultados obtenidos en [16]
42
Chengyang Li en [14] prueba seis arquitecturas de fusión distintas, en la
sección 2.5 se exponen las arquitecturas probadas en la investigación. El
autor emplea la arquitectura definida por la red neuronal VGG-16. Para las
pruebas emplea la base de datos KAIST, seleccionando aquellas las
etiquetas razonables, es decir, sólo se consideran las imágenes de personas
que cuentan con tamaño mayor a 55 pixeles, de esta manera omite las
etiquetas que son muy pequeñas y difíciles de identificar. Los resultados
obtenidos se muestran en Figura 12
Figura 12. Comparación de los seis arquitecturas de fusión en términos de MR, figura obtenida de [14]
Hasta el momento no se tiene reporte de algún trabajo realizado en dónde se
apliquen los métodos explicativos a redes neuronales con imágenes
térmicas. En el capítulo 5 se exponen algunos hallazgos que son
prometedores para futuras investigaciones.
43
Capítulo 4
Trabajo desarrollado
En el trabajo desarrollado, se describe la base de datos empleada para el
entrenamiento y las pruebas. En la Figura 13, se observa la metodología
empleada para obtener los datos de entrenamiento y de prueba, para poder
aplicar la solución propuesta durante éste trabajo.
Figura 13. Esquema general de la metodología desarrollada en este trabajo de tesis
4.1 Base de datos KAIST.
La base de datos KAIS creada por S. Hwang, J. Park, N. Kim, Y. Choi y I. S.
Kweon [17] consiste en secuencia de imágenes capturadas con una cámara
a color (modelo: PointGary Flea3) y una cámara infrarroja de longitud de
onda larga (modelo: FLIR-A35, rango 7.5 𝜇𝑚 a 13.5 𝜇𝑚). Las escenas
44
capturadas son de tráfico regular, tomadas durante el día y noche para
considerar los cambios de condiciones de luz.
El conjunto de datos peatonales multiespectrales KAIST consta de 95 mil
pares de imágenes color-térmico (imágenes de tamaño 640x480 pixeles,
capturadas a 20 imágenes por segundo) tomados desde un vehículo. Todos
los pares son etiquetados manualmente (persona, personas, ciclista) con un
total de 103,128 anotaciones.
En la Figura 14, se muestra un ejemplo de estos pares de imágenes.
Figura 14. Ejemplo de pares de imágenes de las etiquetas dentro de la base de datos KAIST. Obtenido
de [17]
45
4.2 Imágenes de entrenamiento y prueba.
El entrenamiento de las redes neuronales se realiza con un conjunto de
datos de 20,000 imágenes para cada red neuronal (RGB y LWIR) de los
cuales, 10,000 son etiquetados como verdaderos y el resto como falsos. Las
imágenes son seleccionadas del conjunto total de la base de datos KAIST;
sólo se consideran las etiquetadas como persona y que se visualicen
adecuadamente, es decir, que la imagen de la persona tenga una altura
mayor de 45 pixeles, se omiten las que están ocluidas con más del 50% de la
persona o los casos en donde las imágenes son muy obscuras en las
capturas nocturnas para RGB. En la Figura 15 se muestran algunos ejemplos
de las imágenes que han sido omitidas para el proceso de pruebas. De forma
similar se seleccionan las imágenes térmicas. Al tratarse de redes
neuronales independientes, para el proceso de entrenamiento no es
importante que las imágenes correspondan a la misma escena.
Figura 15. Ejemplos de imágenes omitidas para el proceso de entrenamiento. (a) imágenes muy obscuras, (b) imágenes con altura inferior a 45 pixeles lo que dificulta el reconocimiento. (c) imagen de persona ocluida más de
un 50% del cuerpo.
El conjunto de imágenes de prueba está formado por 3108 pares de
imágenes correspondientes a la misma escena para cada canal. En la Figura
46
16 se pueden visualizar unos de ejemplos de los pares de imágenes en los
canales visibles y térmicos con el que fue creado este dataset de prueba.
Figura 16. Ejemplo de pares de imágenes empleado para la etapa de pruebas. Las imágenes de la izquierda corresponden a imágenes RGB y las imágenes a la derecha corresponden a su par en el canal térmico. (a) captura
realizada en el día y (b) captura realizada en condiciones nocturnas.
Estas imágenes de entrenamiento y prueba se redimensionan a tamaño
32x32, este proceso se representa en la Figura 17. Al tratarse de imágenes
con una altura mayor a los 45 pixeles, estas imágenes se redimensionan a
una imagen más pequeña de tamaño.
Figura 17. Proceso de redimensionado de las imágenes de para crear el dataset. Las imágenes son redimensionadas a un tamaño de 32x32 pixeles
47
Posteriormente las imágenes son transformadas a escala grises, y los
valores de niveles de gris de cada imagen que está presentada en forma de
matriz de tamaño 32x32, se convierten a un vector horizontal de tamaño
1x1024 para que sea admitida por las redes neuronales. Este proceso se
ilustra en la Figura 18. Esta conversión no modifica los valores de niveles de
gris que componen la imagen.
Figura 18. Proceso de conversión de matriz a vector.
Las colecciones de imágenes de entrenamiento y de prueba, se almacenan
en una matriz de tamaño 20,000x1024 y otra de tamaño 3108x1024
respectivamente. En la Figura 19 se ejemplifica este paso.
Figura 19. En la matriz de entrenamiento m = 20,000 y para el dataset de prueba m = 3018.
El proceso de sección de imágenes para crear un dataset razonable, fue una
de las actividades más laboriosas al desarrollar este trabajo, pues como se
menciona anteriormente, la base de datos cuenta con un gran número de
48
etiquetas y se revisaron cada una de ellas para corroborar que las imágenes
cumplieran con las condiciones propuestas para ser razonable, similar a
como lo exponen otros autores en sus publicaciones [14] y [16].
4.3 Layer-wise Relevance Propagation.
En éste trabajo se aplica el método Layer-wise Relevance Propagation (LRP)
explicado en la sección 2.4, con base en el trabajo presentado por Bach S.
en [1] para explicar una red neuronal. Este método se puede aplicar a otros
clasificadores como SVM por mencionar alguno. La implementación de LRP
se encuentra desarrollado en código abierto [18]. El algoritmo LRP es
aplicado usando el modelo alpha-beta, correspondiente a la ecuación (5) de
la sección 2.4, (siendo 𝛼=1 y 𝛽=0) para la descomposición. Utilizar estos
valores permite visualizar en el mapa de índices de relevancias sólo aquellos
pixeles con mayor importancia.
Las redes neuronales (RGB y LWIR) tienen la estructura siguiente. En la
primera capa de convolución (5x5, 10), la segunda capa de convolución (5x5,
25), la tercera capa de convolución (4x4, 100) y finalmente la última capa de
convolución (1x1, 2). Esta estructura se ilustra en la Figura 20.
Figura 20. Arquitectura de las redes neuronales entrenadas.
49
Previo a decidir cuál ecuación que se emplearía en el método explicativo
LRP, se realizaron pruebas con tres ecuaciones que emplea Bach S. en su
artículo [1]. En la Figura 21 se observan los comportamientos de las distintas
ecuaciones empleadas en el método LRP de la misma escena para las
imágenes capturadas con la cámara térmica y la cámara a color. La
ecuación (56) en [1] lleva el nombre de Simple y su comportamiento tiene
cierta similitud con la ecuación (58) en [1] que corresponde al caso Épsilon.
La ecuación (56) tiene como inconveniente que cuando se cuenta con
valores muy pequeños de 𝑧𝑗 las relevancias toman valores fuera del límite
esperado y es por eso que en la ecuación (58) se usa el valor de épsilon
como estabilizador ɛ ≥ 0. Para ambos casos, en la Figura 21 se observa que
con RGB es complicado diferenciar entre los rojos y azules ya que se
encuentran concentrados dentro de la misma zona. También se puede ver
que en el caso de IR se marca en azul una pequeña zona de la persona, sin
embargo, no se distingue una persona como tal. Es por eso que se decidió
trabajar con la ecuación nombrado como Alpha-beta en la sección 2.4,
también citado del trabajo [1], ya que es posible darle niveles de importancia
a los casos positivos y negativos mediante valores de alfa y beta (siendo en
este caso sólo considerado el de alfa). Así, se genera un mejor mapa de
relevancia para las imágenes RGB e IR, visualizando mejor el contorno o el
lugar donde se encuentra el objeto de interés.
50
Figura 21. Comparación de mapas de calor con el método Alpha-Beta, Épsilon y el método Simple. La fila superior corresponde a los heatmaps de la imagen térmica y la fila inferior los heatmaps de la imagen RGB.
Por otra parte, se realizaron pruebas de los mapas generados en cada una
de las capas de convoluciones de las redes neuronales. Conforme se avanza
de capa en capa se va perfeccionando los pixeles relevantes como se puede
observar claramente en el caso RGB de la Figura 23. En el caso de IR
correspondiente a la Figura 22, el perfeccionamiento no es tan visible a
menos que se observe con detenimiento que hay variaciones principalmente
en los pixeles relevantes de color amarillo al transcurrir por las diferentes
capas de convoluciones. Cómo se hace mención en el capítulo 3 de trabajo
relacionado, hasta el momento no se tiene reportes de investigaciones en
dónde se explique los resultados obtenidos en los mapas de relevancias al
transcurrir por las diferentes capas de la red neuronal para imágenes
térmicas.
51
Figura 22. Comparación de los mapas de calor en la red neuronal entrenada para imágenes térmicas. (b) corresponde la primera convolución. (c) corresponde la 2da. convolución. (d) corresponde la 3ra convolución. (e)
corresponde la 4ta convolución. (f) corresponde la última capa de la red neuronal.
Figura 23. Comparación de los mapas de calor en la red neuronal entrenada para imágenes RGB. (b) corresponde la primera convolución. (c) corresponde la 2da. convolución. (d) corresponde la 3ra convolución. (e) corresponde
la 4ta convolución. (f) corresponde la última capa de la red neuronal.
52
4.4 Fusión de información.
4.4.1 Fusión Máscaras.
El Heatmap o mapa de índice de relevancias se genera en formato de
imagen RGB. Como se menciona en la sección 5.2, los pixeles más
relevantes serán marcados en un color rojo más intenso, por este motivo
podemos decir que aquellos pixeles con mayor relevancia se encuentran en
el canal Rojo de RGB. Para poder comparar la máscara contra éstos pixeles
primero se binarizan los valores correspondientes al canal Rojo del heatmap
usando un umbral que proviene del óptimo local arrojado por el método Otsu
[19].
Esto se aplica para el caso donde las imágenes de entrada a la red neuronal
son la imagen RGB y la imagen IR. Al ejecutar las respectivas redes
neuronales, cada una determina la clase por separado.
Cuando ambas determinan lo mismo no hay necesidad de decidir, pero
cuando son diferentes se determinó que se decidiera basándose en la
proporción de píxeles dentro del área de interés o máscara. En la Tabla 3 se
describen las reglas empleadas en esta técnica de fusión. Esta arquitectura
de fusión es un método de Score Fusion, ya que emplean los resultados de
las redes neuronales después de su predicción.
NN IR NN RGB Fusión empleando las Máscaras
Ausencia Ausencia Ausencia
Ausencia Presencia SI los puntos relevantes dentro de la
máscara en RGB >15 entonces Presencia
Presencia Ausencia SI los puntos relevantes dentro de la
máscara en IR >15 entonces Presencia
Presencia Presencia Presencia
Tabla 3. Reglas de decisión para fusión máscaras.
53
El procedimiento aplicado se muestra en la Figura 24. La entrada son ambas
imágenes en un solo canal, es decir, se convierten a escala de grises. A
continuación, se transforman a un tamaño de 32x32 y se vectoriza para
facilitar la manipulación de todas las imágenes. Se aplica la clasificación y se
analiza la explicación de la misma, obteniendo los píxeles más relevantes
para tomar la decisión. Una vez conociendo los pixeles relevantes se evalúa
la proporción de píxeles que caen dentro del área considerada (marcada
mediante una máscara previamente). Para esto se supone que, al identificar
un peatón en la imagen, la zona relevante (o que ayudó a tomar la decisión)
coincidirá con la silueta indicada por la máscara, donde se encuentra ubicada
la persona. Más adelante veremos a detalle que se cumple en el caso de las
imágenes RGB pero que en el caso de las imágenes IR no es así. Una vez
calculada la proporción dentro de la máscara se realiza la fusión.
Recordemos que el uso de ambos tipos de imágenes es para complementar
la decisión final. Las reglas que se seleccionen para fusionar las decisiones
en los casos donde no haya empate determinarán si efectivamente se usa a
su favor las características de cada escenario.
Figura 24. Esquema de la arquitectura de Fusión Máscaras.
54
4.4.2 Fusión Media IR
En las imágenes de tipo RGB que cuentan con la iluminación suficiente para
identificar los objetos capturados, la red neuronal RGB no presenta mayor
problema para hacer la identificación correcta de los objetos en la mayoría de
los casos. No obstante, en los escenarios con escasa iluminación se espera
que sean las imágenes térmicas las permitan identificar los objetos por la
emisión de calor. Considerando esto, se calcula la media de los valores o
pixeles que conforman una imagen RGB, permitiendo evaluar si la imagen
fue tomada con la suficiente exposición de luz (sin excederse) para identificar
si fue tomada durante el día o noche, de tal manera que se puedan identificar
los objetos. De forma análoga, se analiza si es posible identificar por medio
de la imagen térmica si la captura fue realizada en día o noche, esto
mediante la cantidad de radiación térmica que se puede capturar en toda la
escena, puesto que las temperaturas de las escenas diurnas serán mayores
en comparación con las nocturnas. En esta prueba se utilizan 519 imágenes
tomadas durante el día y 519 imágenes capturadas de noche.
Durante dicho análisis, se observó que aquellos casos en la imagen térmica
donde la media en los niveles de gris se encuentra por debajo del valor 50,
suelen ser aquellas con menor radiación recibida, perteneciendo a las
imágenes capturadas durante la noche y aquellas con valor mayor a 50
corresponden a las diurnas, debido a estar expuesta la escena a la radiación
del sol aumentando la temperatura. Respecto a las medias obtenidas en las
imágenes RGB, difícilmente se puede identificar si la captura pertenece a
una realizada durante el día o la noche, puesto que los valores son similares
entre las imágenes diurnas y nocturnas debido a que en las imágenes
capturadas en la noche la escena puede estar iluminada por alguna lámpara,
resultando en un escenario similar al capturado de día. Estos resultados los
podemos ver en la Figura 25. En (a) de Figura 25, se observa que para
imágenes IR, los valores de las medias en imágenes diurnas van de los 53 a
55
95, mientras que en las nocturnas los valores son 18 a 52 como se puede
apreciar en (b) de la Figura 25. Respecto a las medias de las imágenes RGB
de día en (a) de la Figura 26, se puede que los valores van de 35 a 108,
mientras que para las imágenes de noche los valores son entre 15 y 130,
esto se puede corroborar en (b) de la Figura 26. Ante estos resultados se
puede concluir que las imágenes térmicas permiten identificar mejor las
imágenes capturadas de noche o de día.
Figura 25. Media de las imágenes IR. (a) Valores obtenidos al calcular la media para imágenes IR capturadas de día. (b) Valores obtenidos al calcular la media para imágenes IR capturadas de noche.
56
Figura 26. Media de las imágenes RGB. (a) Valores obtenidos al calcular la media para imágenes RGB capturadas
de día. (b) Valores obtenidos al calcular la media para imágenes RGB capturadas de noche.
En la Tabla 4 se muestran las reglas para la etapa de fusión. Nuevamente
este tipo de fusión pertenece a una arquitectura de tipo Score Fusion, al
emplear los resultados de salida de las redes neuronales.
Fusión empleando la media IR
SI NN IR es igual a NN RGB entonces FUSION es igual a el valor de NN RGB
SI NN IR es diferente de NN RGB Y la media IR < 50 entonces FUSIÓN es igual a NN IR de lo
contrario FUSIÓN es igual a NN RGB
Tabla 4. Reglas de decisión para etapa de fusión media IR.
En la Figura 27 se muestra el diagrama completo del método desde la
entrada de las imágenes hasta obtener los resultados de la fusión.
57
Figura 27.Esquema de la arquitectura de Fusión Media IR
4.4.3 Fusión Media IR + Máscara RGB
Al trabajar las imágenes térmicas, en la máscara se observó que los pixeles
arrojados como relevantes en el mapa de calor tenían otro comportamiento
en comparación con las imágenes RGB. La red neuronal IR considera
relevantes para la decisión final los pixeles alrededor del objeto de interés.
Por otro lado, al trabajar a la par con imágenes RGB donde se sabe que
fueron tomadas durante la noche o en la sombra, es decir, menor exposición
de luz, se observó que en estos casos se tiene mayor éxito de identificación
con la red neuronal IR. En cualquier otro caso, las imágenes RGB muestran
un buen funcionamiento con las máscaras calculadas partiendo de la imagen
de entrada a la red. Bajo estos análisis se decide realizar una prueba de
fusión, donde las variables a considerar para la fusión es la media IR y el
resultado obtenido de correlación entre la máscara RGB y el heatmap
obtenido por la red neuronal de la imagen RGB. De esta manera, se le
permite al algoritmo aprovechar que las imágenes IR son buen medio para el
reconocimiento de los objetos que emiten calor en condiciones de poca
iluminación. También se le permite aprovechar que las imágenes RGB
cuentan con mayor información cuando la luz de la escena permite distinguir
entre los objetos presentes durante la captura. Las reglas de fusión se
describen en la Tabla 5. Al estar trabajando directamente con las
58
predicciones realizadas por las redes neuronales, esta red es considerada de
tipo Score Fusion.
Fusión empleando la media IR + máscara RGB
SI media IR < 50 Y máscara RGB < 45 entonces FUSIÓN es igual a NN IR de lo contrario FUSIÓN es
igual a NN RGB
Tabla 5. Reglas de decisión para etapa de fusión media IR + máscara RGB.
La estructura de método empleando esta arquitectura de fusión se puede ver
en la Figura 28.
Figura 28. Esquema de la arquitectura de Fusión Media IR + Máscara RGB
4.4.4 Fusión Media IR + Score NN RGB.
Chengyang Li propone en [14], el uso del score obtenidos por las redes
neuronales, como una variable para la etapa de fusión. De una forma similar
al método de fusión descrito en 4.4.3, se sustituye a puntaje obtenido por la
máscara por el score obtenido de la red neuronal RGB. En esta arquitectura
de fusión, se obtienen los resultados de la red neuronal previo a ser
implementado el método LRP. Sin embargo, los heatmaps son calculados,
pero no usados para la etapa de fusión. Las reglas de decisión de fusión son
presentadas en la tabla 6.
59
Fusión empleando la media IR + Score NN RGB
SI media IR < 50 Y Score NN RGB < 0.5 entonces FUSIÓN es igual a NN IR de lo contrario FUSIÓN es
igual a NN RGB
Tabla 6. Reglas de decisión para etapa de fusión media IR + Score NN RGB previo a aplicar el método LRP.
La arquitectura para esta etapa de fusión se ilustra en la Figura 29.
Figura 29.Esquema de la arquitectura de Fusión Media IR + Score NN RGB.
4.5 Conclusión del capítulo.
Las pruebas realizadas en este trabajo de tesis, fueron enfocadas
principalmente en probar diferentes arquitecturas de fusión, haciendo uso de
los mapas de calor que se obtienen al aplicar el método LRP. Se proponen
cuatro arquitecturas de fusión. Al incluir la media IR para la etapa de fusión
incrementa el porcentaje de exactitud en las etapas de fusión. Los resultados
de comparación se reportan en el capítulo 5.
60
Capítulo 5
Resultados y discusión
En este capítulo, se exponen los resultados obtenidos en el proceso del
entrenamiento de las redes neuronales, los porcentajes de exactitud y
precisión que se obtiene con ellas (RGB y LWIR), algunos ejemplos de las
máscaras creadas para realizar la fusión, así como los heatmaps que se
obtienen. Finalmente se presentan ejemplos de los diferentes casos que son
el aporte principal de este trabajo de tesis.
5.1 Resultados del entrenamiento de las Redes Neuronales.
El proceso de entrenamiento de la red neuronal para imágenes RGB y la red
neuronal para imágenes LWIR, se realiza con capturas obtenidas de la base
de datos KAIST, dicha base de datos cuenta con material en los intervalos
visible (RGB) e infrarrojo (LWIR) de la misma escena. Durante el proceso de
entrenamiento la red neuronal recorre todo el conjunto de datos de
entrenamiento, al finalizar cada recorrido se van ajustando los pesos de cada
capa y se inicia un nuevo recorrido, este proceso se realiza las veces
necesarias con el fin de mejorar el aprendizaje de la red neuronal y que esta
aprenda la mayor cantidad de características del objeto de interés. Después
de cada iteración, el entrenamiento arroja el porcentaje de exactitud que se
obtiene a través de este proceso. Al finalizar los entrenamientos (red para
RGB y red para LWIR) se alcanzan los siguientes resultados: 98.5% y
90.01% respectivamente, mismos que se muestran en Tabla 7
61
Red Neuronal Exactitud
Red Neuronal con imágenes
RGB 98.52%
Red Neuronal con imágenes
LWIR 90.01%
Tabla 7. Tabla de resultados de exactitud obtenidos en el proceso de entrenamiento en las redes
neuronales.
En el capítulo 4, se expone que los datasets de entrenamiento constan de un
total de 20,000 imágenes para cada una de las redes neuronales,
catalogadas el 50% de ellas como verdadero y el resto como falsos. En
comparación con otras redes como GoogleNet o AlexNet, mencionada en
[20], el número de imágenes, el tiempo empleado para el entrenamiento y el
poder computacional disponible para este trabajo parecen ser escasos. Sin
embargo, en esta investigación son significativas y suficientes, ya que los
resultados obtenidos permiten hacer una clasificación adecuada alcanzando
los objetivos de este trabajo.
5.2 Máscaras.
Dado que los pixeles que conforman cada imagen tienen diferentes
intensidades, se calcula un umbral mediante el método de Otsu [19]. Dicho
umbral, es usado para binarizar la imagen y de esta forma genera una
máscara que a su vez permite evaluar la cantidad de pixeles que se
posicionan dentro o fuera del área de interés, es decir, cuantos pixeles
importantes dados por el heatmap se ubican dentro de la región blanca de la
máscara; el uso principal de esta máscara es aplicada en la fusión. En la
Figura 30, se muestra un ejemplo de las máscaras obtenidas, la imagen b)
corresponde a una máscara para la imagen LWIR a su vez la imagen d) la
máscara para una imagen RGB. Los pixeles en blanco representan la parte
interna de la máscara y los píxeles en negro la parte externa de la misma.
62
Figura 30. Figura de máscaras creadas con el método Otsu. a) imagen original de la cámara LWIR, b)
máscara resultante al aplicar el método Otsu a la imagen LWIR, c) Imagen original en escala grises de
la cámara RGB, d) máscara resultante al aplicar el método Otsu a la imagen RGB.
5.3 Heatmaps.
Cada mapa de índices de relevancias obtenidos de la red neuronal es una
matriz formada por los valores normalizados entre 0 a 1. Los valores son
representados por una gama de colores que van desde el azul hasta el rojo,
pasando por matices como el amarillo y el naranja. Al analizar una imagen,
se le asigna uno de estos colores según su relevancia, como se muestra en
la Figura 31 (mapa de color ‘jet’), siendo de un color azul los píxeles menos
importantes y los más relevantes de un color rojo. De esta forma se puede
evidenciar el conjunto de datos más significativos para la red neuronal.
Figura 31. Mapa de colores JET.
63
En las figuras b) y d) de la Figura 32, se observan ejemplos de los heatmaps
para las imágenes LWIR y RGB respectivamente. Es importante notar que el
resultado presentado por el mapa de relevancias entregado para el caso de
las imágenes LWIR en la Figura 32, muestra una configuración de píxeles
diferente a la de RGB. En otras palabras, los píxeles importantes para la red
neuronal en las imágenes RGB se localizan en la región de píxeles que
describe a la persona, esto a la vista de un humano, mientras que en las
imágenes LWIR la relevancia se proyecta en el contorno del objeto de
interés, en este caso de las personas. Esto puede afectar la decisión si es o
no una persona en la etapa de fusión cuando se emplea la máscara ya que
se espera que los pixeles relevantes se posicionen de forma similar a las
RGB. Por ello que es importante destacar la revisión de dichos datos para
estudios posteriores.
En la literatura, no se han reportado trabajos que implementen el método
LRP a imágenes infrarrojas, y que a su vez aporte información para dar
explicación de este fenómeno que se presenta en dichas imágenes.
64
Figura 32. Figura de los mapas de calor (heatmaps) creadas con el método LRP. a) imagen original de
la cámara LWIR, b) heatmap resultante al aplicar el método LRP a la imagen LWIR, c) Imagen original
en escala grises de la cámara RGB, d) heatmap resultante al aplicar el método LRP a la imagen RGB
5.4 Resultados Finales
En éste trabajo, las clases a identificar indican la ausencia o presencia de
una persona en una imagen. En la Figura 33, se observa que para las
imágenes RGB los resultados de exactitud son mejores que para los demás
casos. Sin embargo, se propone complementar la información con las
imágenes IR debido a que las imágenes están sometidas a cambios
constantes de luminosidad. Cuando la imagen RGB es capturada en
condiciones de poca luz, se presentan dificultades para distinguir objetos.
Los resultados obtenidos aplicando la etapa de fusión se pueden mejorar. En
el siguiente capítulo se plantea como estos pueden ser mejorados en futuras
investigaciones.
65
Figura 33. Resultados comparativos de exactitud de las redes neuronales RGB, LWIR y los diferentes
casos al realizar la Fusión.
Se realizó un número de pruebas piloto, donde se emplearon un conjunto de
imágenes diferentes a las usadas en el proceso de entrenamiento. Éste
dataset compuesto por un total de 3,108 imágenes de las cuales el 50%, es
decir, 1554 son catalogadas como verdaderas, de estas 519 son imágenes
capturadas de noche, y el otro 50% del total de la imágenes de prueba se
catalogaron como falsos (imágenes creadas aleatoriamente de escenas
donde no se encuentran personas en capturas diurnas y nocturnas,
distribuidas de la misma manera que las verdaderas). Todas estas imágenes
pertenecen a la base de datos KAIST. Como se observa en la Figura 33, se
resuelve satisfactoriamente en la mayoría de los casos del dataset de
prueba.
Uno de los aportes de este trabajo de tesis es la etapa de la fusión; para los
casos donde ambas redes neuronales coinciden en su predicción, los
90.60 98.26 94.98 96.24 98.07 98.13
0102030405060708090
100
IR RGB Máscara 𝜇 LWIR 𝜇 LWIR / Máscara
𝜇 LWIR / ACCRGB
%
Exactitud
66
resultados de salida de la fusión se mantendrán. La fusión permitirá decidir a
qué red neuronal creerle cuando ambas respondan con diferente
reconocimiento. En estos casos, contamos con 4 métodos propuestos en los
cuales se obtienen 55.82%, 69.18%, 88.7% y 89.38% de una predicción
correcta, como se muestra en la Figura 34. La red neuronal para LWIR crea
falsos positivos, es decir, la red identifica la presencia de una persona
cuando en realidad no la hay.
Figura 34. Comparación de las predicciones realizadas en los casos en donde las redes neuronales
RGB y LWIR discrepan entre ellas.
Como trabajo a futuro, se propone entrenar con más ejemplos ambas redes
neuronales y mejorar el método de fusión, principalmente la asignación de
pesos en casos ambiguos, esto con el fin de mejorar la predicción en la
etapa de la fusión permitiendo que cada técnica aporte según sus
características.
A continuación, se exponen algunos casos que se presentaron en las
pruebas realizadas durante este trabajo. La Figura 35 y la Figura 36,
55.8269.18
88.7 89.38
0
10
20
30
40
50
60
70
80
90
100
Máscara 𝜇 LWIR 𝜇 LWIR / Máscara
𝜇 LWIR / ACCRGB
%
Predicción sólo fusión
67
pertenecen a los casos en los cuales ambas redes neuronales lograron hacer
correctamente la clasificación para eventos, en los que existe una persona
en la escena. Las imágenes d) y h) de dichas figuras, representan el traslape
de la imagen original con los píxeles relevantes del Heatmap. En estas
últimas representaciones se visualiza con mejor detalle las posiciones en las
que se localizan los píxeles con mayor relevancia sobre la imagen de entrada
(RGB o IR).
Figura 35. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la
imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la
imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)
Traslape de la imagen e) y g).
68
Figura 36. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la
imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la
imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)
Traslape de la imagen e) y g).
En la Figura 37, se expone una escena capturada de noche, misma en que el
vehículo con las cámaras montadas ilumina de forma parcial la escena. En
este evento ambas redes neuronales clasifican de forma correcta los datos
obtenidos por los sensores y se puede destacar que el resultado por el
método LRP proyectado en el mapa de calor para la imagen RGB denotan
mejor la forma de la persona, en comparación a la máscara.
69
Figura 37. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la
imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la
imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)
Traslape de la imagen e) y g).
Como se menciona al principio de esta Sección, una de las principales
razones por las cuales agregar la información que aporta una cámara térmica
(LWIR) se refleja en las escenas con poca luminosidad, por ejemplo,
capturas realizadas en la noche y no hay alguna fuente de luz que pueda
iluminar el escenario lo suficiente para distinguir claramente los objetos
existentes en ella. En la Figura 38, se muestran los resultados obtenidos en
la imagen RGB, donde no aporta suficiente información para identificar a la
persona, clasificando la imagen en la categoría de ausencia de persona. Por
otra parte, la imagen LWIR contiene información suficiente para identificar a
70
la persona. Logrando obtener como resultado de la fusión la identificación
correcta del objeto en cuestión.
Figura 38. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la
imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la
imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)
Traslape de la imagen e) y g).
La contraparte de lo expuesto en el párrafo anterior sucede cuando en la
imagen LWIR no se cuenta con la información adecuada para realizar una
exitosa identificación. En éste caso, el resultado de la red neuronal de RGB
se puede fusionar para complementar con la información captada por RGB.
Este suceso se expone en la Figura 39, observe que para el caso LWIR el
calor que emite la persona es similar a la emitida por un objeto en el fondo de
la imagen, haciendo que el objeto en cuestión se confunda con el fondo y la
red neuronal entrenada para estas imágenes no realiza una clasificación
71
correcta. Estos eventos son más frecuentes en capturas realizadas durante
el día en comparación a escenarios nocturnos.
Figura 39. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la
imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la
imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)
Traslape de la imagen e) y g).
Un caso similar se presenta cuando la red neuronal para LWIR considera los
píxeles como si se tratara de una persona, sin embargo, la otra red identifica
la ausencia de ésta con un mayor peso, logrando con ello que la fusión tenga
el resultado esperado, como se muestra en la Figura 40.
72
Figura 40. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la
imagen LWIR, c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la
imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) Heatmap resultante al aplicar el método LRP a la imagen RGB, h)
Traslape de la imagen e) y g).
En algunos casos, las redes hacen una clasificación errónea. Por ejemplo, el
evento de la Figura 41 ocurre en una escena nocturna, la persona es
iluminada parcialmente y el efecto generado por la luz del vehículo causa
que la red neuronal de RGB no logre clasificar correctamente. Por otra parte,
la imagen LWIR no aporta suficiente información para identificar a la
persona.
En este segundo caso, en la Figura 42 la captura es realizada en condiciones
de luz de día, sin embargo, ambas redes neuronales confunden el objeto que
se observa en la escena con una persona, por la tanto la etapa de fusión
también resulta errónea.
73
Figura 41. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la imagen LWIR,
c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen
original en escala grises de la cámara RGB, f) máscara resultante al aplicar el método Otsu a la imagen RGB, g)
Heatmap resultante al aplicar el método LRP a la imagen RGB, h) Traslape de la imagen e) y g).
Figura 42. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la imagen LWIR,
c) Heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la imagen a) y c), e) Imagen
original en escala grises de la cámara RGB, f) máscara resultante al aplicar el método Otsu a la imagen RGB, g)
Heatmap resultante al aplicar el método LRP a la imagen RGB, h) Traslape de la imagen e) y g).
74
Para el último caso, se quiere exponer una captura realizada en la noche, en
donde la red neuronal RGB confunde los píxeles de la imagen con una
persona, y por el peso obtenido al momento de comparar la máscara, los
valores son superiores a la otra red que realiza una clasificación correcta,
como se muestra en la Figura 43. Estos últimos eventos nos indican que se
pueden obtener resultados aún mejores a los presentados al inicio de este
capítulo.
Figura 43. a) imagen original de la cámara LWIR, b) máscara resultante al aplicar el método Otsu a la
imagen LWIR, c) heatmap resultante al aplicar el método LRP a la imagen LWIR, d) Traslape de la
imagen a) y c), e) Imagen original en escala grises de la cámara RGB, f) máscara resultante al aplicar
el método Otsu a la imagen RGB, g) heatmap resultante al aplicar el método LRP a la imagen RGB, h)
Traslape de la imagen e) y g).
5.5 Conclusión del capítulo.
Los resultados obtenidos en estos experimentos son satisfactorios: Las redes
neuronales logran identificar en la mayoría de los casos y de forma exitosa la
presencia de la persona, así mismo, la fusión implementada logra resolver en
75
la mayoría de los casos de forma adecuada. De los casos especiales
expuestos en la sección anterior, se identifica que es necesario reentrenar
las redes con un mayor número de muestras en distintos escenarios y
condiciones de luminosidad. La fusión se puede mejorar, se propone agregar
la información del histograma de las imágenes, para poder identificar si el
escenario es diurno o nocturno, esto con el fin de darle mayor peso a la
decisión que realice una u otra red, según sea el caso.
Capítulo 6
Conclusiones y trabajo futuro.
6.1 Conclusiones.
En los procesos de entrenamiento de las redes neuronales, se decide no
emplear estructuras de redes neuronales preentrenadas; esto con la finalidad
de generar los mapas de calor que permita visualizar el aprendizaje que cada
red neuronal realiza por sí misma. Como parte de este proceso, como se
muestra en el capítulo 4, los heatmaps que corresponden a cada etapa de
convolución, en donde se demuestra que, conforme se avanza en cada capa
de convolución, los pixeles más relevantes describen de mejor forma al
objeto identificado.
Este trabajo de tesis se centró en presentar métodos de fusión de imágenes
en el espectro visible y térmico, para ser aplicadas en redes neuronales. Se
aplicó un método explicativo de reciente publicación, llamado Layer-wise
Relevance Propagation, que se puede emplear en técnicas de aprendizaje
automático. Al aplicar este método se hicieron 3 experimentos con tres
76
ecuaciones distintas propuestas para este método. Como resultado de este
experimento se demostró que para esta aplicación la ecuación llamada
alpha-beta dio mejores resultados para generar los mapas de calor. Los
mapas de calor obtenidos en la red neuronal entrenada con imágenes
térmicas, son resultados visualizados por primera vez con un método
explicativo (aún no se tiene reporte de la aplicación de métodos explicativos
a redes neuronales entrenadas con imágenes térmicas).
De acuerdo a la literatura, al emplear dos redes neuronales paralelas para
analizar las imágenes visibles y térmicas por separado, se obtienen mejores
resultados, esto en comparación a realizar una fusión pixel a pixel previo a
ser ingresadas a las redes neuronales.
De los experimentos realizados con las cuatro arquitecturas propuestas en la
sección 4.4, se puede concluir que la integración de la media IR, arroja
mejores resultados que en comparación con las estructuras de fusión en
donde esta no es incluida. Por otro lado, la arquitectura Fusión Media IR +
Máscara RGB, no obtiene mejores resultados en comparación a la estructura
Fusión Media IR + Score RGB. De esto podemos concluir que, el emplear la
máscara y el heatmap, puede ser omitido de la etapa de fusión para obtener
una decisión. Sin embargo, se sigue aplicando el método LRP para que un
experto corrobore las decisiones que toman las redes neuronales, cómo se
explica en la justificación de esta investigación. El emplear estos mapas en el
proceso de fusión es una propuesta que surge durante el desarrollo de este
trabajo.
En general, los resultados obtenidos en este trabajo son bastante
prometedores de que se debe seguir desarrollando investigación en esta
misma línea.
77
6.2 Principales contribuciones.
Las principales contribuciones se enlistan a continuación:
Se obtiene una metodología de identificación de peatones empleando
redes neuronales y fusión de sensores, que permite por medio del
método LRP explicar las decisiones que toman las redes neuronales.
Por primera vez se visualiza con un método explicativo, el aprendizaje
de una red neuronal entrenado con imágenes térmicas. En los
heatmaps que se obtienen por esta red neuronal, los pixeles con
mayor relevancia se posicionan en el contorno de la persona de forma
distinta a la esperada. Se esperaría que se posicionaran de forma
similar a los resultados obtenidos con la red entrenada con imágenes
a color, en la que los pixeles relevantes se ubican sobre el objeto de
interés y no en su contorno exterior.
Los resultados obtenidos en esta tesis son publicables.
6.3 Trabajo Futuro.
Para trabajo futuro, se propone reentrenar las redes con un mayor número
de ejemplos de imágenes RGB e IR para mejorar sus resultados. Otra
propuesta, es emplear redes neuronales preentrenadas como por ejemplo
GoogleNet o AlexNet, incorporar los tres canales de las imágenes visibles y
corroborar si los heatmaps son similares a los obtenidos en este trabajo.
Aplicar otros métodos explicativos, por ejemplo, un método llamado Deep
Taylor Decomposition, y comparar los resultados principalmente en los casos
de las redes neuronales entrenadas con imágenes térmicas.
Respecto a la etapa de fusión se propone realizar dos experimentos.
Realizar pruebas con otros métodos de fusión propuestos por algunos
78
autores e incorporar a la metodología una tercera red neuronal como parte
de la fusión que permitan identificar si las imágenes de entrada pertenecen a
un escenario diurno o nocturno, con esto asignarle un mayor peso a la red
neuronal que aporte mayor información según sea el caso; por ejemplo, en
eventos nocturnos usualmente la red neuronal con imágenes térmicas aporta
más información en comparación con la red neuronal entrenada con
imágenes RGB.
Referencias
[1] B. A. M. G. K. F. M. K.-R. S. W. Bach S, «On Pixel-Wise Explanations for Non-Linear
Classifier Decisions by Layer-Wise Relevance Propagation,» PLoS ONE, nº 10(7):
e0130140, 2015.
[2] S. L. A. B. W. S. K.-R. M. G. Montavon, «Explaining nonlinear classification decisions with
deep Taylor decomposition,» sciencedirect, vol. 65, nº ISSN 0031-3203, pp. 211-222,
2017.
[3] The European Space Agency, «esa.int,» [En línea]. Available:
http://www.esa.int/SPECIALS/Eduspace_EN/SEM1NP3Z2OF_0.html. [Último acceso: 23
08 2018].
[4] J. A. &. Z.-T. P. &. S. L. &. F. E. J. Berni, «Thermal and Narrowband Multispectral Remote
Sensing for Vegetation Monitoring From an Unmanned Aerial Vehicle.,» Geoscience and
Remote Sensing, IEEE Transactions , nº 47, pp. 722 - 738, 2009.
[5] M. &. L. F. A. &. M. S. &. F. B. J. Erena, «The use of remote sensing and geographic
information systems for irrigation management in Southwest Europe.,» researchgate,
nº 67, 2012.
[6] H. K. Resnick, Física Vol. 2 5ta ed., México: Continental, S.A de C.V, 1999.
[7] A. E. O. E. R. D. H. y. L. R. A. A. P. Avila Guzmán, «tellar Spectra Classification with
Machine Learning Classifier Systems and Chebyshev Coefficients using the Tonantzintla
Schmidt Camera Plate Collection,» de Mexican International Conference on Artificial
Intelligence, Guadalajara, Jalisco, 2019, 2018.
79
[8] Visiononline, «Visiononline,» [En línea]. Available:
https://www.visiononline.es/productos/camaras/attachment/espectro-
electromagnetico-vision-artificial-visiononline/. [Último acceso: 15 06 2018].
[9] Matlab, «Machine Learning,» [En línea]. Available:
https://la.mathworks.com/discovery/machine-learning.html?s_tid=srchtitle. [Último
acceso: 20 Febrero 2018].
[10] Matlab, «SVM,» [En línea]. Available: https://la.mathworks.com/discovery/svm-
maquina-vectores-soporte.html. [Último acceso: Marzo 26 2018].
[11] Matlab, «K-NN,» [En línea]. Available:
https://la.mathworks.com/help/stats/classification-nearest-neighbors.html. [Último
acceso: 3 Abril 2018].
[12] J. J. &. A. Karpathy, « CS231n: Convolutional Neural Networks for Visual Recognition,»
Stanford, [En línea]. Available: http://cs231n.github.io/classification/. [Último acceso:
22 02 2018].
[13] J. L. C. Carrillo, «Módulo Clasificador de Imágenes Ópticas Multiespectrales Aplicado al
área de Geociencias.,» San Luis Potosí, 2016.
[14] D. S. R. T. &. M. T. Chengyang Li, «Illumination-aware faster R-CNN for robust
multispectral pedestrian detection,» ELSEVIER, vol. 85, nº
10.1016/j.patcog.2018.08.005, pp. 161-171, 2019.
[15] V. F. M. H. &. S. B. J. Wagner, «Multispectral Pedestrian Detection using Deep Fusion
Convolutional Neural Networks,» Researchgate, 2016.
[16] Y. S. X. H. Y. S. M. Q. &. H. C. Y. Hou, «Multispectral pedestrian detection based on deep
convolutional neural networks,» Elsevier, vol. 94, pp. 67-77, 2018.
[17] J. P. N. K. Y. C. I. S. K. S. Hwang, «Multispectral Pedestrian Detection: Benchmark
Dataset and Baselines,» de Proceedings of IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), 2015.
[18] A. B. G. M. K.-R. M. W. S. S. Lapuschkin, «The LRP Toolbox for Artificial Neural
Networks,» Journal of Machine Learning Research, vol. 17, pp. 1-5, 2016.
[19] J. N. W. Gerhard X. Ritter, Handbook of computer vision algorithms in image algebra,
Florida, USA: CRC Press LLC, 2000.
[20] E. C. &. A. P. A. Canziani, «An Analysis of Deep Neural Network Models For Practical
Applications,» arXiv.org, nº arXiv:1605.07678v4, 2017.