PROPUESTA DE UN MODELO DE PREDICCIÓN DEL CENTRO DE UN HOTSPOT DE
CRIMEN IDENTIFICADO EN LA CIUDAD DE SAN FRANCISCO, USA.
DIEGO FELIPE MAYORGA GÓMEZ
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
Facultad de ingeniería
Bogotá D.C.
2016
ii Trabajo de Grado
Requisito para optar por el título de Ingeniero de Sistemas e Ingeniero Electrónico,
Diego Felipe Mayorga Gómez 20101005017
Director:
Miguel Alberto Melgarejo Rey
Profesor Asociado
Facultad de Ingeniería – Laboratorio de Automática e Inteligencia Computacional
Universidad Distrital Francisco José de Caldas
Facultad de Ingeniería
Bogotá D.C. – Colombia
iii
Nota de Aceptación:
______________________________
______________________________
______________________________
______________________________
______________________________
Firma del Jurado
Bogotá D.C. 2017
iv
A mis padres, Aravi y Adriana
A mis hermanas, María y Camila,
Y a Juliana,
Por ese apoyo incondicional,
Su alegría y su amor.
Diego.
v
Resumen
Este trabajo presenta una propuesta metodológica para la predicción de un centro de hotspot
de crimen de la ciudad de San Francisco en dos contextos particulares utilizando un sistema
difuso basado en la estructura ANFIS y sintonizado por un algoritmo memético. Todo esto con
la información proveniente de la base de datos de crímenes de la ciudad de San Francisco.
El análisis de crimen ha sido estudiado de manera extensa pero el fenómeno del crimen
permanece como una problemática mundial. Por esto, diferentes disciplinas y acercamientos se
están uniendo para encontrar una solución al crecimiento de estos sucesos. La presencia de este
fenómeno en todas las grandes ciudades del mundo ha impulsado a grandes avances y grandes
formas de recopilación de datos para así tener más información con la que se puede llegar a
entender mejor el crimen.
Dentro de los nuevos acercamientos se realiza esta propuesta que pretende sumergir la
inteligencia computacional en un problema social donde el ser humano es el principal promotor
de este fenómeno. Los métodos de inteligencia computacional que fueron utilizados en esta
propuesta se basan en los sistemas difusos, las agrupaciones por medio de conjuntos difusos y los
algoritmos meméticos. Estos algoritmos memético se usaron como técnicas de optimización para
sintonizar el sistema difuso de la predicción.
Para el desarrollo de esta propuesta primero se hizo una recopilación de los datos. Estos
fueron agrupados de diferentes maneras para generar series de tiempo que mostraran tendencias
diferentes del mismo fenómeno. Por ejemplo, los dos contextos que fueron estudiados en este
proyecto fueron, primero, una separación semanal de los sucesos de crimen con una diferencia
diaria entre cada separación. Segundo se agruparon los datos mensualmente con una diferencia
semana, incorporando así la variable tiempo a los datos y siendo así posible generar series de
tiempo.
Para la generación de las series de tiempo se tomaron los datos que fueron separados por
ventanas de tiempo y cada ventana de tiempo fue agrupada por medio del algoritmo Fuzzy C-
Means (FCM, por sus siglas en inglés). Para mantener la consistencia espacio-temporal de las
series de tiempo se creó el Clustering Reorganization Algorithm (CRA, por sus siglas en inglés).
Una vez obtenidas las series se realizaron los experimentos para la sintonización de los
parámetros de los sistemas difusos. Esto con el fin de realizar una predicción de las series de
tiempo construidas
Finalmente los resultados muestran que es posible dar una predicción con un sistema difuso el
cual es posible configurar con el sistema memético. Esta predicción puede abrir una ventana a
una nueva forma de toma de decisiones para la fuerza pública.
vi
Agradecimientos
A Dios por darme la fortaleza de continuar durante toda la carrera.
A mi familia por el apoyo incondicional, los días de ayuda para mantener el camino que deseo.
Al profesor Miguel Melgarejo por su dedicación, su guía su apoyo y palabras de aliento durante
todo el desarrollo del proyecto.
A la Universidad Distrital por ofrecerme una educación de alta calidad, que me permitió ampliar
mi visión y tener un carácter critico frente a la vida.
A Juliana Vidales, por su amor, su apoyo y su constante compañía a través de todo este proceso.
Diego.
vii Tabla de Contenidos
Resumen…………………………………………………………………………………………...v
Agradecimientos……………………………………………………………………………….…vi
Tabla de Contenido………………………………………………………………………………vii
Lista de Tablas……………………………………………………………………………………ix
Lista de Figuras……………………………………………………………………………………x
1. Capítulo 1…………………………...…………………………………………………….1
1.1.Planteamiento del Problema…….……………………………………...……………..1
1.2.Objetivos………………….…………………………………………………………...3
1.2.1. Objetivo General…………………………………………………………..3
1.2.2. Objetivos Específicos……………………………………………………...3
1.3.Solución Propuesta……………….……………………………………………………3
1.4.Contenido del Libro……………….………………………...………………………...4
2. Capítulo 2. Marco de Referencia………………………………………………………..5
2.1.Análisis de Crimen…………….………………………………………………………5
2.2.Métodos de Agrupamiento…….………………………………………………………6
2.3.Sistemas de Inferencia Difusa….……………………………………………………...8
2.4.Computación Evolutiva…………….…………………...…………………………….9
3. Capítulo 3. Algoritmo de Reorganización (CRA)...………………...………………...11
3.1.Descripción de la Base de Datos……………….…………………………………….11
3.2.Características Extraídas……………………….…………………………………….11
3.3.Organización de la Base de Datos……………….………………………………..…12
3.4.Algoritmo de Reorganización…………………….………………………………….13
3.4.1. Inicialización……………………………………………………………..15
3.4.2. Iteración………………………………………………………………….15
3.4.3. Evaluación de Distancia…….……………………………………………17
3.4.4. Descartando el Mínimo Falso……………………………………...…….18
3.4.5. Asignación……………………………………………………………….19
3.5.Agrupamiento de ventanas de tiempo con el algoritmo de reorganización……...…..19
3.6.Construcción de las series de Tiempo………………………………………………..20
4. Capítulo 4. Propuesta para la sintonización de un sistema de inferencia difusa por
medio de un algoritmo memético…….......……………...……………………………..24
4.1.Modelo Propuesto……….…………………………………………………………...24
4.2.Función Objetivo………….……………...……………………………………….…26
4.3.Construcción del meme…….………………………………………………………...29
4.4.Inicialización de la Población….……………………...……………………………..29
4.5.Inicialización del FIS………….……………………………………………...……...30
4.6.Optimización Local…………….…………………………………………………….31
4.6.1. ANFIS (Adaptive neuro-fuzzy Inference System)……………………....32
4.7.Factor Fano y diversidad de la población…………………………………..………..35
4.8.Resumen……………………………………………………………………………...36
5.Capítulo 5. Experimentos y Resultados……………………………....……………….37
5.1.Experimentos…………………………………………………………………….…..37
5.2.Contexto I……………………………………………………………………………38
5.2.1. Comparación de Número de Reglas……………………………………..38
viii
5.2.1.1.Análisis de Resultados de Entrenamiento…………….………….39
5.2.1.2.Análisis de Resultados de Validación……………………………40
5.2.2. Comparación de Variables del Algoritmo Memético……………………40
5.2.2.1.Análisis de Resultados de Entrenamiento para Probabilidad de
Cruce……………………………………………………………..41
5.2.2.2.Análisis de Resultados de Validación……….…………………...43
5.2.2.3.Análisis de Resultados de Entrenamiento para Probabilidad de
Mutación…………………………………………………………44
5.2.2.4.Análisis de Resultados de Validación……………………………46
5.2.2.5.Análisis de Resultados de Entrenamiento del Tamaño de
Población…………………………………………………………47
5.2.2.6.Análisis de Resultados de Validación………………………...….49
5.2.3. Análisis de Entrenamiento de Número de Entradas……………………..50
5.2.3.1.Análisis de validación de experimentos de la variable X………..51
5.2.3.2.Análisis de validación de experimentos de la variable Y………..54
5.2.3.3.Análisis de validación de experimentos de la variable R………..56
5.3.Contexto II……………………………………………………….…………………..58
5.3.1. Comparación de Número de Reglas………………...…………………...58
5.3.1.1.Análisis de Resultados de Entrenamiento…………….………….58
5.3.1.2.Análisis de Resultados de Validación……………………………60
5.3.2. Comparación de Variables del Algoritmo Memético…………………....60
5.3.2.1.Análisis de Entrenamiento para la Probabilidad de Cruce. …...…61
5.3.2.2.Análisis de Resultados de Validación……………………………62
5.3.2.3.Análisis de Entrenamiento para la Probabilidad de Mutación…...64
5.3.2.4.Análisis de Resultados de Validación……………………………65
5.3.2.5.Análisis de Entrenamiento para el Tamaño de la Población……..67
5.3.2.6.Análisis de Resultados de Validación……………………………69
5.3.3. Análisis de Entrenamiento de Número de Entradas…………..…………70
5.3.3.1.Análisis de validación de experimentos de la variable X………..71
5.3.3.2.Análisis de validación de experimentos de la variable Y………..74
5.3.3.3.Análisis de validación de experimentos de la variable R………..76
5.4.Recopilación y Comparación de Resultados…………………………………………79
6. Capítulo 6. Conclusiones y Trabajo Futuro…...…………………...……………………..81
6.1.Resumen………………………………….…………………………………………..81
6.2.Aportes Originales……………………….…………………………………………..82
6.3.Trabajo Futuro…………………………….…………………………...…………….83
7. Referencias...………………………………………………………………………………...84
ix Lista de tablas
Tabla 1. Relación de estadísticos……………………………………………………………..…26
Tabla 2. Resultados de prueba preliminar de variación de número de reglas……………………39
Tabla 3. Resultados de validación de Valor de Cruce…………………………………………...42
Tabla 4. Resultados de validación de pruebas de probabilidad de mutación…………………….45
Tabla 5. Resultados de validación de experimento para el tamaño de población………………..48
Tabla 6. Parámetros sintonizados del sistema propuesto………………………………………...49
Tabla 7 Resultados de variación de Número de Reglas………………………………………….58
Tabla 8. Resultados de validación de probabilidad de cruce…………………………………….62
Tabla 9. Resultados de validación para experimento de probabilidad de mutación……………..65
Tabla 10. Variación del tamaño de población para (a) Variable X, (b) Variable Y (c) Variable
R………………………………………………………………………………………………….68
Tabla 11. Parámetros sintonizados del sistema propuesto……..………………………………...69
x Lista de figuras
Figura 1 Hotspots Circulares…………………………...……………………….…………......….7
Figura 2 Hotspots Elipsoidales………………………………...……………….……………..….7
Figura 3. Hotspots representados por densidad………………………..………..……………...…7
Figura 4. Análisis Getis-Ord (frec) de hotspots……………………………...….………………...7
Figura 5. Estructura de un sistema difuso……………………………….…………...……………9
Figura 6. Algoritmo del marco general de trabajo del MA …………….….………………...…..10
Figura 7. División de la base de datos por ventanas de 7 días………….………………………..13
Figura 8. Ventanas de tiempo……………………….………………………………………...…13
Figura 9 Inicialización Aleatoria…………………….…………………………………………..14
Figura 10. Procedure of CRA in iteration………………………………………………………..16
Figura 11. Agrupamientos repetidos……………………………………………………………..16
Figura 12. Distancia entre agrupamientos……………………………………………………….17
Figura 13. Criterio de distancia mínima…………………………………………………………18
Figura 14. Convex Hull de agrupamientos…………………………………………………...….19
Figura 15. Matrices de partición difusa……………………………………………………….…19
Figura 16. Aproximación de agrupamientos a círculos……………………………………….....20
Figura 17. Series de tiempo de semanas con un día de diferencia. ……………………...………21
Figura 17.1 Series de tiempo de semanas con un día de diferencia para 8 agrupaciones………..22 Figura 18. Series de tiempo de días de la semana por año……………………………………....22
Figura 19. Series de tiempo de noches de la semana por año…………………………………....22
Figura 20. Series de tiempo de horas por año……………………………………………...…….22
Figura 21. Series de tiempo por semana por mes..........…………………………………………23
Figura 22. Método propuesto………………………………………………………...…………..24
Figura 23. Algoritmo Memético……………………………………………………………....…25
Figura 24. Variación de F.O. en función de los diferentes estadísticos……………………….....28
Figura 25. Construcción del meme………………………………………………………………29
Figura 26. Estructura de la población…………………………………………………………....29
Figura 27. Inicialización del FIS………………………………………………………………....30
Figura 28. Matriz de entrenamiento de ANFIS……………………………………………….…32
Figura 29. Estructura de red de ANFIS……………………………………………….……...….33
Figura 30. Convergencia con reglas……………………………………………………………..35
Figura 31. Función Objetivo de Número de Reglas (a) Para X (b) para Y (c) para R………..39
Figura 32. Variación de número de reglas para (a) Variable X, (b) Variable Y y (c) Variable
R………………………………………………………………………………………………….41
Figura 33 Función Objetivo de Probabilidad de Cruce para X (a) Valor de Cruce de 0.5 a 0.7 (b)
Valor de Cruce de 0.75 a 0.95……………………………………………………………………41
Figura 34 Función Objetivo de Probabilidad de Cruce para Y (a) Valor de Cruce de 0.5 a 0.7 (b)
Valor de Cruce de 0.75 a 0.95……………………………………………………………………42
Figura 35 Función Objetivo de Probabilidad de Cruce para R (a) Valor de Cruce de 0.5 a 0.7 (b)
Valor de Cruce de 0.75 a 0.95……………………………………………………………………42
Figura 36. Variación de probabilidad de cruce para (a) Variable X, (b) Variable Y y (c) Variable
R…………………………………………………………………………..……………………...44
Figura 37. Función Objetivo de Probabilidad de Mutación para X (a) Valor de Cruce de 0.01 a
0.05 (b) Valor de Cruce de 0.06 a 0.1…………………………………………………………....45
xi
Figura 38 Función Objetivo de Probabilidad de Mutación para Y .(a) Valor de Cruce de 0.01 a
0.05 (b) Valor de Cruce de 0.06 a 0.1………………………………...………………………….45
Figura 39 Función Objetivo de Probabilidad de Mutación para R (a) Valor de Cruce de 0.01 a
0.05 (b) Valor de Cruce de 0.06 a 0.1……………………………………………………………45
Figura 40. Variación de probabilidad de mutación para (a) Variable X, (b) Variable Y y (c)
Variable R…………………………………………………………………………..……………46
Figura 41 Función Objetivo diferentes tamaños de población para X. (a) Tamaño de población
entre 10 y 18 (b) Tamaño de población entre 20 y 28………………………...……………..….47
Figura 42 Función Objetivo diferentes tamaños de población para Y (a)Tamaño de población
entre 10 y 18 (b) Tamaño de población entre 20 y 28…………………………………………..48
Figura 43. Función Objetivo diferentes tamaños de población para R. (a) Tamaño de población
entre 10 y 18 (b) Tamaño de población entre 20 y 28………………………..............................48
Figura 44. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable
R…………………………………………………………………………….…………………....49
Figura 45. Histogramas de diferente número de regresores para X……………………………...52
Figura 46. Serie de tiempo de variable X………………………………………………..............52
Figura 47. Diagrama de dispersión Real vs. Predicción…………………………………………52
Figura 48. Base de reglas para la variable X………………………………………………….…53
Figura 49. Histogramas de diferente número de regresores para Y………………………..…....54
Figura 50. Serie de tiempo de variable Y………………………………………………..............54
Figura 51. Diagrama de dispersión Real vs. Predicción…………………………………….......55
Figura 52. Base de Reglas para la variable Y…………………………………………………....55
Figura 53. Histograma de diferente número de regresores para la variable R………….………..56
Figura 54. Serie de tiempo de variable Y………………………………………………..............56
Figura 55. Diagrama de dispersión Real vs. Predicción………………………………………...57
Figura 56 Base de reglas para la variable R……………………………………………………...57
Figura 57 Función Objetivo de Número de Reglas (a) Para X (b) Para Y (c) Para R………...…58
Figura 58 Variación de número de reglas para (a) Variable X, (b) Variable Y y (c) Variable R..59
Figura 59 Función Objetivo de Probabilidad de Cruce para X. .(a) Valor de Cruce de 0.5 a 0.7 (b)
Valor de Cruce de 0.75 a 0.95……………………………………………….………………...…61
Figura 60 Función Objetivo de Probabilidad de Cruce para Y. (a) Valor de Cruce de 0.5 a 0.7 (b)
Valor de Cruce de 0.75 a 0.95……………………………………………………………………61
Figura 61 Función Objetivo de Probabilidad de Cruce para R. (a) Valor de Cruce de 0.5 a 0.7 (b)
Valor de Cruce de 0.75 a 0.95…………………………………………………..………………..62
Figura 62. Variación de probabilidad de cruce para (a) Variable X, (b) Variable Y y (c) Variable
R………………………………………………………………………………………………….63
Figura 63. Función Objetivo de Probabilidad de Mutación para X. (a)Valor de Cruce de 0.01 a
0.05 (b) Valor de Cruce de 0.06 a 0.1…………………………………………………………....64
Figura 64. Función Objetivo de Probabilidad de Mutación para Y.(a) Valor de Cruce de 0.01 a
0.05 (b) Valor de Cruce de 0.06 a 0.1………………………………………….………………...64
Figura 65. Función Objetivo de Probabilidad de Mutación para R. (a) Valor de Cruce de 0.01 a
0.05 (b) Valor de Cruce de 0.06 a 0.1………………………………………….………………...65
Figura 66. Variación de la probabilidad de mutación para (a) Variable X, (b) Variable Y (c)
Variable R…………………………………………………………………………………….….66
xii
Figura 67. Función Objetivo diferentes tamaños de población para X. (a) Tamaño de población
entre 10 y 18 (b) Tamaño de población entre 20 y 28……………………………….………….67
Figura 68. Función Objetivo diferentes tamaños de población para Y. (a) Tamaño de población
entre 10 y 18 (b) Tamaño de población entre 20 y 28………………………………………......68
Figura 69 Función Objetivo diferentes tamaños de población para R. (a)Tamaño de población
entre 10 y 18 (b) Tamaño de población entre 20 y 28…………………………………………..68
Figura 70. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable
R…………………………………………………………………………….…………………....70
Figura 71. Histograma de número de regresores…………………………………………...……71
Figura 72. Serie de tiempo para Variable X. Real (Azul), Predicción
(Roja)……………………………………………………………………………….……………72
Figura 73. Diagrama de dispersión de variable X real y predicción……………………………..73
Figura 74. Base de reglas resultante para X…………………………………………………...…73
Figura 75. Histogramas de diferente número de regresores para Y……………………………...74
Figura 76. Serie de tiempo variable Y………………………………………………………...…75
Figura 77. Diagrama de dispersión Real vs Predicción para Y……………...…………………..75
Figura 78. Base reglas para la variable Y………………………………………………..............76
Figura 79. Histogramas de la variable R………………………………………………………....77
Figura 80. Serie de tiempo de variable R………………………………………………………...77
Figura 81. Diagrama de dispersión de la variable R……………………………………………..78
Figura 82. Base de Reglas para R………………………………………………………..............79
1
Capítulo 1
1.1. Planteamiento del problema
El crimen ha acompañado al ser humano y ha afectado su convivencia en comunidad
durante toda la historia. Esta incidencia en la convivencia genera una problemática social,
ya sea, por los costos o simplemente la seguridad en una ciudad o una nación. Este
fenómeno ha crecido en los últimos tiempos debido al desplazamiento del hombre a las
ciudades, y aunque se han tomado medidas de contingencia, la problemática es cada vez
de mayor importancia. Según el FBI en el año 2013 se reportó un estimado de 1’163,146
de crímenes violentos y 8’632,512 crímenes de propiedad [1]. Estas estadísticas hacen
solo referencia a los incidentes dentro de los Estados Unidos por lo que mundialmente la
cifra es aún más alarmante, por ejemplo en Taiwán el volumen de crimen ha
incrementado más de 71% en la última década [2].
Los gobiernos han decidido invertir no solo dinero sino también personal y fuerza
pública para el estudio, análisis, prevención y toma de decisiones frente a este fenómeno.
Aunque el estudio ha sido a fondo, este ha dado lugar a muchas interrogantes que aún
hoy siguen siendo inciertas y discutidas como lo son las causas por las cuales se presenta
el crimen y el motivo de la práctica tan regular en las ciudades modernas. Acerca de
cuáles son las posibles causas del crimen, varios autores han trabajado en el
planteamiento de algunas teorías como: 1) La teoría de actividades rutinarias de crimen
[3] y 2) la teoría del crimen situacional [4].
Desde estas teorías podemos encontrarnos con el análisis del crimen. Este análisis que
tiene como fin mejorar la calidad de vida de las comunidades [5] recolecta, prepara e
interpreta información sobre los crímenes como apoyo a la fuerza pública para la
prevención del mismo [5]. Este se basa en la teoría de actividades rutinarias y analiza y
estudia espacialmente como se distribuyen los delitos en una zona. Agrupando los
incidentes de acuerdo con sus características espaciales (distancia entre incidentes [6],
[7], densidad regional y tasas de concentración [8]) por medio de métodos de
agrupamiento como el FCM, EFCM, [6] GK y el EGK [7]. Algoritmos que por medio de
funciones objetivo cuya variable principal es la distancia entre hechos criminales,
identifican lo que conocemos como hotspots [5].
Los hotspots, zonas donde el crimen ocurre con mayor frecuencia, muestran como el
crimen se distribuye, por ejemplo en una ciudad, y da pautas para la distribución de los
escasos recursos de la fuerza pública como rutas de patrullas [8] o de helicópteros [9]
2
donde se intenta hacer una predicción sobre los hotspots del área de interés para tener una
mejor cobertura con los recursos a disposición. En caso de emergencia estos recursos no
podrían abarcar toda el área de interés. Por tanto deben ser distribuidos de manera
eficiente y así colaborar con la disminución en las tasas de crimen. Ya que habrá una
mayor posibilidad de la presencia guardián capaz de proteger una víctima potencial si se
toma como referencia el/los hotspots identificados.
Al observar el comportamiento espacio temporal de los hotspots es posible encontrar
tendencias sobre las zonas de riesgo, lo cual implica que los incidentes de crimen no
ocurren al azar. Como se plantea en [10], la ocurrencia del crimen tiende hacia zonas
particulares por la interacción entre víctima y victimario y la posibilidad de cometer un
crimen. Esto genera tendencias. Encontrar estas tendencias en las zonas donde es más
frecuente el crimen y el comportamiento de los hotspots en el transcurso del tiempo
facilita la predicción de las zonas de mayor riesgo y por lo tanto colabora a la mejoría en
la efectividad de la distribución de los recursos policiales.
En general, las propuestas para modelar el comportamiento de los hotspots han sido de
tipo probabilístico [8], [9], [11]. En [8] la toma de decisiones del enrutamiento de
patrullas no se basa en una predicción, en vez, se tiene en cuenta solo las zonas de riesgo
presentes y no las posibles emergentes, generando una posible zona de riesgo prioritaria
errónea en las nuevas rutas. Aunque en [9] se tiene un modelo probabilístico de
predicción de acuerdo con las tendencias anteriores de los crímenes, no se tiene en cuenta
la incertidumbre de la toma de datos, por ejemplo en la ubicación (longitud y latitud) o la
hora exacta en que ocurrió un crimen en particular. Por esto autores como [2], [12] han
encontrado que agregar lógica difusa al análisis del crimen puede facilitar el
modelamiento. Además, debido al conocimiento lingüístico que tiene la criminalística es
posible que utilizando un sistema de inferencia difusa se puedan extraer reglas que
soportan la toma de decisiones de la fuerza pública por medio de las tendencias del
crimen [2].
Teniendo una visión sistémica del crimen como un fenómeno que emite señales y no
solo como una problemática social entonces se pueden analizar e interpretar estas señales.
Esto, con el fin de obtener un modelo de la dinámica del crimen, encontrando las
propiedades no lineales[13], la incertidumbre y aleatoriedad [12] que presenta. Por lo
tanto, en [2] y [12], una técnica de predicción no lineal como el entrenamiento de un
sistema difuso por medio de métodos evolutivos podría mostrar mejores resultados en la
toma de decisiones de la fuerza pública.
Teniendo en cuenta lo establecido surge entonces la pregunta que se busca resolver
con este trabajo: ¿Cómo sería un modelo basado en la Inteligencia Computacional de la
dinámica espacio-temporal de un hotspot utilizando un sistema difuso entrenado por
métodos evolutivos para soportar la toma de decisiones del despliegue de los recursos
policiales?
3
A parte de esclarecer la importancia en la toma de datos de los delitos en una ciudad
como Bogotá, para facilitar el análisis de crimen, podría ser un escalón de apoyo para
futuros trabajos enfocados al crimen en Colombia mejorando el bienestar y la seguridad
de la ciudadanía colombiana. Desde un punto de vista académico, este trabajo podría dar
paso a una nueva perspectiva de la dinámica de los hotspots dando herramientas para
profundizar en el comportamiento, trabajo que se podrían llevar a cabo en grupos de
investigación, como en la Universidad Distrital Francisco José de Caldas con el grupo de
investigación LAMIC (Laboratorio de Automática e Inteligencia Computacional).
1.2. Objetivos.
1.2.1 Objetivo General.
Desarrollar un modelo de predicción de la dinámica espacio-temporal de los centros
de uno de los hotspot con coordenadas x, y (longitud, latitud) en la ciudad de San
Francisco, USA por medio de un sistema difuso sintonizado con el algoritmo evolutivo
memético para el soporte en la toma de decisiones de prevención.
1.2.2 Objetivos Específicos.
Implementar dos (2) métodos de agrupamiento para identificar los hotspot
semanales presentes en la ciudad de San Francisco.
Generar secuencias asumiendo diferente número de hotspots en la ciudad de San
Francisco para dos (2) casos.
Entrenar un sistema de inferencia difusa mediante el algoritmo evolutivo memético
por cada método de agrupamiento.
1.3. Solución Propuesta.
En este trabajo se presenta una propuesta metodológica que pretende dar una predicción
de una serie de tiempo de la posición del centro por semana de uno de los hotspots que son
localizados en la ciudad de San Francisco EE.UU. Estos hotspots o agrupamientos son los
identificados de acuerdo a los métodos de agrupamiento (extrayendo características
estacionales o lineales del tiempo).
En primer lugar, al obtener los centros del hotspot seleccionado se construye una serie de
tiempo que se introduce al FIS propuesto y una expansión en funciones de base difusa
4
(EFBD). Se propone el FIS para facilitar la interpretación de los resultados y la toma de
decisiones, en este caso posibilitando nuevas rutas de patrullas con anticipación.
El FIS será entrenado a través de un algoritmo evolutivo escogido a priori por las
características del crimen. La evolución social, ha sido fundamento para la creación de
algoritmos como el algoritmo memético (MA). Aunque debido al NFL no es posible afirmar
que este algoritmo sería el mejor para este problema [23], pero sus características son
alentadoras debido a sus bases sociales.
1.4. Contenido del Libro.
La propuesta e implementación del método de reconocimiento de la dinámica
espaciotemporal y el proceso para la predicción de esta dinámica se presenta en estos seis
capítulos. En el segundo capítulo se exponen los conceptos y fundamentos teóricos
utilizados para este problema. Este capítulo se divide en cuatro secciones. Como temas
principales del segundo capítulo se introduce el análisis de crimen con antecedentes de
algunos estudios realizados. Además, se explican los temas de métodos de agrupamiento
como el EFCM y el GK. Adicionalmente, se presenta una introducción a sistemas de
inferencia difusa y como estos pueden ser sintonizados por medio de la computación
evolutiva y por ende de algoritmos meméticos.
En el capítulo tres se explica el acondicionamiento y división temporal de la base de
datos. Adicionalmente, se presenta y se explica de manera detallada el algoritmo creado
para extraer en variables sencillas la información espaciotemporal del crimen, para este
caso el crimen de la ciudad de San Francisco. Finalmente se muestran las series de
tiempo generadas por este algoritmo.
En el capítulo cuatro se presenta la metodología de predicción basada en sistemas
difusos sintonizados por medio de un algoritmo memético. En este capítulo se explica la
integración de la herramienta ANFIS a un algoritmo genético, aprovechando así, los
algoritmos de optimización local de ANFIS y la búsqueda poblacional del algoritmo
genético. Además, se expone la función objetivo escogida que fue construida de acuerdo
a las características requeridas de la predicción a realizar.
En el capítulo cinco se describen los experimentos realizados y se presenta una
discusión de los resultados obtenidos. Se muestran además los mejores resultados
comparándolos con las series de tiempo reales. Se mide además el desempeño de estos
resultados por medio de índices de correlación y diagramas de dispersión. Dando así una
visión de este desempeño no solamente de manera numérica sino también cualitativa de
la predicción. Finalmente, en el capítulo seis se presentan las conclusiones principales
realizadas. También se presentan algunas consideraciones para el desarrollo de trabajos
futuros con el análisis del crimen.
5
Capítulo 2
Marco de Referencia
En esta sección se presentan los conceptos teóricos concernientes a la pregunta
propuesta en el planteamiento del problema. Exponer estos conceptos tiene como
finalidad brindar una contextualización del problema y tener una primera visión de una
posible respuesta a la pregunta planteada.
Entonces, se abarca temas concernientes al análisis de crimen, métodos de
agrupamiento, sistemas de inferencia difusa y computación evolutiva. Siendo estos temas
el eje central del proyecto.
2.1. Análisis de Crimen
El crimen ha tenido un crecimiento paralelo al aumento de la población. Por lo tanto,
la importancia que tiene el análisis de crimen para los departamentos de policía y la
fuerza pública también ha tenido un crecimiento notable en los últimos años. Debido a
que la cantidad de crímenes es mayor, procesar toda la información manualmente hace
que el análisis sobre estos sea ineficiente. También el desarrollo de los sistemas
informáticos ha colaborado enormemente al progreso que ha tenido análisis del crimen
[5].
El análisis espacio-temporal del crimen es principalmente basado en la teoría de
actividades rutinarias. Esta teoría plantea que hay tres requerimientos para que suceda un
crimen: Primero, debe existir un criminal motivado; segundo, debe haber un blanco
adecuado y tercero, la ausencia de un guardián capacitado para evitar una violación.
Según la teoría, si estas tres convergen en el mismo espacio y al mismo tiempo, entonces
la posibilidad de que ocurra un crimen es muy alta [3]. Entonces al cambiar las
actividades rutinarias que tienen los guardianes puede haber una disminución en la
cantidad de ofensas, puesto que la distribución de los guardianes será más eficaz. Por su
parte, la teoría situacional del crimen postula que al cambiar las condiciones de la
sociedad y sus instituciones se puede desmotivar al ofensor a cometer delitos. En vez de
concentrarse en los individuos o grupos y su predisposición al crimen, la teoría, se
6
concentra en la sociedad y como hacer menos atractivo el crimen para el ofensor
reduciendo la tasa de crimen al cambiar las condiciones sociales [4].
Un cambio en las condiciones sociales requiere una reestructuración a largo plazo de
la sociedad, pero la problemática exige una solución inmediata. El análisis espacio-
temporal del crimen puede ayudar a atenuar las tasas de delincuencia en una ciudad en un
corto plazo, y como se dijo antes, aprovechando los escasos recursos policiales.
Principalmente el análisis espacio-temporal toma en cuenta lo que es conocido como
hotspots, las regiones de mayor ocurrencia de crimen en una ciudad o un atractor de
crimen [14].
2.2. Métodos de Agrupamientos.
Lo anterior muestra la gran importancia que tiene el estudio espacial del crimen
(hotspots). Por lo tanto, haciendo una contextualización de cómo se agrupan los sucesos
ocurridos en, por ejemplo, una ciudad podemos llegar a encontrarnos con algunos
métodos de agrupamiento. Aunque en los últimos 30 años se ha avanzado de manera
considerable el mapeo de eventos criminales por medio de sistemas de información
geográfica (GIS, por sus siglas en inglés), inconvenientes para identificar los hotspots y
la cantidad de estos se siguen presentando debido a la incertidumbre que está relacionada
con el número de hotspots y la prioridad que se le debe dar a cada uno [15].
Existen diferentes visiones de la forma y tendencias de los hotpots y los algoritmos
para agrupar eventos de crímenes individuales. Por ejemplo, aunque en [6] el tema en
cuestión son los incendios en un bosque se puede hacer una analogía hacia el crimen,
tomando los hotspots como circunferencias (Figura 1), o en [8] que se muestran como
elipsoides y tienen grados de inclinación (Figura 2). Los enfoques anteriores tienen en
cuenta que lo que relaciona a cada evento individual es la distancia y se agrupan los
eventos en hotspots. La función objetivo (1) debe ser minimizada para ambos algoritmos.
𝐽(𝑋, 𝑈, 𝑉) = ∑ ∑ 𝑢𝑚𝑖𝑗(𝑑2
𝑖𝑗 − 𝑟2𝑖𝑗).𝑁
𝑗=1𝐶𝑖=0 (1)
7
Figura 3 Hotspots Circulares. Tomado de [5] Figura 4 Hotspots Elipsoidales. Tomado
de [6]
Figura 3. Hotspots representados por densidad Figura 4. Análisis Getis-Ord (frec) de hotspots.
Siendo c el número de hotspots, n la cantidad de eventos individuales provenientes de
los datos. Los valores de pertenencia de cada evento es u y d la distancia al centro de
cada hotspot. Por último, r es el radio de cada hotspot.
La principal ventaja de [6] y [7]es que recursivamente determinan el número de
hotspots óptimos para el espacio en estudio, haciéndolos robustos a la presencia de ruido.
Estos algoritmos son mejoras extendidas del FCM [16] y GK los cuales no tenían las
ventajas de determinar el número de hotspots sino que este debía ser predeterminado
[17] . Esto también ha dado pie para que varios autores den propuestas de mejoras a estos
algoritmos [6], [7], [18].
Los hotspots también son vistos desde el punto de frecuencia regional (Getis-Ord) y
por medio de la densidad de eventos individuales por medio del método de estimación de
densidad de Kernel. Al momento de identificar y visualizar los hotspots por medio de
estos métodos existe una gran ventaja y es su facilidad de interpretación y su
visualización [10]. En la figura 3 y figura 4 mostramos la visualización de estos métodos,
para la figura 3 podemos ver la densidad de crímenes por medio del método de Kernel y
en la figura 4 el análisis de frecuencia por medio del Getis-Ord.
8
En este proyecto, para la construcción de la serie tiempo se tomó una analogía a los
métodos de predicción de tormentas en los estudios meteorológicos como [19]. Estas
series de tiempo permiten visualizar la posición en el tiempo y el espació, para nuestro
caso teniendo en cuenta el centro del hotspot.
2.3. Sistemas de Inferencia Difusa.
Un sistema de inferencia difusa (FIS, por sus siglas en inglés), es un sistema basado
declaraciones Si-Entonces de conocimiento de expertos, o en reglas encontradas por
diferentes métodos de reconocimiento de patrones como la computación evolutiva
[20][21][22]. Un ejemplo de una regla Si-Entonces sería: Si el precio es alto y el servicio
es ineficiente entonces la calidad del establecimiento es malo. Las palabras alto,
ineficiente y malo son representadas por funciones de pertenencia que representan las
reglas. La combinación de estas reglas construye un sistema difuso.
Un sistema difuso está compuesto por: un fusificador para los datos de entrada, una
base de reglas, un motor de inferencia difusa, y un defusificador para los datos de salida.
La estructura de este tipo de sistema difuso se encuentra en la figura 5.
La información proveniente de las bases de datos para ingresar al sistema difuso es
puntual. Por lo tanto, se requiere el fusificador para convertirlas en funciones de
pertenencia que puedan interactuar con las funciones de pertenencia de las reglas difusas.
Ayudando a simplificar la computación en el motor de inferencia. El fusificador tiene
como objetivo colaborar a la reducción de ruido teniendo presente una incertidumbre en
la toma de datos. Las reglas difusas toman el papel del conocimiento lingüístico de los
expertos transformado en funciones de pertenencia. Estas reglas relacionan las variables
de entradas por medio de las declaraciones (Si-Entonces) ya predeterminadas, y el
encargado de relacionar y combinar las reglas de la manera adecuada sería el motor de
inferencia difusa. Este motor de inferencia obtiene un mapeo sobre la interacción de los
conjuntos difusos de entrada y salida. Por último, se obtiene un sistema difuso de salida
que debe ser interpretado como una salida puntual. Para esto se introduce el concepto de
defisuficación que lleva a cabo el proceso inverso al fusificador y de una salida difusa
obtiene un dato puntual [23].
9
Figura 5. Estructura de un sistema difuso.
2.4. Computación Evolutiva.
La inteligencia computacional ha tomado a la evolución natural como inspiración para
la creación de nuevos algoritmos buscando nuevos métodos para problemas complejos
donde se busque una optimización global [24]. Estos algoritmos simulan la respuesta de
individuos de una población a un ambiente donde el comportamiento más apropiado para
el ambiente será el seleccionado para las siguientes generaciones. Este comportamiento
no es pasado a generaciones intacto sino que también entra en juego una mutación
aleatoria, similar a la reproducción en la naturaleza. La evolución optimiza los
comportamientos de la población, donde la población se representa como las posibles
soluciones que puede tener el problema [25].
Estas líneas son la línea incluida en la parte superior de la tabla, la línea entre el la
cabecera de la tabla y el contenido y la línea debajo de la tabla.
La computación evolutiva se rige por estas reglas. Primero inicializando una población
aleatoria que serían las soluciones iniciales. Luego, evaluando el desempeño de cada
solución al problema (Individuo de la población) por medio de funciones objetivo que
asignan una probabilidad de adaptación. Como paso siguiente, dos soluciones escogidas
al azar se recombinan para crear una nueva generación de soluciones que será evaluada
en la siguiente iteración. Esta nueva generación puede tener mutaciones, manteniendo
una diversidad en la población para favorecer el proceso evolutivo ya que favorece el
espacio de búsqueda [22].
Dentro de la computación evolutiva los algoritmos meméticos (MA, por sus siglas en
inglés) están recibiendo gran atención, esto es gracias a su estructura de búsqueda. El MA
es un tipo de unión entre una búsqueda global o un acercamiento basado en población y
un aprendizaje individual o un optimizador local, intensificando así la búsqueda a la
solución de un problema [26].
10
Figura 6. Algoritmo del marco general de trabajo del MA tomado de [29]
En el algoritmo memético evolutivo se inicializa la población al azar o por heurística.
Luego de la inicialización cada individuo tiene un aprendizaje local, simulando el
aprendizaje del individuo en su periodo de vida. Para la selección de la siguiente
población, se escogen los individuos con mejor rendimiento, y se siguen los pasos
básicos de un algoritmo genético (GA) [27]. En el Algoritmo 1 de la figura 6 se muestra
la principal diferencia entre el MA y el GA, siendo esta la búsqueda por medio de
optimizadores locales.
11
Capítulo 3
Algoritmo de Reorganización (CRA).
En este capítulo se presenta el algoritmo creado para obtener series de tiempo
consistentes con la evolución de centros de agrupamientos, considerando que solo la
información espacio-temporal de los eventos criminales es conocida. Antes de presentar
el algoritmo se muestra como se extrae la información temporal de la base de datos usada
de la ciudad de San Francisco.
3.1. Descripción de la Base de Datos.
Se utilizó la base de datos de los incidentes reportados al SFPD (Departamento de
Policía de San Francisco) [28] desde el primero de Enero del 2003 hasta el año 2016
como objeto de estudio. Esta base de datos cuenta con incidentes como robo armado,
crueldad a niños, crímenes juveniles, entre otros. Para este caso se extrajo la información
de los robos de casas debido a la poca incertidumbre de la ubicación de donde ocurrió el
crimen.
3.2. Características Extraídas.
La base de datos de incidentes de robos de casa cuenta con el número de incidente,
categoría, descripción, fecha, hora, latitud, longitud, dirección, resolución, entre otros.
Las características que fueron consideradas de mayor importancia fueron la fecha, la
hora, la latitud y longitud. Con esta información es posible tener una secuencia temporal
de la ocurrencia de los crímenes. Esto, permite que se realice un acondicionamiento
separando por ventanas de tiempo los eventos. Al separar de esta manera los datos se
agrupan por ventanas. Al tomar una secuencia de las ventanas se obtiene un
comportamiento espacio-temporal que debe ser agrupado para reducir los parámetros y
simplificar el comportamiento para que se tenga información que se pueda predecir
(como coordenadas del centro y radios de acción del agrupamiento).
12
3.3. Organización de la Base de Datos.
Para los diferentes tipos de agrupamiento espacio-temporal se realizó una organización
de la base de datos de la siguiente manera:
a. Se creó una ventana de tiempo de siete (7) días de incidentes. La diferencia de
tiempo entre cada ventana es de un día.
b. Los datos fueron separados por años y se organizaron por días de la semana, (ej.
Lunes, Martes, Miércoles, etc.) teniendo todos los crímenes que sucedieron en
cada día durante todo el año. Además de esto los días fueron separado entre noche
y mañana. Mañana siendo desde las 7 am a 5 pm y la noche desde las 5:01pm
hasta las 6:59 am (Hora en que los ciudadanos de San Francisco salen y llegan del
trabajo regularmente). Esto generó una serie de tiempo por año puede dar indicios
de la ubicación de los patrones de crimen por día y noche de cada día de la
semana en el año.
c. Al tener la división anual se subdividieron los datos en las 24 horas del día.
Teniendo así, todos los crímenes de, por ejemplo, las siete (7) de la mañana que
ocurrieron en el año. Agrupando está información puede mostrar patrones por
horas de la ubicación de patrones dependiendo de la hora.
d. Por último, se crearon ventanas de tiempo con un total de 30 días de incidentes.
Para crear la variable temporal se creó una diferencia entre cada ventana de
tiempo de 7 días.
En la figura 7 se muestra la proyección de los datos y 4 ventanas de tiempo consecutivas
mostrando la organización de los eventos criminales. Una vez se obtuvo la organización
de los datos para los diferentes agrupamientos espaciotemporales se procede a realizar la
proyección de latitud y longitud de las coordenadas donde ocurrieron los crímenes. Esta
proyección se realiza por medio de la función mfwdtran en MATLAB esto con el fin de
tener los datos en coordenadas rectangulares. La importancia de esto radica en que en el
algoritmo de agrupamiento FCM la función objetivo es evaluada por las distancias
euclidianas entre los datos y los centros de los grupos que se le predeterminan. Esto,
mantiene además un marco de trabajo consistente para el análisis de los patrones en la
ciudad de estudio.
13
Figura 7. División de la base de datos por ventanas de 7 días
La figura 7 se muestra la forma en que los datos fueron organizados por ventanas de
tiempo. Esto se realizó con el fin de mantener una memoria de los datos que fuera
evolucionando con el tiempo. Al obtener esta organización de datos existe una
correlación entre el pasado y el futuro y representando un sistema con memoria como lo
es el crimen. Donde las acciones futuras de un criminal se ven reflejadas en el pasado y
las rutinas que él y sus víctimas tienen. [29]
3.4. Algoritmo de Reorganización.
En este problema se realiza un agrupamiento para obtener series de tiempo de grupos,
lo cual difiere de métodos reportados en donde se obtienen los grupos de series de tiempo
conocidas. Por lo tanto, un problema diferente se configura: Series de tiempo del
agrupamiento (TSC, por sus siglas en inglés). En este acercamiento, los grupos se
delimitan por el algoritmo FCM. Sin embargo, los agrupamientos se pueden obtener por
medio de métodos similares y más refinados, como el algoritmo Gustafson-Kessel o el
Gath-Geva entre otros [30]. Ya que la familia de los algoritmos similares al FCM
inicializa sus valores de pertenencia aleatoriamente al igual que la ubicación de los
centros, un inconveniente de inconsistencia en el orden de los centros de los
agrupamientos aparece al observar su evolución temporal.
Figura 8. Ventanas de tiempo.
Time Frame 1 Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7
Time Frame 2 X Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7
Time Frame 3 X X Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7
14
Figura 9 Inicialización Aleatoria
Debido a la inicialización aleatoria de los valores de pertenencia de los agrupamientos
del FCM no permanecen en la misma zona, el orden de las particiones difusas no se
mantiene. Por lo tanto, si un estudio de n agrupamientos se lleva a cabo, se debe tener
certeza de que en cada marco de tiempo la identificación de los agrupamientos mantiene
el orden inicial de la partición. Considerando que las tendencias espaciotemporales de
agrupamientos de crimen mantienen una regularidad debido al comportamiento habitual
de la población [29] [31], si por cada ventana de tiempo la ubicación espacial de cada
agrupamiento se observa, el agrupamiento resultante en la siguiente ventana se
identificará cercano al agrupamiento en la ventana anterior [6]. Esto da una pista hacia la
organización del orden de los grupos en las diferentes ventanas de tiempo.
Si las series de tiempo obtenidas del agrupamiento de los registros criminales son
útiles para identificar la direccionalidad del crimen, debe haber confianza de que en cada
ventana de tiempo los agrupamientos estén en el mismo orden. A través de las ventanas
de tiempo el primer grupo de la primera ventana de tiempo debe ser siempre identificado
como el primero en las ventanas posteriores. Si solo se utiliza el FCM esto no ocurrirá.
Por lo tanto, un algoritmo de reorganización debe ser llevado a cabo. Las distancias entre
el i-ésimo grupo encontrado por el FCM en la ventana de tiempo tN y los centros de los
grupos j-ésimos en la ventana de tiempo t0 son evaluados. El algoritmo reorganiza el
orden de los agrupamientos en tN dependiendo de las distancias medidas entre los centros.
En la figura 9 los agrupamientos en la ventana de tiempo 1 son asignado por un cierto
orden del FCM pero en la siguiente ventana es posible que la asignación no se de en el
mismo orden. Así, el agrupamiento más cercano a A debería ser A1 no C1 al igual que
para el agrupamiento B y C. Por lo tanto, calculando la distancia mínima los
agrupamientos pueden ser reorganizados. Como se muestra en el Algoritmo 1, hay varios
pasos que deben ser llevados a cabo para la reorganización del orden de los
agrupamientos usando el FCM como herramienta de agrupamiento, tomando como base
de evaluación las distancias entre los centros de cada agrupamiento en la ventana n y la
ventana inicial.
15
3.4.1. Inicialización
El algoritmo propuesto requiere que la base de datos sea dividida en ventanas de
tiempo como se describió anteriormente. De esta manera, los agrupamientos identificados
se forman consecutivamente de acuerdo con esta división de tiempo. Para la etapa de
inicialización el número de agrupamientos debe ser definido a priori, la i-ésima ventana
de tiempo en donde están los datos y la guía de centros. La guía de centros determinará el
orden en el cual el algoritmo de reorganización va a identificar los agrupamientos
encontrados en las siguientes ventanas de tiempo. Sea c= {c1, c2,…, cn} los centros para la
evaluación de agrupamiento del FCM en la primera ventana donde los ci son el orden i-
ésimo de los agrupamientos y la guía de centros para las ventanas de tiempo siguientes.
3.4.2. Iteración.
Este algoritmo asegura que a través de todas las ventanas de tiempo el número de
agrupamientos se mantiene. La etapa de iteración verifica que en cada reorganización
ninguno de los agrupamientos se repita como puede suceder en la etapa de asignación.
Para determinar si algún agrupamiento se repite, el algoritmo de reorganización evaluará
la ubicación del centro de cada agrupamiento, si un centro aparece más de una vez el
algoritmo ejecutará el FCM una vez más y reevaluará el orden de los agrupamientos.
16
Figura 10. Procedure of CRA in iteration
Figura 11. Agrupamientos repetidos
Sea x= {x1, x2,…, xn} la evaluación de agrupamientos en la ventana de tiempo tN,
donde tN, es la ventana de tiempo N-ésima. El dato xj es el j-ésimo orden resultante del
agrupamiento en las siguientes ventanas de tiempo. Como se muestra en la Figura 10, los
centros de los agrupamientos son organizados en una matriz de n por 2. Una vez el
algoritmo reorganiza el orden, este determina si se asignó varias veces el mismo
agrupamiento. El método verifica si algún centro se repite, asegurando que las
coordenadas, en este caso x y no se repitan.
La etapa de iteración está presente debido a la continuidad que se desea para el análisis
espaciotemporal de las series de tiempo. Si una verificación de la repetición de los
agrupamientos no se implementa, algunas ventanas de tiempo no tendrán el número
completo de grupos. Esto genera discontinuidades en las series de tiempo, lo que a su vez
no permite su análisis correspondiente. La Figura 11 muestra si centros repetidos son
identificados. Se puede notar que en el orden de los agrupamientos uno de los centros
17
hace falta. Asignando una zona que pertenece a dos grupos (en este caso en particular) a
solamente un grupo es lo que puede generar discontinuidades. Esto afecta no solamente el
tamaño del agrupamiento sino también la forma y como se ha afirmado anteriormente la
continuidad de la serie de tiempo resultante que pertenece al grupo B.
3.4.3. Evaluación de distancia.
Los centros que retorna el FCM están en coordenadas(x, y). El proceso para medir la
distancia entre los diferentes agrupamientos en las dos ventanas de tiempo (t1 y tN) es el
siguiente:
𝑑𝑖𝑗 = ∑ ∑ √(𝑥1𝑖 − 𝑥𝑁𝑗)2 + (𝑦1𝑖 − 𝑦𝑁𝑗)2𝑛𝑗=1
𝑛𝑖=1 (2)
Donde dij es la distancia Euclidiana entre el centro ci= {c1, c2,…, cn} del i-ésimo
agrupamiento en la ventana de tiempo t1 y el centro xj= {x1, x2,…, xn} de j-ésimo
agrupamiento en la ventana de tiempo tN. La Figura 12 muestra los vectores de las
distancias medidas para cada uno de los agrupamientos de la ventana t1 a la ventana de
tiempo N. Una vez todas las distancias para todos los agrupamientos son calculadas, el
algoritmo procede a determinar la mínima distancia desde el centro i-ésimo ci al centro j-
ésimo xj de la siguiente manera:
ℎ𝑖 = 𝑚𝑖𝑛(𝑑𝑖𝑗) (3)
Figura 12. Distancia entre agrupamientos
18
Siendo hi la mínima distancia desde el i-ésimo agrupamiento a cualquier otro
agrupamiento en la ventana de tiempo N.
3.4.4. Descartando el mínimo falso.
Aunque los agrupamientos tienden a ocupar las mismas zonas, en ciertas ventanas de
tiempo pueden ser identificados más lejos de su ubicación habitual. Para prevenir que el
algoritmo de reorganización confunda estos agrupamientos se asume que el centro j-
ésimo más cercano en la ventana de tiempo tN al centro i-ésimo ci en la ventana de tiempo
t1 se le es asignado el orden en el cual el agrupamiento i-ésimo está organizado. La
Figura 13 muestra que dos agrupamientos en la ventana de tiempo tN a los cuales le puede
pertenecer un mínimo de distancia a un mismo centro en la ventana de tiempo t1 (matriz
de centro guía).
Dos o más de los nuevos centros encontrados por el FCM en una ventana de tiempo N
pueden tener su distancia mínima a solo un centro guía. Si esto ocurre, el centro
seleccionado es el de menor distancia al centro guía entre los centros. Los otros centros
son descartados para ese centro guía específico y sus distancias son reevaluadas en
búsqueda de un nuevo mínimo.
La figura 13 también muestra el criterio de selección del algoritmo, los grupos A y A1
pertenecen al mismo grupo A pero en diferentes ventanas de tiempo y B1 es seleccionado
para el grupo B. El algoritmo descarta la distancia entre A y B1 y reevalúa la distancia
mínima. De este modo, asigna el orden de los agrupamientos adecuadamente. El proceso
se realiza para el número de agrupamientos determinado por el usuario. Si en la
reevaluación de las distancias un nuevo mínimo no es encontrado o si alguno de los
centros es repetido, entonces el proceso reinicia corriendo una vez más el FCM y
reorganizando los nuevos centros obtenidos.
Figura 13. Criterio de distancia mínima
19
3.4.5. Asignación
Esta etapa final se realiza una vez la condición en el proceso de iteración se cumple.
Los centros y los valores de pertenencia ya tienen asignado el orden correcto, de acuerdo
con la identificación de los agrupamientos en la primera ventana de tiempo. Esta etapa
simplemente asigna el orden adecuado a las variables de los centros de los agrupamientos
al igual que los valores de pertenencia correspondientes a cada evento.
3.5. Agrupamiento de ventanas de tiempo con el algoritmo de
reorganización
Una vez la base de datos ha sido organizada, los datos de las ventanas de tiempo son
agrupados de manera secuencial utilizando el algoritmo de reorganización. Por
simplicidad visual se muestran en la Figura 14 el agrupamiento de 4 grupos. El convex
hull se computa de acuerdo a la partición difusa para identificar posibles patrones de
cómo están distribuidos los datos. El polígono que conecta a los centros de los grupos
también se muestra en la figura 14. Una muestra de las matrices de partición difusa se
encuentra en la figura 15 y su evolución a través de cuatro ventanas de tiempo. Aunque
los polígonos del convex hull tienen cambios notorios en su forma y tamaño, se puede
observar que las matrices de partición difusa se mantienen relativamente constantes, lo
cual soporta la suposición de que los patrones de crimen tienden a ser relativamente
estables en la ciudad. También es esperado que las matrices de partición difusa se
entiendan como una interpolación de la posibilidad de eventos criminales y que tanto
estos pertenecen a los diferentes grupos.
Figura 14. Convex Hull1 de agrupamientos Figura 15. Matrices de partición difusa
1. El convex hull de un conjunto de puntos S en n dimensiones es la intersección de todos los conjuntos convexos
que contienen a S.
20
Figura 16. Aproximación de agrupamientos a círculos.
Con el fin de obtener parámetros sencillos para la representación de los agrupamientos
y que estos puedan ser a su vez representados en series de tiempo se optó por aproximar
cada agrupamiento a un círculo. Siendo el agrupamiento un circulo tendremos solo tres
parámetros, las coordenadas x y y y el radio del círculo, que caracterizarán el patrón y
como es su comportamiento en el tiempo. El centro del círculo es el mismo centro del
agrupamiento identificado y ordenado por el algoritmo de reorganización. El radio, es
calculado como la distancia desde el centro hasta el evento criminal más lejano que
pertenece al agrupamiento. En la figura 16 se muestra como estos agrupamientos son
aproximados.
3.6. Construcción de las series de tiempo.
Para el análisis espaciotemporal del crimen se construyen series de tiempo. Esta
construcción es de acuerdo a las diferentes organizaciones que se le dieron a la base de
datos explicadas en la sección 3.3. Resultado de los diferentes tipos de agrupamientos
que se desean. Esto, da la posibilidad de representar las tendencias criminales no solo de
manera secuencial sino también de manera estacional.
Analizando los diferentes componentes de las series de tiempo que se pueden extraer
de los datos. Una vez realizado el algoritmo de reorganización se tiene la certeza de que
la evolución espaciotemporal de los agrupamientos cuenta con una consistencia teórica.
Esta consistencia se basa en la tendencia regular de los sucesos criminales. Para analizar
estos sucesos y su comportamiento macro en el tiempo se redujeron la cantidad de
parámetros necesarios para caracterizar los eventos. Estos eventos se agruparon y a estos
grupos se les extrajo la información necesaria para su reconstrucción. Esta reconstrucción
es posible debido a la sencilla forma que fue asumida para los agrupamientos, la
circunferencia. Al obtener la información de la coordenada X, la coordenada Y y el radio
de acción se tiene todo lo necesario para la reconstrucción del agrupamiento.
21
Estos parámetros identificados permiten el análisis espaciotemporal de los
agrupamientos. En cada ventana de tiempo se extraen estos parámetros. Entonces, para la
creación de las series de tiempo se unen los parámetros por ventana de tiempo para crear
tres series de tiempo diferentes por agrupamiento, dependiendo del número de
agrupamientos que se determinó a priori. En este caso se muestran las series de tiempo
para cada uno de los tipos de agrupamiento.
En las figuras 17-20 se pueden observar las series de tiempo obtenidas del algoritmo
de reorganización con la organización de base de datos especificada. Es posible hacer una
reconstrucción aproximada de los agrupamientos con las series de tiempo. Por lo tanto,
una predicción de estos parámetros es pertinente para anticiparse a la dinámica espacial
de los agrupamientos.
La figura 17 muestra la separación por semanas de la base de datos. La serie de tiempo
abarco desde el año 2003 hasta el 2015. Ésta serie de la figura 17 es considerada
secuencial ya que el tiempo es considerado lineal y no cíclico. En las figuras 18 y 19 se
muestran las series de tiempo en las cuales sus datos fueron organizados de manera
cíclica. Esto, implica entonces un periodo de tiempo que se repite a través de los años que
para este caso en las noches y en los días es representado por los días de la semana desde
lunes (primer día) hasta el domingo (séptimo día). Y por último, la figura 20 muestra las
series de tiempo encontradas por año de las horas del día. Desde la 1:00 de la mañana
hasta las 00:00 del siguiente día. En estos intervalos de tiempo se agruparon todos los
crímenes de cada año y se realizó esto para cada año. La serie de tiempo representa la
dinámica de los agrupamientos encontrados por hora por año.
Figura 17. Series de tiempo de semanas con un día de diferencia para 4 agrupaciones.
22
Figura 17.1 Series de tiempo de semanas con un día de diferencia para 8 agrupaciones
Figura 18. Series de tiempo de días de la semana por año.
Figura 19. Series de tiempo de noches de la semana por año.
Figura 20. Series de tiempo de horas por año.
23
Figura 21. Series de tiempo por semana por mes.
24
Capítulo 4
Propuesta para la sintonización de un sistema de
inferencia difusa por medio de un algoritmo
memético.
En este capítulo se presenta la propuesta para la predicción de un centro de un
agrupamiento de crimen en la ciudad de San Francisco, USA. Primero, en la figura 17 se
muestra el modelo propuesto del sistema difuso y cómo se implementa el MA para la
sintonización del primero. Se presenta la función objetivo, la construcción de la misma y
una breve explicación de los elementos que la componen. Luego, una descripción de los
parámetros del tipo de sistema difuso escogido. Posteriormente, se presenta la
implementación y ventajas del uso de la herramienta ANFIS para los sistemas difusos, y
una descripción de este y sus métodos de optimización local. Por último se presenta la
evaluación de soluciones y un factor de medida de la preservación de la diversidad para
identificar una convergencia prematura en la población.
4.1. Modelo propuesto.
Para realizar la predicción del problema propuesto en este proyecto se toma un sistema
de inferencia difusa, FIS, (por sus siglas en inglés) cuyos parámetros se sintonizan por
medio de un MA. En la figura 22 se muestra el diagrama del modelo propuesto. Este
modelo presenta cómo se implementa el MA para la sintonización de las reglas del FIS
de acuerdo con una función objetivo.
Figura 22. Método propuesto.
25
En el diagrama propuesto se muestra el proceso llevado a cabo para la obtención de la
predicción de uno de los centros y su área de acción respectiva. Desde la recopilación de
la base de datos de los crímenes de robo de casa. Donde los datos fueron separados como
se explicó en la sección 3.3. Al obtener las ventanas de tiempo se efectúa el método de
agrupamiento para la generación de la series de tiempo de cada uno de los parámetros del
grupo que se desea predecir.
La predicción de las series de tiempo generadas se hace por medio de un sistema
difuso compuesto por unos antecedentes, unos consecuentes y una base de reglas. Los
conjuntos del sistema difuso son sintonizados a través del MA el cual tiene una función
objetivo explicada en la siguiente sección. Al realizar el proceso de sintonización de los
conjuntos del FIS y al implementar este FIS final se puede generar la predicción de las
variables de interés del centro de crimen.
En la figura 23 se muestra cómo se le agrega el MA al motor de inferencia para
realizar la sintonización de las reglas. El proceso que se lleva a cabo en esta sintonización
se muestra en la Figura 23 donde se especifican los pasos más importantes del MA.
Posteriormente, se describe cada paso y su tarea en el funcionamiento completo del MA.
Figura 23. Algoritmo Memético
26
4.2. Función Objetivo
Se debe tener consideración especial a la función guía que se le dará al problema pues
de esta depende la dirección de solución del algoritmo. La función objetivo está dentro de
los parámetros que influencian la efectividad y la eficiencia de un algoritmo con
búsqueda por población [32]. Ahí radica su importancia.
La construcción debe tener en cuenta los factores más importantes al momento de una
predicción para este caso. La función objetivo escogida tiene en cuenta cuatro medidas
diferentes que le componen:
MAPE: Hace referencia a la medida de precisión del error de predicción y está
definido así:
𝑀𝐴𝑃𝐸 =1
𝑁∑ |
𝑒𝑡
𝑍𝑡|𝑁
𝑡=1 (4)
Donde Zt es el valor de la serie de tiempo en el tiempo t y N es el número de
datos. Es importante que esta medida sea hecha con una buena cantidad de datos
pues puede ser sensible al volumen de la información por el hecho de ser un
porcentaje.
RMSE: Esta medida muestra la desviación estándar entre un valor observado de
una serie de tiempo y un valor de predicción hecho por un modelo. Se diferencia
del MAPE en que no mira la predicción en precisión por porcentaje sino que da
una medida de las diferencias entre la predicción y el valor real. El RMSE se
expresa en la siguiente formula:
𝑅𝑀𝑆𝐸 = √1
𝑁∑ (𝑍𝑡 − 𝑂𝑡)2𝑁
𝑡=1 (5)
Donde Zt es el valor de la serie de tiempo en el tiempo t y N es el número de
datos y Ot es el valor de la predicción. El RMSE es normalizado entre el rango
máximo y mínimo de los datos de la serie de tiempo. Con esto la medida de
variación toma un valor correspondiente de acuerdo a la serie de tiempo.
POCID: Este factor es una medida de la predicción en el cambio de dirección.
Muestra por medio de un porcentaje la tendencia local de un modelo de
predicción. Está dado por:
27
𝑃𝑂𝐶𝐼𝐷 =∑ 𝐷𝑡
𝑁𝑡=1
𝑁 (6)
Donde:
𝐷𝑗 = {1, 𝑠𝑖 (𝑍𝑗 − 𝑍𝑗−1)(𝑂𝑗 − 𝑂𝑗−1) > 0
0, 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜 (7)
Donde Zj es el valor de la serie de tiempo en el tiempo t y N es el número de datos y Oj
es el valor de la predicción
Coeficiente de correlación: Esta medida representa la covarianza existente entre
dos variables relacionadas linealmente. Está definida como:
𝑟 = ∑ (𝑂𝑡−�̅�)∗(𝑍𝑡−𝑍)𝑁
𝑡=1
√∑ (𝑂𝑡−�̅�)2𝑁𝑡=1 ∗√∑ (𝑍𝑡−𝑍)2𝑁
𝑡=1
(8)
Donde Zj es el valor de la serie de tiempo en el tiempo t y N es el número de datos y Oj
es el valor de la predicción. Además �̅� y �̅� son el promedio de la serie de tiempo
resultante de la predicción y el promedio de la serie real, respectivamente.
Cabe resaltar que aunque el POCID y el coeficiente de correlación sean muy similares
el primero toma una medida local de la dirección de la señal y el segundo toma una
medida global que de manera implícita mide la relación entre las variaciones de las dos
señales.
La estructura de la función objetivo teniendo en cuenta estas medidas es entonces:
𝐹𝑜𝑏𝑗 =𝑀𝐴𝑃𝐸+𝑅𝑀𝑆𝐸
𝑃𝑂𝐶𝐼𝐷+
1
𝑟∗0.1 (9)
En esta función objetivo se debe minimizar el MAPE y el RMSE y maximizar el
POCID y la correlación. Se separó la correlación con el fin de darle a esta un peso
especial debido a que es de vital importancia en la predicción.
Para encontrar la relación entre los estadísticos de la función objetivo de la ecuación
(9). Con el fin de observar el espacio de búsqueda de esta función objetivo se muestra la
variación de esta con respecto a dos de los cuatro estadísticos en la tabla 1. Esta tabla
representa el orden en el que se realizó la relación entre los estadísticos en la Figura 24.
Tabla 1. Relación de estadísticos
MAPE POCID
RMSE MAPE
RMSE POCID
COR RMSE
COR MAPE
COR POCID
28
Figura 24. Variación de F.O. en función de los diferentes estadísticos.
En la figura 24 se muestra el espacio de la función objetivo de acuerdo a la
combinación de a par de los estadísticos escogidos. Como se puede observar el
estadístico con mayor influencia en el espacio de búsqueda de la función objetivo es la
correlación entre las dos señales (real y predicción). El cambio de la función objetivo a la
variación del RMSE y el MAPE es de manera lineal a diferencia de los cambios por el
POCID y la Correlación que son por multiplicativo inverso. Los cambios por el
multiplicativo inverso tienen una ventaja, que la disminución de la función objetivo es
mayor a medida que se esté alejado del valor deseado.
Los rangos de la función se tomaron de acuerdo a cinco pruebas por cada una de las
series construidas (X, Y, R). Se tomó el máximo y el mínimo del total de la pruebas para
determinar aproximadamente el rango de valor de cada estadístico. Además, debido a que
solamente hizo la variación de dos estadísticos a la vez los demás permanecen constantes.
Para fijar un valor adecuado se hizo un promedio de todas las pruebas. En las siguientes
tablas se muestran los valores obtenidos en las pruebas.
29
Figura 25. Construcción del meme.
4.3. Construcción del meme.
Un vector llamado meme en el caso del algoritmo memético representa a cada
individuo de la población. Dentro del meme se le asigna una posición a los parámetros de
los conjuntos difusos. Por medio de esta organización se representan las funciones de
pertenencia de los antecedentes (i.e. media (m), desviaciones estándar (σ)) y la
construcción de las rectas del consecuente para el caso de FIS Sugeno. La estructura del
meme se muestra en la Figura 25. Si se define pa como el número de parámetros que
caracterizan las funciones de pertenencia del antecedente y pc como el número de
parámetros de las funciones lineales del consecuente, n se define como el vector de
entrada que son los datos de centro en las ventanas de tiempo anteriores y M como el
número de reglas. Por lo tanto la longitud del meme Lv está definida como:
𝐿𝑣 = (𝑝𝑎 + 𝑝𝑐) ∗ 𝑛 ∗ 𝑀 (10)
4.4. Inicialización de la Población
Dentro del proceso de búsqueda la población está representada por una matriz como se
muestra en la Figura 26. Cada fila de la matriz contiene un individuo o meme, por lo
tanto el número de filas es el tamaño de la población np. Al momento de inicializar la
población comienza siendo aleatoria. Pero los valores de la población inicial están
restringidos al rango predeterminado que los parámetros pueden tomar. Estos rangos
están determinados por los rangos de los vectores de entrada. Para el caso de la
predicción del centro de agrupamiento de crimen se debe tener en cuenta el rango de las
diferentes variables (i.e x, y y r).
Figura 26. Estructura de la población
m1 m2 … mM σ1 σ2 … σ M x1 x2 … x M
m11 m2
1 … mM1 σ1
1 σ21 … σ M
1 x11 x2
1 … xM1
m12 m2
2 … mM2 σ1
2 σ22 … σ M
2 x12 x2
2 … xM2
.
.
.
.
.
.
.
.
.
m1np
m2 np … mM
np σ1 np σ2
np … σ M np x1
np x2 np … xM
np
Lv
np
30
Figura 27. Inicialización del FIS
4.5. Inicialización del FIS
Una vez inicializada la población cada individuo o meme es optimizado localmente,
para esta optimización se utilizó ANFIS [33]. Este método da la posibilidad de visualizar
sistemas difusos con gran facilidad. Lo cual permite analizar e intentar una interpretación
de las reglas que se sintonizaron con la búsqueda. Para la implementación de esta
herramienta debe ser por medio de un FIS Takagi Sugeno. Este tipo de FIS aunque es
muy similar al tipo Mamdani difiere principalmente en que los consecuentes se computan
como pesos, similar a una red neuronal.
Debido a que se debe crear un FIS para el entrenamiento por medio de ANFIS es
necesario hacer una inicialización de un FIS por cada individuo de la población. El
proceso de inicialización del FIS se muestra en la Figura 27. Primero se crea un nuevo
FIS tipo TSK (Takagi-Sugeno-Kang) con las siguientes características:
Método de AND: producto
Método de OR: Or probabilística.
Implicación: Mínimo.
Agregación: Máximo.
31
Con estas características establecidas se determina como el sistema de inferencia
difusa realiza las operaciones de inferencia. Esto es determinado por defecto en los
sistemas tipo TSK una vez se inicializa el sistema. Siguiendo estos métodos una regla de
un TSK es de la forma:
Si entrada1 = x y entrada 2 = y, entonces la Salida es z=ax+by+c (11)
Cada regla tiene su propio peso como un nivel de salida zi, la fuerza de disparo de
cada regla será entonces wi. Por ejemplo, para el método AND en este caso sería el
producto:
𝑤𝑖 = 𝐹1(𝑥) ∗ 𝐹2(𝑦) (12)
Donde F1, 2() son las funciones de pertenencia para las entradas 1 y 2. Y así la salida
será:
𝑂 =∑ 𝑤𝑖𝑧𝑖
𝑁𝑖=1
∑ 𝑤𝑖𝑁𝑖=1
(13)
Siendo N el número de reglas.
Luego de crear el sistema se definen las funciones de pertenencia. Pero, ya que el MA
tiene un método de búsqueda de soluciones por medio de poblaciones se extraen los
parámetros para un meme de la población. Estos se extraen de los individuos o memes de
la población inicializada aleatoriamente para la primera generación y ya los memes hijo
en las siguientes generaciones. Ya que los individuos representan los conjuntos difusos,
una vez extraídos se procede a hacer la construcción de estos últimos. En la figura 27 se
muestra la organización de los diferentes parámetros de las funciones de pertenencia
(medias, desviaciones y pesos de salida). El número de funciones de pertenencia es
determinado a priori.
Una vez se obtienen los parámetros del meme se adicionan las variables de entrada y
salida. Al agregar cada variable al sistema se hace también la agregación de las funciones
de pertenencia correspondientes. Allí se determina el tipo de función de pertenencia y se
le asigna a cada parámetro extraído anteriormente. Esto se trabaja de igual manera tanto
para los antecedentes como para el consecuente. Al obtener las funciones de pertenencia
de los antecedentes y el consecuente se genera la base de reglas.
4.6. Optimización Local.
Este sistema difuso es utilizado posteriormente por la herramienta ANFIS que realiza
una optimización de un método híbrido entre Backpropagation y LMS con una tasa de
aprendizaje variable. Este método sintoniza los parámetros de las funciones de
pertenencia construidas aprendiendo de los datos de entrada/salida proporcionados.
32
Entrada 1 Entrada 2 Entrada 3 … Entrada n Salida
x1t-3 x1
t-2 x1t-1 x1
t z1t+1
x2t-3 x2
t-2 x2t-1 x2
t z2t+1
.
.
.
xlt-3 xl
t-2 xlt-1 … xl
t zlt+1
Figura 28. Matriz de entrenamiento de ANFIS
El proceso de optimización local se lleva a cabo ingresando los datos de entrada, que
en este caso son llamados regresores, y los datos de salida. Estos datos son organizados
en una matriz como se muestra en la Figura 28. Siendo n el número de entradas y l la
cantidad de datos disponibles para el aprendizaje.
Con esta matriz de datos de entrada y el FIS difuso inicializado anteriormente se
realiza un entrenamiento sintonizando los parámetros del FIS. Está sintonización se
realiza por medio de la herramienta de optimización llamada ANFIS. La sintonización de
todos los parámetros se realiza por medio de meme los cuales representan los parámetros
del sistema difuso.
4.6.1. ANFIS (Adaptive neuro-fuzzy Inference System)
Esta herramienta traza un mapa de una interfaz de un sistema Sugeno de primer orden
en una red neuronal adaptativa feed-forward. Esto con el fin de mejorar el desempeño en
efectividad y precisión de aprendizaje sin afectar en gran medida la generalización.
Gracias a esta combinación se permite que el sistema realice reconocimiento y análisis de
conocimiento lingüístico y numérico implícito en los datos.
La red creada consiste de nodos y enlaces de dirección por medio de los cuales se
conectan los nodos como se muestra en la figura 29. Donde los nodos circulares son
nodos fijos y los cuadrados son nodos adaptativos que se rigen por parámetros que
cambian de acuerdo a las reglas de aprendizaje. En el caso de ANFIS las reglas de
aprendizaje se basan en un algoritmo hibrido entre el descenso de gradiente y el LMS
para la mejora en la velocidad de convergencia. Pues los algoritmos que basan sus reglas
de aprendizaje en solamente el descenso de gradiente se caracterizan por su lentitud en
convergencia y la tendencia de quedar atrapados en un mínimo local.
33
Figura 29. Estructura de red de ANFIS
Como se muestra en la figura 29 estas redes son de múltiples capas y nodos en cada
capa. En algunas de las capas se encuentran nodos adaptativos cuya función se define
como;
𝑂𝑖𝑘 = 𝑂𝑖
𝑘(𝑂1𝑘−1, … , 𝑂𝑛
𝑘−1, 𝑎, 𝑏, 𝑐) (14)
Donde:
i: Es la posición del nodo en la capa k.
k: Es la posición de la capa.
n: Es el número de nodos en la capa
a, b, c: Son parámetros del nodo.
O: Es la función de salida del nodo.
Ya con esta función de salida es posible encontrar el error de salida y según [33],
[34]se calcula de la siguiente manera:
𝐸 = ∑ (𝑇𝑝 − 𝑂𝑝𝐿)2𝑃
𝑝=1 (15)
Asumiendo la base de datos con P entradas, el error se mide por la p-ésima entrada de
entrenamiento como la suma de errores cuadrados. Siendo 1 ≤ p ≤ P. Tp y Op son la
etiqueta de salida y la salida de la red de la p-ésima entrada respectivamente. Y L es el
número de capas en la red.
34
Debido a que la regla de aprendizaje es el descenso de gradiente en [33] se calcula así:
𝜕𝐸
𝜕𝑂𝑖𝑘 = ∑
𝜕𝐸
𝜕𝑂𝑚𝑘+1 ∗
𝜕𝐸 𝑂𝑚𝑘+1
𝜕𝑂𝑖𝑘
𝑃𝑝=1 (16)
Donde 1 ≤ k ≤ L-1.
Asumiendo un solo parámetro para la red adaptativa α entonces:
𝜕𝐸
𝜕α= ∑
𝜕𝐸
𝜕𝑂∗
𝜕𝑂∗
𝜕α𝑂∗∈ 𝑆 (17)
Donde S es el conjunto de nodos cuyas salidas dependen de α. Por lo tanto los nodos
adaptativos y regidos por la regla de aprendizaje. Para actualizar α según [33] será:
∆α = −η𝜕𝐸
𝜕α (18)
Siendo η una tasa de aprendizaje, expresada de la siguiente manera:
η =𝑡
√∑ (𝜕𝐸
𝜕α)
2
𝛼
(19)
Donde t es el tamaño de paso, la longitud de cada transición de gradiente en el espacio
de parámetro. Usualmente ANFIS cambia el valor de t con el fin de mejorar la velocidad
de convergencia. Estos cambios son regidos por dos reglas según [34]:
Regla 1: Si la medida del error sufre cuatro reducciones consecutivas, se aumenta t en
un 10%.
Regla 2: Si la medida del error sufre dos combinaciones consecutivas de un
incremento y un decremento, entonces se reduce t en un 10%.
Estas reglas están basadas en la observación y si t es pequeño, el método se aproxima
al camino dado por el descenso de gradiente. Pero para llegar a convergencia el gradiente
debe ser calculado muchas veces. En cambio sí t es grande, entonces los pasos a
convergencia son grandes. Pero al acercarse al óptimo el método comienza a oscilar
alrededor de este punto. La figura 30 muestra el comportamiento usualmente observado
con el cumplimiento de estas dos reglas.
35
Figura 30. Convergencia con reglas.
4.7. Factor Fano y diversidad de la población.
Con el fin de mantener un espacio de búsqueda amplio para el MA, se debe garantizar un
mínimo de diversidad entre los individuos de la población. Según [35] se debe ser
cuidadoso con la convergencia prematura en mínimos locales del espacio de búsqueda.
Para identificar una convergencia prematura se debe definir si la población está o no
degradada. Esto se hará por medio del monitoreo de la diversidad y para esto se escogió
el factor fano. Este factor es una medida de dispersión y es usada por ejemplo para inferir
la variabilidad de datos [36]. Este factor está definido como se muestra en ecuación (20).
La diversidad se puede ver afectada por la optimización producida en la sintonización de
parámetros de ANFIS. Por esta razón es necesario hacer un monitoreo sobre esta
diversidad vigilando que las soluciones dadas por la herramienta de optimización local
tengan diferencias que aporten a la búsqueda de una buena solución.
Para el monitoreo de la diversidad de la población se escogió el factor fano.
�̂� =1
𝑛−1∑ (𝑁𝑖−�̅�)2𝑛
𝑖=1
�̅�, 𝑑𝑜𝑛𝑑𝑒 �̅� =
1
𝑛∑ 𝑁𝑖
𝑛𝑖=1 . (20)
Esta estadística mide entonces la variación de todos los individuos de la población con
respecto la media entre los individuos. Aplicado entonces a la población, con el factor
fano se tiene una medida de las diferencias presentes entre la media de los individuos.
Esto implica que si el factor disminuye entonces la diversidad de la población disminuye.
Como umbral para determinar si la población ha sido degradada y se tiene una
convergencia prematura se tomó el 10% del valor del Factor Fano en la primera
generación de la población. Si la diversidad de la población se encuentra por debajo de
36
este valor, entonces es considerada en un estado degradado y por lo tanto debe ser
reinicializada.
La re inicialización de la población se realiza de manera similar a la inicialización de
la sección 4.5 pero con una variación. Con el fin de no perder completamente las
soluciones encontradas en las generaciones anteriores se decide mantener los cinco
mejores individuos de la población antes de la re inicialización.
37
Capítulo 5
Experimentos y resultados.
En este capítulo se presenta la descripción de los experimentos realizados y sus
resultados. Primero se describen los parámetros del FIS y el MA. Realizando pruebas
preliminares se busca encontrar la mejor configuración de parámetros. El método de la
sintonización de estos parámetros se presenta con sus respectivos resultados. Una vez
realizada la configuración de los parámetros se realizan las pruebas finales y se muestran
los resultados que se comparan de acuerdo a la función de costo escogida.
Adicionalmente, se muestra la relación entre la serie de tiempo real y la predicción hecha
por el sistema de inferencia con los datos de validación del mejor sistema difuso
sintonizado. Por último, se presenta un análisis de resultados en el que se comparan los
diferentes experimentos realizados y como estos pueden aportar a la toma de decisiones
de la fuerza pública para disminuir el número de crímenes.
5.1. Experimentos.
La figura 22 muestra la metodología propuesta para la sintonización de los parámetros
del sistema difuso. Los antecedentes y consecuentes del FIS son modificados por el MA.
Como en la sección 4.3 se muestra la construcción del individuo que representa el
sistema difuso este es el individuo sintonizado. Esta sintonización de parámetros es
guiada por medio de la función objetivo presentada en la sección 4.2.
Aquí se describe el proceso experimental y los resultados del mismo. Esto para
establecer una configuración de algunos de los parámetros del FIS y el MA, dentro de
estos están:
Número de reglas.
Número de generaciones.
Población intermedia.
Tamaño de la población.
Probabilidades que definen la evolución (probabilidad de mutación, cruce y
presión selectica).
Número de pruebas.
Se realizan dos conjuntos de experimentos (Contexto I y Contexto II). En el primer
contexto se utilizó la base de datos de ventanas de tiempo separadas semanalmente con
una diferencia entre cada ventana de tiempo de un día. Para el contexto II se escogió una
organización de la base de datos donde las ventanas de tiempo son de 30 días con
diferencia entre cada ventana de tiempo de 7 días.
38
La base de datos de cada contexto es dividida en un 70% de entrenamiento y 30% de
validación. El entrenamiento del sistema difuso se realiza con una prueba de 1000
generaciones en cada generación se hicieron cinco iteraciones de optimización local con
ANFIS. Esto, es debido a la fuerte optimización que ofrece este método. Y así, no
disminuir la diversidad de la población tan rápidamente manteniendo un espacio de
búsqueda.
Por cada uno de los parámetros se hace una variación y se realiza una prueba por
variación. Se muestra la evolución de la función objetivo. Y luego, se comparan los
mejores resultados de validación según la función objetivo escogida. Esto, con el fin de
obtener la mejor configuración. A continuación se presenta cada experimento realizado,
el análisis de los resultados de entrenamiento y los resultados de validación. En la tabla se
muestran los parámetros que se varían en función del desempeño de los diferentes
experimentos realizados.
Una vez se finalizan todos los experimentos se obtiene la configuración final del
sistema propuesto. Y se da paso a la determinación de la cantidad de regresores. Esto, se
realiza por medio de 50 pruebas con 300 generaciones. Con el fin de hacer una
caracterización del error y la correlación de la señal resultante con la real.
5.2. Contexto I
En este punto se presentan todas las pruebas realizadas para la primera organización
de la base de datos. Donde hay una agrupación semanal de datos con una diferencia de un
día, esta organización es explicada en la sección 3.3. Además, en la figura 17 se muestra
la serie de tiempo completa de este contexto. Esta serie de tiempo será, en esta sección, la
serie de tiempo de estudio. Fue esta forma de agrupación a la que se le realizaron todas
las pruebas para la predicción del centro y el radio del segundo hotspot de crimen.
5.2.1. Comparación de número de reglas.
Mediante este experimento se pretende definir el número de regiones de decisión
representadas por las funciones de pertenencia del antecedente y el consecuente (i.e.
reglas) del sistema difuso. Se propone hacer pruebas con diferente número de reglas y
observar la evolución de la función objetivo por prueba. Se realizaron un total de 10
pruebas para 4, 6, 8, 12 y 16 reglas para cada una de las variables de interés.
39
Figura 31. Función Objetivo de Número de Reglas
(a) Para X (b) para Y (c) para R
5.2.1.1. Análisis de resultados de entrenamiento.
En la las siguientes figuras se muestra la evolución de la función objetivo en 1000
generaciones del algoritmo memético. Esto, se realiza por cada uno de los experimentos
de las configuraciones escogidas.
En las Figura 31 (a), (b) y (c), se presenta la evolución de la función objetivo
propuesta en la sección 4.7 de las variables x, y y r respectivamente. En la figura 31 (a) se
observa que el mejor resultado de entrenamiento es el de 6 reglas con una gran
disminución cerca de 800 iteraciones. La figura 31 (b) muestra que hay una disminución
de aproximadamente el 5% del valor de la función objetivo en la evolución y de manera
general la evolución de las diferentes reglas están muy cercanas a un mismo punto de
convergencia el cual es 16.5. Por último, en la figura 31 (c) se muestran los experimentos
con 16 y 8 reglas los cuales son los de mejor desempeño. Estos resultados de
entrenamiento indican que las predicciones en estos experimentos son señales más
similares a las series de tiempo generadas por el agrupamiento.
40
Número de reglas X (f.obj) Y (f.obj) R(f.obj)
4 17.0032 23.1541 20.85591
6 18.6703 23.1644 21.6902
8 17.0111 23.8583 21.3576
12 17.0635 23.1233 22.6394
16 18.0391 23.1283 22.6394
Tabla 2. Resultados de prueba preliminar de variación de número de reglas.
5.2.1.2. Análisis de Resultados de Validación.
En la Tabla 2 se muestran los valores obtenidos para cada uno de los estadísticos de la
función objetivo. Estos estadísticos fueron medidos con los datos de validación. Se
muestran los experimentos de 4, 6, 8, 12 y 16 reglas.
En la tabla 2 se muestran los resultados de validación de las pruebas realizadas de la
variación del número de reglas por cada variable (X, Y, R) y se resaltó el mejor sistema.
Para la variable X el sistema con mejor desempeño según la función objetivo es de cuatro
reglas. Para la variable Y el mejor desempeño es del sistema de 12 reglas. Y por último
para la variable R el sistema difuso con mejor desempeño es de cuatro reglas. En la figura
32 se muestra la relación entre el desempeño de los sistemas difusos con respecto a la
variación del número de reglas
En la figura 32 (a) se puede observar que al aumentar el número de reglas de 8 a 16 el
desempeño del sistema difuso sintonizado se deteriora. Para la variable Y el mejor
sistema sintonizado es el de 12 reglas. Por último para la variable R a medida que
aumenta el número de reglas se deteriora el desempeño del sistema sintonizado.
5.2.2. Comparación de Variables del Algoritmo Memético.
En estos experimentos se definen las variables del algoritmo memético como la
probabilidad de cruce, la probabilidad de mutación de los memes y por último el tamaño
de la población para la búsqueda de soluciones del algoritmo. En cada uno de los
experimentos se realizaron diez pruebas por cada variable, el rango escogido por variable
se especifica en las siguientes secciones., el rango escogido por variable se especifica en
las siguientes secciones. Y por medio de estas pruebas se propone encontrar la mejor
configuración de búsqueda del algoritmo memético de acuerdo al mejor desempeño con
los datos de validación de 10 pruebas con 1000 generaciones por prueba.
41
Figura 32. Variación de número de reglas para (a) Variable X, (b) Variable Y | (c) Variable R.
5.2.2.1. Análisis de Entrenamiento para Probabilidad de Cruce.
El conjunto de pruebas realizadas en esta sección conciernen a la variación del
parámetro de probabilidad de cruce del algoritmo memético expuesto en el capítulo 4.
Para este experimento se realizaron un total de 10 pruebas con 1000 generaciones por
prueba. Cada prueba tiene un valor de probabilidad de cruce diferente y se les ha sido
modificado el número de reglas para el FIS de acuerdo a los resultados de la sección 5.2.
En las figuras 33, 34 y 35 se muestra la evolución de la función objetivo a través de las
1000 generaciones para la variables X, Y y R respectivamente. Por cada figura se
presentan dos secciones. La sección a muestra el desempeño del algoritmo con los
valores de probabilidad de cruce desde 0.5 a 0.75. Y en la sección b con valores desde
0.75 a 0.95. Mostrando entonces un total de diez pruebas por variable de interés.
Figura 33 Función Objetivo de Probabilidad de Cruce para X
(a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95
42
Figura 34 Función Objetivo de Probabilidad de Cruce para Y
(a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95
Figura 35 Función Objetivo de Probabilidad de Cruce para R
(a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95
Para la variable X (figura 33) se puede observar que las pruebas con valores de
probabilidad de cruce mayores a 0.75 (sección b de las imágenes) se obtuvo un mejor
desempeño general donde se llegó a un valor de función objetivo menor a 15.05 para un
valor de cruce de 0.75. La variable Y (figura 34) se puede observar que en la sección a la
mayoría de las pruebas tienen a un valor cercano a 16.5. A diferencia de la sección b
donde la mayoría de las pruebas se encuentran por encima de 16.6.
En la figura 33 a 35 se puede observar la diferencia del desempeño del algoritmo a las
diferentes variables de interés. El mejor desempeño de todas las variables es para X con
un valor de la función objetivo de 15.05. Y el peor desempeño lo presenta la variable R
con un valor mayor a 17.95. Una diferencia entre los resultados de entrenamiento de las
dos variables de 2.9 del valor de la función objetivo.
43
Valor Cruce X (f.Obj) Y(f.Obj) R(f.Obj)
0.5 17.2326 23.3255 21.9279
0.55 17.2288 23.2704 21.582
0.6 17.4519 23.8493 21.4318
0.65 17.3683 23.4831 21.7206
0.7 17.0737 23.1883 21.9109
0.75 16.8267 23.0476 21.5993
0.8 17.2045 23.1625 21.4074
0.85 17.2011 23.1 319 22.1781
0.9 17.1568 23.3256 22.0585
0.95 17.1885 23.3382 21.6028
Tabla 3. Resultados de validación de Valor de Cruce
5.2.2.2. Análisis de Resultados de Validación.
En la Tabla 3 se muestran los valores obtenidos para cada uno de los estadísticos de la
función objetivo. Estos estadísticos fueron medidos con los datos de validación de cada
una de las variables de interés. A continuación se muestran los experimentos para los
valores de cruce entre 0.5 y 0.95.
Los resultados de las diez pruebas realizadas se muestran en la tabla 3 organizadas por
variables (X, Y, R). Se muestra por cada valor de cruce el resultado de validación de la
función objetivo escogida. El valor resaltado en la tabla es el mejor valor para la prueba
con 1000 generaciones. Entonces para la variable X el mejor resultado se presenta en un
valor de probabilidad de cruce de 0.75, al igual que para la variable Y. Sin embargo, para
R el mejor desempeño del sistema resultó en una probabilidad de cruce de 0.8. En la
figura 36 se muestra una relación entre el desempeño del sistema con respecto a la
variación del valor de cruce para cada variable.
En la figura 36 (a) y (b) existe un tipo de cuenca en el desempeño de búsqueda del
algoritmo con respecto a la variación del parámetro. Se puede observar que tanto para la
figura 36 (a) como para la figura 36 (b) desde el valor de cruce de probabilidad 0.6
comienza a disminuir hasta llegar a un valor mínimo cercano a 0.75. Y luego nuevamente
aumenta a medida que aumenta el valor de probabilidad de cruce. Para la variable R se
presentan dos cuencas pero la mínima se encuentra en el valor de cruce de 0.8.
44
.
Figura 36. Variación de probabilidad de cruce para (a) Variable X, (b) Variable Y y (c) Variable R.
5.2.2.3. Análisis de Entrenamiento para la Probabilidad de
Mutación.
El conjunto de pruebas realizadas en esta sección conciernen a la variación del
parámetro de probabilidad de cruce del algoritmo memético expuesto en el capítulo
anterior. Para este experimento se realizaron un total de 10 pruebas con 1000
generaciones por prueba. Cada prueba tiene un valor de probabilidad de mutación
diferente y se les ha sido modificado el número de reglas para el FIS de acuerdo a los
resultados de la sección 5.2. Además de esto de acuerdo con los resultados de la sección
5.3 el valor asignado a la probabilidad de cruce fue modificado.
Las pruebas realizadas conciernen a los valores de mutación desde 0.01 hasta 0.1 con
una diferencia entre cada variación de 0.01. Esto da como resultado del experimento un
total de diez pruebas. En las figuras 37, 38 y 39 se muestra la evolución de la función
objetivo con respecto a las 1000 generaciones para cada una de las variables (X, Y y R
respectivamente). Cada figura consta de dos secciones y representa el total de diez
pruebas. La primera sección (a) muestra la evolución de la función objetivo con respecto
a los valores de probabilidad de mutación entre 0.01 y 0.05, al igual que la segunda
sección (b) que abarca los valores de probabilidad de mutación entre 0.06 y 0.1.
Figura 37. Función Objetivo de Probabilidad de Mutación para X
(a) Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1
45
Figura 38 Función Objetivo de Probabilidad de Mutación para Y
(a) Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1
Figura 39 Función Objetivo de Probabilidad de Mutación para R
(a) Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1
La figura 37 muestra el desempeño de las pruebas para los diferentes valores de
probabilidad de mutación. Para la sección a de la variable X el mejor desempeño se
presenta para un valor de mutación de 0.02. Sin embargo, en la sección b se puede
observar un mejor desempeño de entrenamiento con el valor de mutación de 0.09 con un
valor de función objetivo menor a 15.05. La variable Y tiene como mejor desempeño de
búsqueda con el valor de mutación de 0.04 con un valor menor a 16.5. Por último, la
variable R tiene su mejor desempeño con un valor de mutación de 0.01.
46
Tabla 4. Resultados de validación de pruebas de probabilidad de mutación
Figura 40. Variación de probabilidad de mutación para (a) Variable X, (b) Variable Y y (c) Variable R
5.2.2.4. Análisis de Resultados de Validación.
En la Tabla 4 se muestran los valores obtenidos para cada uno de los estadísticos de la
función objetivo. Estos estadísticos fueron medidos con los datos de validación de cada
una de las variables de interés. A continuación se muestran los experimentos para los
valores de probabilidad de mutación entre 0.01 y 0.1.
Los resultados de las diez pruebas realizadas se muestran en la tabla 4 organizadas por
variables (X, Y, R). Se muestra por cada valor de probabilidad de mutación el resultado
de validación de la función objetivo escogida. El valor resaltado en la tabla es el mejor
valor para la prueba con 1000 generaciones. Entonces para la variable X el mejor
resultado se presenta en un valor de probabilidad de mutación de 0.09, para la variable Y
se presenta en 0.06. Y para R el mejor desempeño del sistema resultó en una probabilidad
de mutación de 0.04.
En la figura 40 se muestra una relación entre el desempeño del sistema con respecto a
la variación del valor de mutación para cada variable. Se puede observar que para la
variable Y al pasar del valor de 0.06 de probabilidad de mutación comienza a empeorar el
desempeño del algoritmo. En los valores de 0.08 de mutación para la variable X, en 0.1
Valor de mutación X Y R
0.01 17.3215 24.2848 20.8754
0.02 17.6283 23.191 41.9525
0.03 17.118 23.1722 22.1683
0.04 17.2444 23.5905 20.7635
0.05 17.2122 23.3886 20.8621
0.06 17.1842 23.1293 30.0971
0.07 17.1949 23.2405 22.3407
0.08 20.4298 23.3193 21.1143
0.09 16.9378 23.8322 21.7166
0.1 17.0601 24.5499 21.9354
47
para la variable Y y en 0.02 para la variable R se generaron picos donde se ve degradado
el desempeño del algoritmo. Esto, con respecto a las series de tiempo de las variables de
interés.
5.2.2.5. Análisis de Entrenamiento del Tamaño de Población.
El experimento realizado en esta sección abarca la búsqueda del parámetro del tamaño
de población del algoritmo memético explicado en el cuarto capítulo. Se realizaron un
total de 10 pruebas con 1000 generaciones por prueba. Cada prueba cuenta con un
tamaño de población diferente. Comenzando en 10 memes hasta 28 en pasos de a 2 para
completar el total de las 10 pruebas.
En las figuras 41, 42 y 43 se muestra la evolución de la función objetivo con respecto
a las 1000 generaciones para cada una de las variables (X, Y y R respectivamente). Cada
figura consta de dos secciones y representa el total de diez pruebas. La primera sección
(a) muestra la evolución de la función objetivo con respecto a los diferentes tamaños de
poblaciones asumidos entre 10 y 18 memes, al igual que la segunda sección (b) que
abarca los tamaños de población entre 20 y 28 memes.
Figura 41 Función Objetivo diferentes tamaños de población para X
(a) Tamaño de población entre 10 y 18 (b) Tamaño de población entre 20 y 28
48
Figura 42 Función Objetivo diferentes tamaños de población para Y
(a) Tamaño de población entre 10 y 18 (b) Tamaño de población entre 20 y 28
Figura 43. Función Objetivo diferentes tamaños de población para R
(a) Tamaño de población entre 10 y 18 (b) Tamaño de población entre 20 y 28
Las figura 41, 42 y 43 muestran el desempeño de las pruebas para los diferentes
tamaños de población por cada una de las variables. Para la variable X el mejor
desempeño se presenta para un tamaño de población de 28 con un valor de función
objetivo cercano a 15.05. En la figura 42 se representan las pruebas llevadas a cabo para
la serie de tiempo de la variable Y. En esta variable (Y) se observa que las funciones
objetivo tienen una menor dispersión que en las demás variables y convergen todas
cercanas a un mismo punto. El mejor resultado de entrenamiento es el de tamaño de
población de 26 encontrado en la sección b de la figura 42. Las pruebas de la variable R
se muestran en la figura 43 en donde el mejor resultado de entrenamiento se presentó
para un tamaño de población de 26.
49
Tabla 5. Resultados de validación de experimento para el tamaño de población.
Figura 44. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable R
5.2.2.6. Análisis de Resultados de Validación.
En la Tabla 5 se muestran los valores obtenidos para cada uno de los estadísticos de la
función objetivo. Estos estadísticos fueron medidos con los datos de validación de cada
una de las variables de interés. A continuación se muestran los experimentos para los
diferentes tamaños de población desde 10 hasta 28.
Los resultados del experimento realizado se muestran en la tabla 5 organizadas por
variables (X, Y, R). Se muestra por prueba el resultado de validación de la función
objetivo escogida y el valor resaltado en la tabla es el mejor valor para la prueba con
1000 generaciones. Entonces, para la variable X el mejor resultado fue con una población
de tamaño 28. Este resultado de validación se encuentra en concordancia con el resultado
de entrenamiento que se muestra en la figura 41. El mejor resultado de validación es
23.1258 de la función objetivo con un tamaño de población de 28. Por último, en la
figura 44 se resalta el mejor resultado para la variable R que es con un tamaño de
población de 16.
Número de Reglas Valor de cruce Valor de mutación Tamaño de población
X 4 0.75 0.09 28
Y 12 0.75 0.06 28
R 4 0.8 0.04 16
Tabla 6. Parámetros sintonizados del sistema propuesto
Tamaño de población X Y R
10 17.2739 25.3534 21.3255
12 17.7706 23.284 21.2524
14 16.8441 23.8357 21.932
16 17.0333 23.7789 21.16
18 17.2337 23.28 64.9733
20 17.1254 23.4097 22.136
22 17.2211 23.3321 21.9464
24 17.0751 23.3891 21.4205
26 17.229 23.1525 22.3741
28 16.7537 23.1258 21.2276
50
En la figura 44 se muestra la relación entre el desempeño del sistema representado por
la función objetivo y la variación del tamaño de población para cada una de las variables
de interés. En la figura 44 parte (a) y (b) (variable X y Y) se puede observar que a medida
que se aumenta el tamaño de la población mejora considerablemente el desempeño del
sistema. Sin embargo, la variable R no le corresponde este mismo comportamiento, si se
observa en un tamaño de población de 18 el desempeño se degrada más de tres veces el
promedio del desempeño de los demás tamaños de población.
5.2.3. Análisis de Entrenamiento de Número de Entradas.
En las secciones anteriores se realizaron experimentos para sintonizar los parámetros
escogidos del algoritmo memético como la probabilidad de mutación, la probabilidad de
cruce y el tamaño de la población. Además, también el número de reglas más adecuado
fue sintonizado para el sistema propuesto. En la tabla 6 se muestra como fueron
sintonizados los parámetros según los experimentos realizados anteriormente.
En el conjunto de experimentos realizados en esta sección han sido configurados de
acuerdo a la tabla 6. Ahora, una vez configurados los sistemas de variable se procede a la
selección del número de regresores. Para eso se realizaron un conjunto de experimentos
con el fin de hacer una caracterización del problema con un gran número de pruebas. Se
realizó un experimento de 50 pruebas con 1000 generaciones cada prueba. Se llevaron a
cabo 6 experimentos por cada variable.
A cada experimento se le fue asignado un número diferente de regresores desde 3
hasta 8 regresores para la predicción del dato inmediatamente siguiente a los datos de
entrada. En este caso el número de regresores representa el número de entradas del
sistema propuesto. Se decidió un máximo de 8 regresores ya que en los datos se tomó una
ventana de tiempo de una semana.
A continuación se presenta una recopilación de los resultados de los experimentos
descritos anteriormente. Se muestra entonces la caracterización por cada número de
regresores. Además, se presenta la mejor solución encontrada de la totalidad de los
experimentos para cada una de las variables de acuerdo con la función objetivo.
Adicionalmente, se muestra el índice de correlación entre la serie de tiempo real y la serie
resultante del sistema propuesto. Este índice se representa de manera gráfica por medio
de un diagrama de dispersión. Un diagrama de dispersión está definido por ser una
gráfica de dos variables, siendo estas medidas de manera independiente y graficadas en
un mismo sistema de coordenadas, en este caso cartesianas. Así, el diagrama de
dispersión muestra los valores de cada una de las variables.
Las variables de interés son las series de tiempo reales generadas por el algoritmo de
reorganización de agrupamiento (coordenada X, Y o R) y la serie resultante del sistema
propuesto como la predicción. Por último, se presenta el sistema difuso resultante con sus
51
parámetros y funciones de pertenencia. Sistema por medio del cual se realizó la
predicción para obtener el mejor resultado de cada una de las variables.
5.2.3.1. Análisis de Validación de Experimentos de la Variable X.
Los experimentos realizados para la variable X se presentan a continuación. En la
figura 45 se muestran la totalidad de las pruebas realizadas para cada número diferente de
regresores asumidos para la predicción de la variable. Esta figura presenta la
caracterización del problema para cada regresor, representando de manera gráfica la
distribución de los valores de validación de la función objetivo. Se puede observar que el
mejor resultado para la variable X es dado en los experimentos 5 regresores con un valor
de 16.6123, este es el mejor resultado encontrado para la variable X.
En la figura 46 se muestra el mejor resultado de todos los experimentos realizados
para la variable X. La serie de tiempo azul es la serie generada por el algoritmo de
reorganización de agrupamientos, la serie de tiempo roja es la señal resultante del sistema
propuesto. A primera vista se puede observar una similitud entre la señal real y la
resultante. Pero es necesario obtener una medida de similitud entre las dos señales y para
esto se extrajo la correlación entre una señal y otra la cual da un valor de 0.6082. Donde
el mayor valor es uno, valor en el cual las señales serían exactamente iguales.
En la figura 47 se muestra el diagrama de dispersión para la predicción resultante del
sistema propuesto para la variable X y la serie de tiempo generada por el algoritmo
presentado en la sección 4. El sistema propuesto fue configurado con los parámetros
sintonizados por las pruebas preliminares, parámetros que son mostrados en la Tabla 6
para la variable X y con 5 regresores. En esta figura se puede observar que la nube de
puntos está agrupada cerca a la recta roja. Además, la pendiente de esta nube de puntos
crea una pendiente similar a la variable roja. Esta recta roja es una serie de tiempo y los
puntos azules son los valores de la otra serie de tiempo.
Figura 45. Histogramas de diferente número de regresores para X.
52
Figura 46. Serie de tiempo de variable X.
Figura 47. Diagrama de dispersión Real vs. Predicción
Figura 48. Base de reglas para la variable X.
53
Variable Indice de Correlación POCID RMSE MAPE
X- Contexto I 0.6082 0.4319 0.0733 1.61e-5
Tabla 6.1 Resultados finales
En la figura 48 se muestra la base de reglas con las funciones de pertenencia
sintonizadas por el algoritmo memético. Las filas muestran el número de reglas fijadas a
priori por cada entrada, que en este caso son cinco. En esta figura se muestra el rango y
un ejemplo de los niveles de disparo de cada una de las reglas. Se puede observar que en
este ejemplo para la entrada 5 en la regla 3 no existe función de pertenencia dentro del
rango determinado para el sistema difuso. Gracias al método de sintonización la
interpretabilidad lingüística de estas funciones de pertenencia presentadas se ve
complicada. Sin embargo, utilizando la información dada por la base de reglas se pueden
realizar inferencias del comportamiento del sistema y como pueden llegar a influir las
entradas de ubicaciones en el pasado para determinar la ubicación en el futuro.
El hecho de que exista una correlación entre las predicciones del sistema y los datos de
validación da a entender que existe entonces información muy importante en la ubicación
de los eventos en el pasado. Por ejemplo, en la entrada dos regla dos se puede observar
una función de pertenencia con un rango muy pequeño esto implica que un cambio
pequeño puede afectar de una manera drástica el resultado de salida. Por lo tanto, se
puede decir que la entrada dos es de gran importancia. Sin embargo, si se observa la
entrada uno regla tres un gran cambio en la entrada no genera grandes cambios en los
valores de pertenencia de esa regla y por lo tanto se puede deducir una menor
importancia de esa entrada en la salida del sistema. Como inferencia final, al observar en
conjunto las entradas y los conjuntos difusos asociados a estas se puede afirmar que hay
un fenómeno de crimen que depende del pasado.
5.2.3.2. Análisis de Validación de Experimentos de la Variable Y.
A continuación se muestran los resultados de validación de los experimentos
realizados para la variable Y. La figura 49 muestra los histogramas de las pruebas
realizadas para cada experimento de la variación del número de regresores. Se presenta
por medio de los histogramas la caracterización del problema para cada regresor,
representando de manera gráfica la distribución de los valores de validación de la función
objetivo. Al igual que para la variable X en la variable Y también se encontró que para el
número de 5 regresores. Esto, con un valor de función objetivo de 22.4895.
54
Figura 49. Histogramas de diferente número de regresores para Y
Figura 50. Serie de tiempo de variable Y.
Figura 51. Diagrama de dispersión Real vs. Predicción
55
Figura 52. Base de Reglas para la variable Y.
Variable Indice de Correlación POCID RMSE MAPE
Y- Contexto I 0.4488 0.4543 0.0953 1.373e-4
Tabla 6.2 Resultados finales variable Y.
Ya que se desea medir la similitud existente entre las dos señales se extrae el índice de
correlación que en este caso es de 0.4488. Y, en la figura 50 se presenta el mejor
resultado de todos los experimentos realizados para la variable Y. Al igual que la figura
46 la serie de tiempo azul es generada por el algoritmo del capítulo 4.
El diagrama de dispersión se presenta en la figura 51. Este es el diagrama resultante
del sistema propuesto para la variable Y. El sistema propuesto fue configurado en la
Tabla 6 para la variable Y y al igual que para X se le asignaron un total de 5 regresores.
Se puede observar que la nube de puntos azules tiende a ubicarse a lo largo de la recta
roja. Esto indica que existe una relación entre las variables en cuestión. Para este caso la
predicción de Y y la variable real.
En la figura 52 se muestra la base de 12 reglas de la variable Y que fueron
sintonizados por el algoritmo memético del mejor resultado de la totalidad de los
experimentos. Se puede observar que para la entrada 5 desde las reglas #3 a las regla #8
las funciones de pertenencia tienen muy poca influencia en los valores positivos.
Además, se puede observar que la regla 7 no tiene influencia alguna sobre el rango
predeterminado del sistema para la variable Y.
5.2.4.Análisis de Validación de Experimentos de la Variable R.
Los experimentos realizados para la variable R se presentan a continuación. Los
histogramas que se muestran en la figura 53 son la recopilación de la totalidad de los
experimentos realizados para la variable R. Estos experimentos son con el fin de
determinar el número de regresores adecuados para el sistema propuesto cuando la
56
variable de interés es R. Entonces, por medio de los histogramas se presenta la
caracterización del problema para cada regresor, representando de manera gráfica la
distribución de los valores de validación de la función objetivo. A diferencia de las
variables X y Y, en R no se obtuvo el mismo número de regresores. Para este caso el
mejor resultado se encontró en 8 regresores.
El mejor resultado en 8 regresores es un valor de función objetivo de 20.8627. En la
figura 54 se muestra la predicción del sistema (rojo) y la señal real que es el radio del
agrupamiento encontrado por el algoritmo de reagrupación. Se halló el índice de
correlación como medida de similitud entre las dos señales. Este valor resultó en 0.489,
en la figura 55 se muestra el diagrama de dispersión entre ambas series de tiempo. Como
se puede observar en esta figura la nube de puntos es mucho más dispersa que en los
experimentos de las anteriores variables. Esto es debido a los bruscos cambios presentes
en la señal R. Aunque estos puntos son más dispersos es posible observar una
concentración de puntos en la primera mitad de la recta roja. Esto da indicios de la
existencia una relación entre ambas series de tiempo.
Figura 53. Histograma de diferente número de regresores para la variable R.
Figura 54. Serie de tiempo de variable R.
57
Figura 55. Diagrama de dispersión Real vs. Predicción
Figura 56 Base de reglas para la variable R.
Variable Indice de Correlación POCID RMSE MAPE
R- Contexto I 0.489 0.3981 0.1405 0.0234
Tabla 6.3. Resultados finales variable R.
La base de reglas de la variable R se muestra en la figura 56. La base de reglas tiene
las ocho entradas para las cuales se encontró el mejor resultado mostrado en la figura 56.
Se puede observar que la entrada 2 tiene muy poca influencia ya que sus funciones de
pertenencia se encuentran centradas en las partes negativas. También, se puede observar
esto en la primera regla para las entradas 5,6 y 7 donde los niveles de disparo de las
funciones de pertenencia son mínimos para valores positivos. Llevando a concluir que
para la primera regla es más importante la información que aportan las entradas más
próximas en tiempo al dato que se quiere predecir. Es importante recalcar que para esta
variable se deben tener en cuenta una mayor cantidad de entradas al sistema. Esto es
debido a que se encontró que el mejor resultado se presentó con mayor información del
pasado. Lo que implica que esta variable de radio de acción es altamente dependiente de
acciones criminales desde hasta 8 días.
58
5.3. Contexto II
En este punto se presentan todas las pruebas realizadas para la primera organización
de la base de datos. Donde hay una agrupación de 30 días de crímenes con una diferencia
de 7 días como el delta de tiempo para la construcción de la serie de tiempo, esta
agrupación es también explicada en la sección 3.3. Se presenta además la serie de tiempo
a predecir en la figura 21. Al igual que en el contexto I se presenta la forma en que se
realizaron los experimentos para determinar la mejor predicción para esta forma de
agrupación.
5.3.1. Comparación de Número de reglas
Mediante este experimento se pretende definir el número de regiones de decisión
representadas por las funciones de pertenencia del antecedente y el consecuente (i.e.
reglas) del sistema difuso. Se propone hacer pruebas con diferente número de reglas y
observar la evolución de la función objetivo por prueba. Se realizaron un total de 10
pruebas para 4, 6, 8, 12 y 16 reglas para cada una de las variables de interés.
5.3.1.1. Análisis de Datos de Entrenamiento.
El entrenamiento realizado para determinar el número de reglas adecuadas para cada
una de las variables de interés de este contexto se muestra en la figura 57. En esta figura
se presentan los mejores desempeños de entrenamiento para cada número de regla
determinado. Un total de 6 representaciones de desempeño de la función objetivo en el
total de las generaciones.
Figura 57 Función Objetivo de Número de Reglas
(a) Para X (b) Para Y (c) Para R
59
Número de reglas X Y R
4 11.9342 13.6741 29.2315
6 11.8726 13.9189 29.8845
8 11.9628 13.8476 31.139
12 11.9571 13.8395 30.7488
16 11.9504 13.5097 30.5889
Tabla 7 Resultados de variación de Número de Reglas
Figura 58 Variación de número de reglas para (a) Variable X, (b) Variable Y y (c) Variable R.
En la figura 57 (a) se muestra la mejor evolución en el entrenamiento con diferente
número de reglas para la variable X. En esta figura se puede observar que el mejor
resultado de entrenamiento al final de las 1000 generaciones es para 4 reglas (Azul claro)
con un valor de función objetivo cercano a 13.9. Para la variable Y (figura 57 (b)) se
muestra que el mejor desempeño fue dado en las 16 reglas (color verde) con un valor
entre 14.1 y 14.05. Por último, en la figura 57 (c) se muestran los resultados de
entrenamiento de la variable R donde su mejor desempeño es para 16 reglas que luego de
aproximadamente 10 generaciones llegó a un valor cercano a 18.2. En general se puede
observar para cada variable hay un grupo de pruebas que tienden a converger a valores
cercanos y unas pocas pruebas que tienden por debajo de la tendencia de convergencia.
5.3.1.2. Análisis de Resultados de Validación.
Una vez realizados los entrenamientos para las diferentes pruebas del número de
reglas se validan los resultados con el 30% de la base de datos que no ha sido mostrada al
sistema. En la tabla 7 se muestran los mejores resultados de validación para cada prueba
con un número de reglas diferente. Adicionalmente, resaltado está el menor valor y el
escogido como valor adecuado para la configuración del sistema de inferencia difusa. En
este caso para la variable X se escogió un número de 6 reglas, para Y 16 reglas, y para R
4 reglas. Esta configuración se mantiene en el total de las siguientes pruebas.
60
En la figura 58 se muestra el desempeño del sistema con respecto a la variación del
número de reglas desde 4 a 16 reglas para cada una de las variables de interés. En (a) se
puede observar que existe una gran disminución en 6 reglas y luego un gran aumento que
aunque a medida que incrementa el número de reglas mejora el desempeño sigue
manteniéndose muy por encima del desempeño de 6 reglas. Para Y al aumentar el
número de reglas el desempeño en general mejoró y el mejor resultado fue en 16 reglas.
Por último, se puede observar la tendencia en la variable R que a medida que se
incrementa el número de reglas el desempeño empeora.
5.3.2. Comparación de Variables del Algoritmo Memético.
En esta sección se presentan los experimentos concernientes con la definición de las
variables del algoritmo memético explicado en la sección 4 con el sistema propuesto. Las
variables a definir son la probabilidad de cruce, la probabilidad de mutación y el número
de la población solución. En cada uno de los experimentos se realizaron 10 pruebas, cada
prueba con un valor diferente de las variables del algoritmo. Los valores de cada
parámetro se especifican en las siguientes secciones.
Y por medio de estas pruebas se propone encontrar la mejor configuración de
búsqueda del algoritmo memético de acuerdo al mejor desempeño con los datos de
validación de 10 pruebas con 1000 generaciones por prueba. Esto se realiza sintonizando
los parámetros de acuerdo al resultado de pruebas preliminares variando los parámetros
de interés ya dichos en esta sección.
5.3.2.1. Análisis de entrenamiento para la probabilidad de cruce.
El conjunto de pruebas realizadas en esta sección se realizan para determinar el valor
de probabilidad de cruce adecuado para el problema en cuestión. Para esto se realizan
pruebas de 1000 generaciones, cada prueba tiene un valor de cruce diferente. Una vez
obtenidas todas las pruebas se realiza una comparación con el fin de determinar el mejor
valor para la búsqueda de la predicción de las variables de interés de crimen en la ciudad.
61
Figura 59 Función Objetivo de Probabilidad de Cruce para X
(a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95
Figura 60 Función Objetivo de Probabilidad de Cruce para Y
(a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95
Figura 61 Función Objetivo de Probabilidad de Cruce para R
(a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95
62
En las figuras 59, 60 y 61 se muestra el entrenamiento para cada valor de cruce
diferente. Este entrenamiento fue de 1000 generaciones por prueba, donde cada prueba se
refiere a un valor diferente de probabilidad de cruce desde 0.5 a 0.95 con diferencia entre
prueba de 0.05. La sección a de cada figura muestra las pruebas desde 0.5 a 0.7 y la
sección b muestra de 0.75 a 0.95. Para la variable X se puede observar que las pruebas
todas convergen aproximadamente a las 100 generaciones. Para la variable Y se puede
observar que el mejor desempeño se presenta para el valor de probabilidad de cruce 0.7
con un valor de función objetivo por debajo de 14.1. Finalmente, se puede observar en la
figura 61 que para la variable el mejor desempeño de entrenamiento se encontró para el
valor de probabilidad de cruce de 0.6 convergiendo en un valor de función objetivo de
17.
5.3.2.2. Análisis de Resultados de Validación.
En la Tabla 8 se muestran los valores obtenidos del desempeño de cada prueba con
respecto a la función objetivo. Estos estadísticos fueron medidos con los datos de
validación de cada una de las variables de interés. A continuación se muestran los
experimentos para los valores de cruce entre 0.5 y 0.95.
Los resultados de las diez pruebas realizadas se muestran en la tabla 8 organizadas por
variables (X, Y, R). Se muestra por cada valor de cruce el resultado de validación de la
función objetivo escogida. El valor resaltado en la tabla es el mejor valor para la prueba
con 1000 generaciones. Entonces para la variable X el mejor resultado se presenta en un
valor de probabilidad de cruce de 0.85. Como se puede observar, para Y el mejor
desempeño del sistema resultó en una probabilidad de cruce de 0.7, al igual que para R.
Probabilidad de Cruce X Y R
0.5 11.9971 14.171 40.8942
0.55 11.9867 14.0843 30.4683
0.6 11.9908 13.9838 43.3138
0.65 11.9777 14.2277 42.0632
0.7 11.9872 13.761 27.5142
0.75 11.9875 14.0488 33.8138
0.8 11.9901 13.7748 30.6346
0.85 11.9606 13.9105 32.8436
0.9 11.9857 13.971 31.9382
0.95 11.9888 13.9681 29.3322 Tabla 8. Resultados de validación de probabilidad de cruce.
63
Figura 62. Variación de probabilidad de cruce para (a) Variable X, (b) Variable Y y (c) Variable R.
En esta se muestra el desempeño que presentó el algoritmo memético con respecto a la
variación del valor de probabilidad de cruce. En la parte (a) de esta figura se presenta la
variable X donde se puede observar visualmente que el mejor desempeño está en 0.85.
Para Y el mínimo está en 0.7 y luego se observa que comienza a deteriorarse el
desempeño al aumentar el valor de cruce. Al igual que en Y para R en la parte (c) de la
figura el mejor desempeño está en 0.7 y aunque al aumentar la valor de probabilidad
después de 0.8 se comienza a presenciar mejoras con respecto a 0.75 no alcanza a superar
a el desempeño en 0.7. Por lo tanto, se escogen cada uno de estos valores de cruce que
son resaltados en la tabla para así continuar con el proceso de sintonización de
parámetros.
5.3.2.3. Análisis de Entrenamiento para la Probabilidad de
Mutación.
El conjunto de pruebas realizadas para determinar el valor de probabilidad de
mutación sigue el mismo esquema que para la determinación del parámetro de cruce.
Entonces se realizan 10 pruebas con 1000 generaciones. Cada prueba corresponde a un
valor de mutación diferente desde 0.01 hasta 0.1 con diferencias entre cada prueba de
0.01.
64
Figura 63. Función Objetivo de Probabilidad de Mutación para X
(a)Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1
Figura 64. Función Objetivo de Probabilidad de Mutación para Y
(a) Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1
Figura 65. Función Objetivo de Probabilidad de Mutación para R
(a) Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1
65
En las figuras 63, 64 y 65 se muestra el desempeño de entrenamiento a través de las
1000 generaciones en las que se corrió el algoritmo memético. Estas figuras están
separadas en dos secciones. La primera o sección a muestra la evolución de las pruebas
con valores de probabilidad de mutación entre 0.01 y 0.05 y la sección b muestra las
pruebas con valores desde 0.06 hasta 0.1. En la figura 63 se puede observar que para la
variable X el mejor desempeño se presentó para la línea roja para un valor de 0.02. Al
observar la figura 64 se puede deducir que el mejor resultado de entrenamiento para la
variable Y se encuentra en 0.07 y en la figura 65 se muestra en azul claro el mejor
resultado en la sección b de la figura con un valor de 0.06 para la variable R.
5.3.2.4. Análisis de Resultados de Validación.
En la Tabla 9 se muestran los valores obtenidos para cada uno de los estadísticos de la
función objetivo. Estos estadísticos fueron medidos con los datos de validación de cada
una de las variables de interés. A continuación se muestran los experimentos para los
valores de probabilidad de mutación entre 0.01 y 0.1. En esta tabla se encuentran
resaltados los valores con mejor desempeño de validación con la variación del valor de
probabilidad de cruce. En este caso se puede observar que para la variable X el mejor
valor de mutación es en 0.02 con un desempeño de 11.9651. El mejor resultado de la
variable Y está en 0.07 con un valor de función objetivo de 13.6969 y la variable R con
un valor de función objetivo de 29.7495 tiene el mejor desempeño con un valor de
probabilidad de mutación de 0.1.
Probabilidad de Mutación X Y R
0.01 11.9745 14.1398 35.7319
0.02 11.9651 14.0848 30.7645
0.03 11.985 14.0591 31.3942
0.04 11.9846 13.9383 33.423
0.05 11.9661 14.2262 37.9698
0.06 11.9819 13.9912 36.5797
0.07 11.9748 13.6969 31.3791
0.08 11.9875 13.8914 35.0836
0.09 11.9678 13.9472 36.0626
0.1 11.9767 14.0201 29.7495 Tabla 9. Resultados de validación para experimento de probabilidad de mutación.
66
La figura 66 muestra gráficamente los resultados de la tabla para que visualmente se
puede observar la relación entre el desempeño de la función con la variación del valor de
probabilidad de cruce. Al comparar estos resultados de validación con los resultados de
entrenamiento se puede observar una diferencia entre los desempeños de la función
objetivo. Sorprendentemente para la variable los valores de función objetivo no bajan de
14. Sin embargo en los resultados de validación se encuentran los valores por debajo de
12, lo cual significa que existe una mejor correlación y el aprendizaje se llevó a cabo. Y
también se observa que el mejor entrenamiento mostrado en la figura 63 que es para un
valor de 0.02 concuerda con los resultados de validación.
En el caso de la variable Y los valores de la función objetivo en la validación y en el
entrenamiento son bastante cercanos el menor valor de entrenamiento de Y para estas
pruebas fue 14.0744 y en validación fue 13.6969 una diferencia de 0.3775, aunque se
mantiene que en el entrenamiento el mejor resultado fue para un valor de mutación de
0.07 al igual que para la validación del sistema.
Figura 66. Variación de la probabilidad de mutación para (a) Variable X, (b) Variable Y
(c)Variable R
A diferencia de las demás variables en la variable R si se deteriora el desempeño en
cuanto a la función objetivo pues como se observa en la figura 65 se puede observar que
las pruebas de entrenamiento convergen en valores de función objetivo cercanos a 18 y
19 pero en la tabla 9 se muestra que los valores de función objetivo aumentan hasta
37.9698 y donde el mejor desempeño de validación es de 29.7495. Además, no se
mantuvo que el mejor resultado de entrenamiento (0.06) ya que en la validación el mejor
desempeño se encuentra en 0.1.
67
5.3.2.5. Análisis de Entrenamiento para el Tamaño de la
Población.
El experimento explicado en esta sección muestra el proceso que se realizó para
determinar el valor del parámetro de tamaño de población del algoritmo memético. Se
realizaron un total de 10 pruebas con 1000 generaciones al igual que para los otros
parámetros. Cada prueba tiene un tamaño de población diferente desde 10 a 28 con una
diferencia de tamaño de 2 memes entre cada prueba.
Las figuras 67, 68 y 69 muestran el entrenamiento con los diferentes tamaños de
población. En la sección a de cada figura muestra la evolución de la población de 10 a 18
y la sección b es de 20 a 28. En la figura 67 (a) el mejor desempeño se muestra para una
población de 26 memes con un valor cercano a 14.04 de función objetivo. Al igual que en
casos anteriores el punto de convergencia de la variable X es muy cercano para todas las
pruebas realizadas en este y en los experimentos anteriores para este contexto.
Figura 67. Función Objetivo diferentes tamaños de población para X
(a) Tamaño de población entre 10 y 18 (b) Tamaño de población entre 20 y 28
68
Figura 68. Función Objetivo diferentes tamaños de población para Y
(a) Tamaño de población entre 10 y 18 (b) Tamaño de población entre 20 y 28
Figura 69 Función Objetivo diferentes tamaños de población para R
(a) Tamaño de población entre 10 y 18 (b) Tamaño de población entre 20 y 28
Para la variable Y se muestra que el mejor resultado se presentó para una población de
14 memes. En esta variable hay una mayor dispersión en los puntos de convergencia
después de las 1000 generaciones de entrenamiento. Por último, la figura 69 muestra los
resultados de entrenamiento de la variable R. Ya que las funciones objetivos luego de
todas las generaciones de entrenamiento no están tan dispersas como para la variable Y se
puede identificar que los tres mejores entrenamientos son para una población de 20 con
un valor de 17.9420, de 22 con un valor de función objetivo de 17.9396 y de 28 con un
valor de 17.9561. Siendo entonces el mejor resultado de entrenamiento para 22 memes
como el tamaño de la población.
69
5.3.2.6. Análisis de resultados de validación. En la Tabla 10 se muestran los valores obtenidos para cada uno de los estadísticos de
la función objetivo. Estos estadísticos fueron medidos con los datos de validación de cada
una de las variables de interés. A continuación se muestran los experimentos para los
diferentes tamaños de población desde 10 hasta 28.
Los resultados del experimento realizado se muestran en la tabla 10 organizados por
variables (X, Y, R). Se muestra por prueba el resultado de validación de la función
objetivo escogida y el valor resaltado en la tabla es el mejor valor para el entrenamiento
de 1000 generaciones. Entonces, para la variable X el mejor resultado fue con una
población de tamaño 24. Este valor de tamaño de población para el resultado de
entrenamiento que se muestra en la figura 67 (b) es la evolución de la función en amarillo
que está dentro de los mejores resultados de entrenamiento menores a 14.05. El mejor
resultado de validación es 11.8948 de la función objetivo que al igual que en los
anteriores experimentos es menor que la función de entrenamiento. A continuación, se
presenta en la figura 70 (b) como varía el desempeño de acuerdo al aumento en el tamaño
de población. En esta figura se puede observar que existe un mínimo valor el cual es el
mejor desempeño de población de 14 con un valor de función objetivo de 13.6791 que
además se muestra en la tabla 10 para la variable Y. Por último, se presentan los
resultados de la variable R, en este caso el mejor resultado de validación que se muestra
en la tabla es para un tamaño de población de 20. En la sección anterior este valor de
población se encontraba dentro de los mejores resultados de entrenamiento. En la figura
70 (c) se muestra gráficamente la disminución en este tamaño de población con respecto
a los demás.
Tamaño de población X Y R
10 11.9865 13.9433 35.3606
12 11.9486 14.2639 36.0611
14 11.9801 13.6791 33.2279
16 11.9827 14.0776 34.5834
18 11.977 14.0737 29.1198
20 11.9585 14.0328 28.9517
22 11.9884 14.2124 34.2018
24 11.8948 14.2245 36.0381
26 11.9203 14.1098 32.33
28 11.9723 13.9655 30.0991 Tabla 10. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable R
70
Figura 70. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable R.
5.4. Análisis de Entrenamiento de Número de Entradas
En las secciones anteriores se presentó la recopilación de todos los resultados de la
sintonización de los parámetros del algoritmo memético tal como la probabilidad de
mutación, la probabilidad de cruce, tamaño de población y número de reglas. En la tabla
11 se muestran los valores de estos parámetros escogidos para cada variable de interés
que como resultado dieron el mejor resultado de validación para la predicción.
En esta sección se presenta la metodología usada para encontrar el mejor número de
entradas o regresores adecuado para la predicción de X, Y y R. Una vez configurados los
sistemas con los parámetros sincronizados de variable se procede a la selección del
número de regresores. Para eso se realizaron un conjunto de experimentos con el fin de
hacer una caracterización del problema con un gran número de pruebas. Se realizó un
experimento de 50 pruebas con 1000 generaciones cada prueba. Se llevaron a cabo 6
experimentos por cada variable con el número de regresores variando desde 3 regresores
a 8 regresores.
A cada experimento se le fue asignado un número diferente de regresores desde 3
hasta 8 regresores para la predicción del dato inmediatamente siguiente a los datos de
entrada. En este caso el número de regresores representa el número de entradas del
sistema propuesto.
Número de
Reglas
Valor de cruce Valor de
mutación
Tamaño de
población
X 6 0.85 0.02 24
Y 16 0.7 0.07 14
R 4 0.7 0.1 28
Tabla 11. Parámetros sintonizados del sistema propuesto.
71
En la siguiente sección se presenta una recopilación de los resultados de los
experimentos descritos anteriormente. Se muestra entonces la caracterización por cada
número de regresores. Adicionalmente, se presenta la mejor solución encontrada de la
totalidad de los experimentos para cada número de regresores escogido. Adicionalmente,
se muestra el índice de correlación entre la serie de tiempo real y la serie resultante del
sistema propuesto. Este índice se representa de manera gráfica por medio de un diagrama
de dispersión. Las variables de interés son las series de tiempo reales generadas por el
algoritmo de reorganización de agrupamiento (coordenada X, Y o R) y la serie resultante
del sistema propuesto como la predicción. Por último, se presenta el sistema difuso
resultante con sus parámetros y funciones de pertenencia. Sistema por medio del cual se
realizó la predicción para obtener el mejor resultado de cada una de las variables.
5.4.1. Análisis de validación de experimentos de la Variable X.
A continuación se presenta la recopilación de los experimentos realizados para la
variable x. Primero, se hace una caracterización de las pruebas realizadas para cada valor
de regresor anteriormente establecido. En la figura 71 se muestra esta caracterización
para de 3 a 8 regresores. En esta figura se puede observar que la distribución de cada
prueba realizada se asemeja a una campana gaussiana. Adicionalmente, se puede
observar que el mejor resultado es para 5 regresores con un valor de función objetivo
obtenido de 11.824. Este es el mejor resultado encontrado para la variable X del contexto
II.
Figura 71. Histograma de número de regresores.
72
Figura 72. Serie de tiempo para Variable X. Real (Azul), Predicción (Roja).
En la figura 72 se muestra la gráfica de los datos de validación (azul) de la variable X y la
predicción resultante del mejor sistema encontrado para 5 regresores. A simple vista se
puede observar una fuerte relación entre estas dos series de tiempo. Con el fin de asegurar
esta afirmación se pasa al diagrama de dispersión que da un acercamiento visual entre
estas dos series de tiempo. Este diagrama de dispersión se muestra en la figura 73. Como
se puede observar en esta figura los puntos azules, que representan una variable, se
extienden de manera muy cercana a la línea roja. En este diagrama entre más cercanos
estén los puntos azules de la línea roja mayor correlación existe entre las dos variables.
Adicionalmente también se encuentra el valor de correlación entre las dos variables el
cual resultó de 0.8589.
Figura 73. Diagrama de dispersión de variable X real y predicción
73
Figura 74. Base de reglas resultante para X.
Variable Indice de Correlación POCID RMSE MAPE
X- Contexto II 0.8589 0.5524 0.0998 8.402e-6
Tabla 11.1. Resultados finales para la variable X.
Por último, se presenta el sistema sintonizado con el cual es posible la obtención de
estos resultados. En la figura 74 se muestra la base de reglas resultante gracias a la
sintonización de los parámetros de los conjuntos difusos realizada por medio del
algoritmo memético. Se puede observar que existen varias reglas en esta figura que
pueden ser eliminadas ya que no están influyendo en el resultado. Pues, por ejemplo la
regla 1 y la entrada 2 solo tienen función de pertenencia en la parte negativa y debido a
que nunca habrá una entrada negativa esta regla nunca influirá en el resultado del centro
final. Esto sucede igual para varios conjuntos, en trabajos futuros se puede proceder a
eliminar estas reglas para disminuir el número de reglas.
De este fenómeno se puede entender que los sucesos criminales del pasado tienen una
alta incidencia en los sucesos futuros. Esto es lo que permite que sea posible generar una
predicción. Usando estas predicciones para mejorar y convertir el uso de recursos
policiales en un método más eficaz que el que se es implementado. Así, cambiando rutas
de patrulla de acuerdo a las predicciones y generando un sistema de patrullas más flexible
que intente asemejarse a la adaptabilidad que presentan las bandas criminales y la
facilidad en la toma de decisiones de estos a la ubicación de sus próximos victimarios.
5.4.2. Análisis de resultados para la variable Y.
En esta sección se recopilan y se explican los diferentes experimentos realizados para
la variable Y. La figura 75 muestra los histogramas para los diferentes números de
regresores. Estos histogramas representan la caracterización del problema por cada
regresor, esta caracterización muestra la distribución de resultados de validación de la
función objetivo. El mejor resultado para la variable Y es con 3 regresores y un valor de
74
función objetivo de 13.2591. En la figura 76 se muestra la predicción generada por el
sistema sintonizado y la serie de tiempo real, se puede observar que aunque existe una
similitud entre las dos series después del tiempo 100 la serie tiene un pico que no sigue el
sistema. Para mejorar estos picos que son de alta incertidumbre por la rareza con la que
ocurren se puede buscar un sistema que intente modelar estos eventos. Este sistema
podría estar junto al sistema ya encontrado por el algoritmo memético.
Figura 75. Histogramas de diferente número de regresores para Y.
Figura 76. Serie de tiempo variable Y
75
Figura 77. Diagrama de dispersión Real vs Predicción para Y.
Figura 78. Base de reglas para la variable Y.
Variable Indice de Correlación POCID RMSE MAPE
Y- Contexto II 0.7651 0.5172 0.0978 5.191e-5
Tabla 11.2. Resultados finales para variable Y.
Para determinar la similitud se realizó el diagrama de dispersión de la predicción y la
serie de tiempo generada por el algoritmo de reorganización de agrupamientos. Este
diagrama se muestra en la figura 77. Allí, se observa que la nube de puntos azules se
76
encuentra cercana a la línea roja rodeándola y mostrando que existe una similitud entre
las dos variables de interés en este diagrama. Para ratificar esta visualización de similitud
se halló el coeficiente de correlación que fue de 0.7651 donde la unidad es una máxima
correlación entre variables. En la figura 78 se muestra la base de 16 reglas de la variable
Y que fueron sintonizados por el algoritmo memético del mejor resultado de la totalidad
de los experimentos.
5.4.3. Análisis de Validación de la Variable R. A continuación se presentan los experimentos realizados para la determinación del
número de entradas de la variable R. En la figura 79 se muestran los histogramas de los
resultados de validación de las 50 pruebas por número de regresor. Ya que estos
experimentos se realizaron para determinar el número de entradas al sistema, al mostrar
todos los histogramas se puede observar el mejor desempeño resultante con la referencia
de la función objetivo. El mejor desempeño es para 3 regresores con un valor de función
objetivo 25.1973.
Figura 79. Histogramas de la variable R
77
Figura 80. Serie de tiempo de variable R
Figura 81. Diagrama de dispersión de la variable R.
En la figura 80 se muestra la predicción generada por el sistema difuso sintonizado por
el algoritmo memético (Rojo) y la serie de tiempo real. Se puede observar que aunque la
predicción tiene en general las mismas oscilaciones que la serie generada por el algoritmo
de reorganización pero no alcanza a predecir la misma amplitud de este. Esto puede ser
debido a que los cambios en R son muy grandes en poco tiempo y eso hace que se
dificulte la predicción. Debido a este inconveniente de amplitud se espera una menor
relación entre las dos series de tiempo. En la figura 80 se muestra el diagrama de
dispersión donde efectivamente se visualiza que las nubes de puntos están mucho más
dispersas a comparación de las otras variables de interés X y Y.
78
En el diagrama de dispersión de la figura 81 se presenta la relación entre las variables
mostradas en la figura 80. Se observa que aunque hay una gran dispersión de puntos en el
medio de las variables se presenta una amplía dispersión de puntos que representa lo
lejano de la amplitud a la realidad. Para ratificar esta ayuda visual de relación entre
variables nuevamente se halla el coeficiente de correlación que en este caso resultó de
0.3393, este coeficiente de correlación es 55.65% menor a el coeficiente de correlación
de Y y 60.49% con respecto a X.
La base de reglas para la variable R se muestra en la figura 82. En este sistema difuso
se puede observar que en la regla 3 para la entrada 3 no se encuentran valores de
pertenencia para el conjunto difuso. Por lo tanto el efecto de la entrada 3 en la regla 3 es
insignificante y puede ser obviado. El trabajo de disminución de reglas no se abarca en
este proyecto, aunque se encuentra dentro de las consideraciones a trabajo futuro pues se
puede mejorar aún más los resultados finales de estas predicciones.
Figura 82. Base de Reglas para R
Variable Indice de Correlación POCID RMSE MAPE
R- Contexto I 0.4062 0.4345 0.2232 0.027
Tabla 11.3. Resultados finales para R
5.5. Recopilación y Comparación de Resultados
En este capítulo se presentó la recopilación de los experimentos realizados para las
diferentes variables de interés encontradas del algoritmo de reorganización de
agrupamientos. Estos experimentos se dividieron en dos contextos. El primer contexto
consta del agrupamiento de la base de datos por semanas donde se avanza en el tiempo
con diferencia de un día. Y el segundo contexto es un agrupamiento de la base de datos
79
por meses y se avanza en el tiempo por diferencias de 7 días. Se realizó entonces la
predicción de estos dos contextos determinados.
Por medio del sistema propuesto se generaron diferentes pruebas para determinar la
mejor configuración de este. Estas pruebas ayudaron a determinar los parámetros
adecuados para mejorar la búsqueda del algoritmo memético (cruce, mutación y
población) y del sistema difuso (número de reglas). Una vez realizadas todas estas
pruebas se realizaron los experimentos finales para determinar el número de entradas
adecuadas para el sistema propuesto dependiendo de la variable que se trabajara.
Como se muestra en la tabla 11, el contexto I presentó que para X y Y se necesitan 5
entradas de los datos inmediatamente anteriores para la predicción. Para R es necesario 8
entradas de los datos inmediatamente anteriores. Y para el contexto II, para X se obtuvo
el mejor resultado con 5 regresores. Para Y al igual que para R el mejor resultado se
obtuvo para 3 regresores. En esta tabla también se presenta que el mejor desempeño del
sistema es el de contexto II para la variable X. Como se pudo observar en la figura 72 las
tendencias que se presentan en esta variable de una manera más suave lo que facilita la
predicción. Estas tendencias son más pues los intervalos de tiempo que se tomaron son
más grandes y se están tomando en cuenta las tendencias con semanas de diferencia y no
días de diferencia.
X Y R
Contexto I Contexto II Contexto I Contexto II Contexto I Contexto II
Número de
reglas 4 6 12 16 4 4
Número de
entradas 5 5 5 3 8 3
Función
Objetivo 16.6123 11.824 22.4895 13.2591 20.8627 25.1973
Índice de
correlación 0.6082 0.8589 0.4488 0.7651 0.489 0.3393
Tabla 11. Comparación de resultados de contextos I y II.
80
Capítulo 6
Conclusiones y trabajo futuro
6.1. Resumen
En este trabajo se presentó y se implementó una metodología de análisis, extracción y
predicción de patrones criminales utilizando una base de datos de uso libre de la ciudad
de San Francisco. El desarrollo de este proyecto surgió a partir de la creciente
problemática de la actividad criminal en todas las ciudades. Además, la fuerza pública se
ve en la necesidad de encontrar nuevas opciones de análisis y predicción que soporten la
toma de decisiones con el fin de optimizar los recursos de la misma.
En primer lugar se realizó un acondicionamiento de la base de datos. Ésta, fue
organizada por ventanas de tiempo. El proceso de separación por ventanas de tiempo se
realizó para generar una dinámica espaciotemporal inherente a los datos, adicional a las
coordenadas de cada uno de los crímenes registrados. Esta variable temporal se tomó de
manera lineal con ventanas de siete días y también de manera estacional con ventanas de
los días de la semana (Lunes a Domingo) por año y también los crimines registrados en
cada hora del día por año. Adicionalmente, se tomó la variable temporal con una ventana
mucho mayor (30 días) y diferencias entre ventanas de 7 para encontrar tendencias en una
escala temporal mayor.
Al realizar el acondicionamiento de la base de datos se separan los datos por ventanas
de tiempo generando así una agrupación temporal de los mismos. Esta agrupación de
datos de cada ventana de tiempo se realizó por medio del algoritmo FCM. Y, con el fin
de que las series de tiempo generadas al unir las ventanas de tiempo fuesen consistentes
se creó el algoritmo de reorganización de agrupamientos. Con este algoritmo se realizó la
extracción de las variables de interés que representan la dinámica espaciotemporal de los
agrupamientos encontrados.
Adicionalmente, se realizó un conjunto de experimentos para sintonizar los parámetros
del sistema propuesto. Determinando así el número de reglas, la probabilidad de cruce, la
probabilidad de mutación, y el tamaño de la población de soluciones y el número de
regresores como entradas del sistema. Estos parámetros fueron encontrados para cada una
de las variables de interés. Una vez realizados todos los experimentos se recopilaron
todos los resultados y se presentó el mejor desempeño para X, Y y R. En general, se
observó que todas para todas las variables fue posible una predicción con un índice de
correlación mayor a 0.45 para el contexto I de experimentos.
81
Para el contexto II de experimentos el centro tuvo una predicción considerablemente
mejor de 0.8589 para X y 0.7651 para Y aunque un deterioro del desempeño de R que
como mejor resultado de correlación se encontró 0.3393. De estos resultados se puede
inferir que en una escala de tiempo mayor la dinámica del crimen es algo menos volátil y
por lo tanto más predecible. En el primer contexto donde la escala de tiempo es mejor se
puede observar como fluctúan más las series de tiempo de las variables de interés. Siendo
esto una dificultad al momento de realizar una predicción.
6.2. Aportes Originales.
De acuerdo con el conocimiento adquirido en técnicas de inteligencia computacional y
análisis de la dinámica espacio-temporal de patrones criminales esta es la primera
propuesta de agrupación de dato s para crear series de tiempo de agrupamientos. En
este caso, de crimines de robos de casa. Adicionalmente, en la literatura consultada no se
encontraron métodos de predicción por medio de técnicas de inteligencia computacional
como lo son los algoritmos meméticos para la sintonización de sistemas difusos.
Además, se propuso y se implementó un algoritmo de reorganización de
agrupamientos. Creado para asegurar la consistencia de la propuesta del análisis de la
dinámica espacio-temporal del crimen. Así, pudiendo extraer por medio de tres variables
el comportamiento general de los agrupamientos encontrados y organizados.
En el capítulo 2 se presentan puntos de acercamiento al crimen como sucesos
puntuales donde la variable de tiempo es agregada por medio de un factor de frecuencia
en lugares específicos y por medio de esto determinan la posibilidad de ocurrencia en el
futuro y organizando las patrullas policiales de acuerdo a estas frecuencias [8]. En este
trabajo se toman los sucesos en una línea temporal y se intenta obtener una dinámica
espaciotemporal del crimen. Esta dinámica se representa por medio de las series de
tiempo creadas. Y gracias a estas series de tiempo es posible generar un modelo para la
predicción de la dinámica generada al agregar la variable temporal.
La propuesta metodológica de mantener la consistencia del análisis espaciotemporal
ha sido sometida a consideración. La cual aceptada por expertos de la inteligencia
computacional y específicamente en métodos de agrupamientos en el siguiente artículo
ya publicado en el Congreso Mundial de Inteligencia Computacional:
M. Melgarejo, D. Mayorga, and N. Obregon, “A Fuzzy Clustering Based Method
For the Spatiotemporal Analysis of Criminal Patterns,” 2016 IEEE World Congr.
Comput. Intell., pp. 738–744, 2016. http://ieeexplore.ieee.org/document/7737761/
82
Adicionalmente, para la predicción de los agrupamientos se realizó una composición
de un sistema difuso basado en la estructura ANFIS y sintonizado por medio de un
algoritmo memético. El sistema difuso es inicializado como un Takagi-Sugeno
aprovechando las técnicas de optimización de la estructura ANFIS.
Finalmente, el soporte de decisiones de la fuerza pública es un factor importante en
este proyecto. Ya que las predicciones realizadas presentan posibilidades de
reorganización de fuerza pública. De acuerdo a los resultados de la series de tiempo y el
sistema de inferencia encontrado se pretende dar una posible ubicación a priori de los
sectores van a ser afectados en el futuro. Permitiendo así una distribución efectiva de los
escasos recursos policiales con el fin de la reducción de hechos criminales.
Debido a que se predice la ubicación del centro de un agrupamiento de crimen y su
radio de acción se puede hacer uso de esta información de diferentes maneras
dependiendo de su escala de tiempo. Por ejemplo, si se usa una escala de tiempo como en
el contexto I donde hay predicciones diarias es necesaria una respuesta diaria donde
patrullas u oficiales de policía cambien sus rutas de vigilancia de acuerdo a los resultados
del sistema generado. Sí, en cambio, se encuentran predicciones en escalas de tiempo de
años se pueden crear estrategias de rehabilitación para mejorar la calidad de vida y
seguridad en los sectores que según estas predicciones se puedan ver afectados.
Generando así una disminución en la criminalidad a un largo plazo.
6.3. Trabajo Futuro
En el desarrollo de este proyecto se plantearon las siguientes propuestas para la
realización de trabajos futuros relacionados con el análisis espacio-temporal del crimen:
1) Desarrollar interfaces y tecnología para la adquisición, recopilación y
procesamiento de crímenes en la ciudad de Bogotá ya que son exclusivos estas
bases de datos y su acceso es restringido.
2) Implementar otros algoritmos de agrupación aparte del FCM para vincularlos al
algoritmo de reorganización y comparar sus resultados.
3) Desarrollar e implementar propuestas para la determinación del número adecuado
de agrupamientos para la ciudad de estudio. Ya sea Bogotá, San Francisco o
cualquier otra ciudad.
4) Proponer e implementar una metodología de sintonización del número adecuado
de agrupamientos para la ciudad de interés.
5) Realizar estudios comparativos entre el sistema de predicción propuesto y otros
sistemas de predicción como por ejemplo de redes neuronales. A partir de índices
que midan el desempeño de predicción es posible encontrar mejores soluciones.
83
7. Referencias
[1] “Crime Statistics for 2013 Released — FBI,” 2014. [Online]. Available:
https://www.fbi.gov/news/stories/crime-statistics-for-2013-released.
[2] S. T. Li, S. C. Kuo, and F. C. Tsai, “An intelligent decision-support model using FSOM
and rule extraction for crime prevention,” Expert Syst. Appl., vol. 37, no. 10, pp. 7108–
7119, 2010.
[3] C. A. Franklin, T. W. Franklin, M. R. Nobles, and G. A. Kercher, “Assessing the Effect of
Routine Activity Theory and Self-Control on Property, Personal, and Sexual Assault
Victimization,” Crim. Justice Behav. , vol. 39, no. 10, pp. 1296–1315, Oct. 2012.
[4] R. V Clarke, Situational Crime Prevention Second Edition, 2nd ed. Guilderland, New
York: Harrow and Heston, 1997.
[5] R. E. Roth, K. S. Ross, B. G. Finch, W. Luo, and A. M. MacEachren, “Spatiotemporal
crime analysis in U.S. law enforcement agencies: Current practices and unmet needs,”
Gov. Inf. Q., vol. 30, no. 3, pp. 226–240, 2013.
[6] F. Di Martino and S. Sessa, “The extended fuzzy C-means algorithm for hotspots in
spatio-temporal GIS,” Expert Syst. Appl., vol. 38, no. 9, pp. 11829–11836, Sep. 2011.
[7] F. Di Martino and S. Sessa, “Hotspots detection in spatial analysis via the extended
Gustafson-Kessel algorithm,” Adv. Fuzzy Syst., vol. 2013, 2013.
[8] P.-F. Kuo, D. Lord, and T. D. Walden, “Using geographical information systems to
organize police patrol routes effectively by grouping hotspots of crash and crime data,” J.
Transp. Geogr., vol. 30, pp. 138–148, Jun. 2013.
[9] R. van Urk, M. R. K. Mes, and E. W. Hans, “Anticipatory routing of police helicopters,”
Expert Syst. Appl., vol. 40, no. 17, pp. 6938–6947, Dec. 2013.
[10] S. Chainey, L. Tompson, and S. Uhlig, “The Utility of Hotspot Mapping for Predicting,”
pp. 4–28, 2008.
[11] M. S. Gerber, “Predicting crime using Twitter and kernel density estimation,” Decis.
Support Syst., vol. 61, pp. 115–125, 2014.
[12] Q. Shen and R. Zhao, “Risk assessment of serious crime with fuzzy random theory,” Inf.
Sci. (Ny)., vol. 180, no. 22, pp. 4401–4411, 2010.
[13] M. Fonoberova and V. Fonoberov, “Nonlinear Dynamics of Crime and Violence in Urban
Settings,” J. Artif. Soc. Soc. Simul., vol. 15, no. 1, p. 2, 2012.
[14] C.-H. Yu, M. W. Ward, M. Morabito, and W. Ding, “Crime Forecasting Using Data
Mining Techniques,” 2011 IEEE 11th Int. Conf. Data Min. Work., pp. 779–786, 2011.
[15] T. H. Grubesic and A. T. Murray, “Detecting Hot Spots Using Cluster Analysis and GIS,”
Proc. from Fifth Annu. Int. Crime Mapp. Res. Conf., vol. 26, 2001.
[16] A. K. Jain, M. N. Murty, and P. J. Flynn, “Data Clustering: A Review,” ACM Comput.
Surv., vol. 31, no. 3, pp. 264–323, Sep. 1999.
[17] G. Grekousis and H. Thomas, “Comparison of two fuzzy algorithms in geodemographic
segmentation analysis: The Fuzzy C-Means and Gustafson–Kessel methods,” Appl.
Geogr., vol. 34, pp. 125–136, 2012.
[18] W. Wang, Y. Zhang, Y. Li, and X. Zhang, “The Global Fuzzy C-Means Clustering
Algorithm,” no. 1, pp. 3604–3607, 2006.
[19] D. Das and A. Maitra, “Time series prediction of rain attenuation from rain rate
measurement using synthetic storm technique for a tropical location,” AEU - Int. J.
Electron. Commun., vol. 68, no. 1, pp. 33–36, 2014.
[20] C. A. Peña-reyes and M. Sipper, “Fuzzy CoCo : A Cooperative-Coevolutionary Approach
to Fuzzy Modeling,” vol. 9, no. 5, pp. 727–737, 2001.
84
[21] C. Murcia, G. Bonilla, M. Melgarejo, and S. Member, “Fuzzy Classifiers Tuning Through
an Adaptive Memetic Algorithm,” vol. 12, no. 2, pp. 197–204, 2014.
[22] A. Villate-Gil, D. E. Rincón-Arandia, and M. A. Melgarejo-Rey, “Evolución diferencial
aplicada a la sintonización de clasificadores difusos para el reconocimiento del lenguaje
de señas,” Ing. y Universidada, vol. 16, pp. 397–413, 2012.
[23] H. Ying, “Li Xin Wang’s Adaptive Fuzzy Systems and Control: Design and Stability
Analysis,” J. Intell. Fuzzy Syst., vol. 3, no. 2, pp. 187–188, Mar. 1995.
[24] D. H. Wolpert and W. G. Macready, “No free lunch theorems for optimization,” IEEE
Trans. Evol. Comput., vol. 1, no. 1, pp. 67–82, 1997.
[25] W. J. Ewens, “An introduction to evolutionary genetics,” Am. J. Hum. Genet., vol. 34, no.
1, pp. 149–150, 1982.
[26] H. Zhao, W. (Ato) Xu, and R. Jiang, “The Memetic algorithm for the optimization of
urban transit network,” Expert Syst. Appl., vol. 42, no. 7, pp. 3760–3773, 2015.
[27] A. M. Acilar and A. Arslan, “A novel approach for designing adaptive fuzzy classifiers
based on the combination of an artificial immune network and a memetic algorithm,” Inf.
Sci. (Ny)., vol. 264, pp. 158–181, Apr. 2014.
[28] San Francisco Police Department, “SFPD Incidents - from 1 January 2003 | Data | San
Francisco.” [Online]. Available: https://data.sfgov.org/Public-Safety/SFPD-Incidents-
from-1-January-2003/tmnf-yvry?
[29] P. L. Brantingham and P. Brantingham, “Crime Pattern theory,” Environ. Criminol. Crime
Anal., pp. 78–93, 2008.
[30] J. Abonyi and B. Feil, “Cluster analysis for data mining and system identification,” p. 303,
2007.
[31] N. Malleson and M. A. Andresen, “Spatio-temporal crime hotspots and the ambient
population,” 2015.
[32] D. a. Silva, G. I. Alves, P. S. G. de Mattos Neto, and T. a. E. Ferreira, “Measurement of
Fitness Function efficiency using Data Envelopment Analysis,” Expert Syst. Appl., vol.
41, no. 16, pp. 7147–7160, 2014.
[33] J. R. Jang, “ANFIS : Adap tive-Ne twork-Based Fuzzy Inference System,” vol. 23, no. 3,
1993.
[34] P. Jagtap and G. N. Pillai, “Comparison of Extreme-ANFIS and ANFIS Networks for
Regression Probles,” 2014 IEEE Int. Adv. Comput. Conf., pp. 1190–1194, 2014.
[35] P. Moscato and C. Cotta, “A Gentle Introduction to Memetic Algorithms,” pp. 1–36.
[36] U. T. Eden and M. A. Kramer, “Drawing inferences from Fano factor calculations,” J.
Neurosci. Methods, vol. 190, no. 1, pp. 149–152, 2010.