Download pdf - PROPUESTA DE UN MODELO DE PREDICCIÓN DEL CENTRO DE …repository.udistrital.edu.co/bitstream/11349/5304/... · de crimen de la ciudad de San Francisco en dos contextos particulares

PROPUESTA DE UN MODELO DE PREDICCIÓN DEL CENTRO DE UN HOTSPOT DE

CRIMEN IDENTIFICADO EN LA CIUDAD DE SAN FRANCISCO, USA.

DIEGO FELIPE MAYORGA GÓMEZ

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

Facultad de ingeniería

Bogotá D.C.

2016

ii Trabajo de Grado

Requisito para optar por el título de Ingeniero de Sistemas e Ingeniero Electrónico,

Diego Felipe Mayorga Gómez 20101005017

Director:

Miguel Alberto Melgarejo Rey

Profesor Asociado

Facultad de Ingeniería – Laboratorio de Automática e Inteligencia Computacional

Universidad Distrital Francisco José de Caldas

Facultad de Ingeniería

Bogotá D.C. – Colombia

iii

Nota de Aceptación:

______________________________

______________________________

______________________________

______________________________

______________________________

Firma del Jurado

Bogotá D.C. 2017

iv

A mis padres, Aravi y Adriana

A mis hermanas, María y Camila,

Y a Juliana,

Por ese apoyo incondicional,

Su alegría y su amor.

Diego.

v

Resumen

Este trabajo presenta una propuesta metodológica para la predicción de un centro de hotspot

de crimen de la ciudad de San Francisco en dos contextos particulares utilizando un sistema

difuso basado en la estructura ANFIS y sintonizado por un algoritmo memético. Todo esto con

la información proveniente de la base de datos de crímenes de la ciudad de San Francisco.

El análisis de crimen ha sido estudiado de manera extensa pero el fenómeno del crimen

permanece como una problemática mundial. Por esto, diferentes disciplinas y acercamientos se

están uniendo para encontrar una solución al crecimiento de estos sucesos. La presencia de este

fenómeno en todas las grandes ciudades del mundo ha impulsado a grandes avances y grandes

formas de recopilación de datos para así tener más información con la que se puede llegar a

entender mejor el crimen.

Dentro de los nuevos acercamientos se realiza esta propuesta que pretende sumergir la

inteligencia computacional en un problema social donde el ser humano es el principal promotor

de este fenómeno. Los métodos de inteligencia computacional que fueron utilizados en esta

propuesta se basan en los sistemas difusos, las agrupaciones por medio de conjuntos difusos y los

algoritmos meméticos. Estos algoritmos memético se usaron como técnicas de optimización para

sintonizar el sistema difuso de la predicción.

Para el desarrollo de esta propuesta primero se hizo una recopilación de los datos. Estos

fueron agrupados de diferentes maneras para generar series de tiempo que mostraran tendencias

diferentes del mismo fenómeno. Por ejemplo, los dos contextos que fueron estudiados en este

proyecto fueron, primero, una separación semanal de los sucesos de crimen con una diferencia

diaria entre cada separación. Segundo se agruparon los datos mensualmente con una diferencia

semana, incorporando así la variable tiempo a los datos y siendo así posible generar series de

tiempo.

Para la generación de las series de tiempo se tomaron los datos que fueron separados por

ventanas de tiempo y cada ventana de tiempo fue agrupada por medio del algoritmo Fuzzy C-

Means (FCM, por sus siglas en inglés). Para mantener la consistencia espacio-temporal de las

series de tiempo se creó el Clustering Reorganization Algorithm (CRA, por sus siglas en inglés).

Una vez obtenidas las series se realizaron los experimentos para la sintonización de los

parámetros de los sistemas difusos. Esto con el fin de realizar una predicción de las series de

tiempo construidas

Finalmente los resultados muestran que es posible dar una predicción con un sistema difuso el

cual es posible configurar con el sistema memético. Esta predicción puede abrir una ventana a

una nueva forma de toma de decisiones para la fuerza pública.

vi

Agradecimientos

A Dios por darme la fortaleza de continuar durante toda la carrera.

A mi familia por el apoyo incondicional, los días de ayuda para mantener el camino que deseo.

Al profesor Miguel Melgarejo por su dedicación, su guía su apoyo y palabras de aliento durante

todo el desarrollo del proyecto.

A la Universidad Distrital por ofrecerme una educación de alta calidad, que me permitió ampliar

mi visión y tener un carácter critico frente a la vida.

A Juliana Vidales, por su amor, su apoyo y su constante compañía a través de todo este proceso.

Diego.

vii Tabla de Contenidos

Resumen…………………………………………………………………………………………...v

Agradecimientos……………………………………………………………………………….…vi

Tabla de Contenido………………………………………………………………………………vii

Lista de Tablas……………………………………………………………………………………ix

Lista de Figuras……………………………………………………………………………………x

1. Capítulo 1…………………………...…………………………………………………….1

1.1.Planteamiento del Problema…….……………………………………...……………..1

1.2.Objetivos………………….…………………………………………………………...3

1.2.1. Objetivo General…………………………………………………………..3

1.2.2. Objetivos Específicos……………………………………………………...3

1.3.Solución Propuesta……………….……………………………………………………3

1.4.Contenido del Libro……………….………………………...………………………...4

2. Capítulo 2. Marco de Referencia………………………………………………………..5

2.1.Análisis de Crimen…………….………………………………………………………5

2.2.Métodos de Agrupamiento…….………………………………………………………6

2.3.Sistemas de Inferencia Difusa….……………………………………………………...8

2.4.Computación Evolutiva…………….…………………...…………………………….9

3. Capítulo 3. Algoritmo de Reorganización (CRA)...………………...………………...11

3.1.Descripción de la Base de Datos……………….…………………………………….11

3.2.Características Extraídas……………………….…………………………………….11

3.3.Organización de la Base de Datos……………….………………………………..…12

3.4.Algoritmo de Reorganización…………………….………………………………….13

3.4.1. Inicialización……………………………………………………………..15

3.4.2. Iteración………………………………………………………………….15

3.4.3. Evaluación de Distancia…….……………………………………………17

3.4.4. Descartando el Mínimo Falso……………………………………...…….18

3.4.5. Asignación……………………………………………………………….19

3.5.Agrupamiento de ventanas de tiempo con el algoritmo de reorganización……...…..19

3.6.Construcción de las series de Tiempo………………………………………………..20

4. Capítulo 4. Propuesta para la sintonización de un sistema de inferencia difusa por

medio de un algoritmo memético…….......……………...……………………………..24

4.1.Modelo Propuesto……….…………………………………………………………...24

4.2.Función Objetivo………….……………...……………………………………….…26

4.3.Construcción del meme…….………………………………………………………...29

4.4.Inicialización de la Población….……………………...……………………………..29

4.5.Inicialización del FIS………….……………………………………………...……...30

4.6.Optimización Local…………….…………………………………………………….31

4.6.1. ANFIS (Adaptive neuro-fuzzy Inference System)……………………....32

4.7.Factor Fano y diversidad de la población…………………………………..………..35

4.8.Resumen……………………………………………………………………………...36

5.Capítulo 5. Experimentos y Resultados……………………………....……………….37

5.1.Experimentos…………………………………………………………………….…..37

5.2.Contexto I……………………………………………………………………………38

5.2.1. Comparación de Número de Reglas……………………………………..38

viii

5.2.1.1.Análisis de Resultados de Entrenamiento…………….………….39

5.2.1.2.Análisis de Resultados de Validación……………………………40

5.2.2. Comparación de Variables del Algoritmo Memético……………………40

5.2.2.1.Análisis de Resultados de Entrenamiento para Probabilidad de

Cruce……………………………………………………………..41

5.2.2.2.Análisis de Resultados de Validación……….…………………...43

5.2.2.3.Análisis de Resultados de Entrenamiento para Probabilidad de

Mutación…………………………………………………………44


5.2.2.5.Análisis de Resultados de Entrenamiento del Tamaño de

Población…………………………………………………………47

5.2.2.6.Análisis de Resultados de Validación………………………...….49

5.2.3. Análisis de Entrenamiento de Número de Entradas……………………..50

5.2.3.1.Análisis de validación de experimentos de la variable X………..51

5.2.3.2.Análisis de validación de experimentos de la variable Y………..54

5.2.3.3.Análisis de validación de experimentos de la variable R………..56

5.3.Contexto II……………………………………………………….…………………..58

5.3.1. Comparación de Número de Reglas………………...…………………...58

5.3.1.1.Análisis de Resultados de Entrenamiento…………….………….58


5.3.2. Comparación de Variables del Algoritmo Memético…………………....60

5.3.2.1.Análisis de Entrenamiento para la Probabilidad de Cruce. …...…61


5.3.2.3.Análisis de Entrenamiento para la Probabilidad de Mutación…...64


5.3.2.5.Análisis de Entrenamiento para el Tamaño de la Población……..67


5.3.3. Análisis de Entrenamiento de Número de Entradas…………..…………70

5.3.3.1.Análisis de validación de experimentos de la variable X………..71

5.3.3.2.Análisis de validación de experimentos de la variable Y………..74

5.3.3.3.Análisis de validación de experimentos de la variable R………..76

5.4.Recopilación y Comparación de Resultados…………………………………………79

6. Capítulo 6. Conclusiones y Trabajo Futuro…...…………………...……………………..81

6.1.Resumen………………………………….…………………………………………..81

6.2.Aportes Originales……………………….…………………………………………..82

6.3.Trabajo Futuro…………………………….…………………………...…………….83

7. Referencias...………………………………………………………………………………...84

ix Lista de tablas

Tabla 1. Relación de estadísticos……………………………………………………………..…26

Tabla 2. Resultados de prueba preliminar de variación de número de reglas……………………39

Tabla 3. Resultados de validación de Valor de Cruce…………………………………………...42

Tabla 4. Resultados de validación de pruebas de probabilidad de mutación…………………….45

Tabla 5. Resultados de validación de experimento para el tamaño de población………………..48

Tabla 6. Parámetros sintonizados del sistema propuesto………………………………………...49

Tabla 7 Resultados de variación de Número de Reglas………………………………………….58

Tabla 8. Resultados de validación de probabilidad de cruce…………………………………….62

Tabla 9. Resultados de validación para experimento de probabilidad de mutación……………..65

Tabla 10. Variación del tamaño de población para (a) Variable X, (b) Variable Y (c) Variable

R………………………………………………………………………………………………….68

Tabla 11. Parámetros sintonizados del sistema propuesto……..………………………………...69

x Lista de figuras

Figura 1 Hotspots Circulares…………………………...……………………….…………......….7

Figura 2 Hotspots Elipsoidales………………………………...……………….……………..….7

Figura 3. Hotspots representados por densidad………………………..………..……………...…7

Figura 4. Análisis Getis-Ord (frec) de hotspots……………………………...….………………...7

Figura 5. Estructura de un sistema difuso……………………………….…………...……………9

Figura 6. Algoritmo del marco general de trabajo del MA …………….….………………...…..10

Figura 7. División de la base de datos por ventanas de 7 días………….………………………..13

Figura 8. Ventanas de tiempo……………………….………………………………………...…13

Figura 9 Inicialización Aleatoria…………………….…………………………………………..14

Figura 10. Procedure of CRA in iteration………………………………………………………..16

Figura 11. Agrupamientos repetidos……………………………………………………………..16

Figura 12. Distancia entre agrupamientos……………………………………………………….17

Figura 13. Criterio de distancia mínima…………………………………………………………18

Figura 14. Convex Hull de agrupamientos…………………………………………………...….19

Figura 15. Matrices de partición difusa……………………………………………………….…19

Figura 16. Aproximación de agrupamientos a círculos……………………………………….....20

Figura 17. Series de tiempo de semanas con un día de diferencia. ……………………...………21

Figura 17.1 Series de tiempo de semanas con un día de diferencia para 8 agrupaciones………..22 Figura 18. Series de tiempo de días de la semana por año……………………………………....22

Figura 19. Series de tiempo de noches de la semana por año…………………………………....22

Figura 20. Series de tiempo de horas por año……………………………………………...…….22

Figura 21. Series de tiempo por semana por mes..........…………………………………………23

Figura 22. Método propuesto………………………………………………………...…………..24

Figura 23. Algoritmo Memético……………………………………………………………....…25

Figura 24. Variación de F.O. en función de los diferentes estadísticos……………………….....28

Figura 25. Construcción del meme………………………………………………………………29

Figura 26. Estructura de la población…………………………………………………………....29

Figura 27. Inicialización del FIS………………………………………………………………....30

Figura 28. Matriz de entrenamiento de ANFIS……………………………………………….…32

Figura 29. Estructura de red de ANFIS……………………………………………….……...….33

Figura 30. Convergencia con reglas……………………………………………………………..35

Figura 31. Función Objetivo de Número de Reglas (a) Para X (b) para Y (c) para R………..39

Figura 32. Variación de número de reglas para (a) Variable X, (b) Variable Y y (c) Variable

R………………………………………………………………………………………………….41

Figura 33 Función Objetivo de Probabilidad de Cruce para X (a) Valor de Cruce de 0.5 a 0.7 (b)

Valor de Cruce de 0.75 a 0.95……………………………………………………………………41

Figura 34 Función Objetivo de Probabilidad de Cruce para Y (a) Valor de Cruce de 0.5 a 0.7 (b)


Figura 35 Función Objetivo de Probabilidad de Cruce para R (a) Valor de Cruce de 0.5 a 0.7 (b)


Figura 36. Variación de probabilidad de cruce para (a) Variable X, (b) Variable Y y (c) Variable

R…………………………………………………………………………..……………………...44

Figura 37. Función Objetivo de Probabilidad de Mutación para X (a) Valor de Cruce de 0.01 a

0.05 (b) Valor de Cruce de 0.06 a 0.1…………………………………………………………....45

xi

Figura 38 Función Objetivo de Probabilidad de Mutación para Y .(a) Valor de Cruce de 0.01 a

0.05 (b) Valor de Cruce de 0.06 a 0.1………………………………...………………………….45

Figura 39 Función Objetivo de Probabilidad de Mutación para R (a) Valor de Cruce de 0.01 a

0.05 (b) Valor de Cruce de 0.06 a 0.1……………………………………………………………45

Figura 40. Variación de probabilidad de mutación para (a) Variable X, (b) Variable Y y (c)

Variable R…………………………………………………………………………..……………46

Figura 41 Función Objetivo diferentes tamaños de población para X. (a) Tamaño de población

entre 10 y 18 (b) Tamaño de población entre 20 y 28………………………...……………..….47

Figura 42 Función Objetivo diferentes tamaños de población para Y (a)Tamaño de población

entre 10 y 18 (b) Tamaño de población entre 20 y 28…………………………………………..48

Figura 43. Función Objetivo diferentes tamaños de población para R. (a) Tamaño de población

entre 10 y 18 (b) Tamaño de población entre 20 y 28………………………..............................48

Figura 44. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable

R…………………………………………………………………………….…………………....49

Figura 45. Histogramas de diferente número de regresores para X……………………………...52

Figura 46. Serie de tiempo de variable X………………………………………………..............52

Figura 47. Diagrama de dispersión Real vs. Predicción…………………………………………52

Figura 48. Base de reglas para la variable X………………………………………………….…53

Figura 49. Histogramas de diferente número de regresores para Y………………………..…....54

Figura 50. Serie de tiempo de variable Y………………………………………………..............54

Figura 51. Diagrama de dispersión Real vs. Predicción…………………………………….......55

Figura 52. Base de Reglas para la variable Y…………………………………………………....55

Figura 53. Histograma de diferente número de regresores para la variable R………….………..56

Figura 54. Serie de tiempo de variable Y………………………………………………..............56

Figura 55. Diagrama de dispersión Real vs. Predicción………………………………………...57

Figura 56 Base de reglas para la variable R……………………………………………………...57

Figura 57 Función Objetivo de Número de Reglas (a) Para X (b) Para Y (c) Para R………...…58

Figura 58 Variación de número de reglas para (a) Variable X, (b) Variable Y y (c) Variable R..59

Figura 59 Función Objetivo de Probabilidad de Cruce para X. .(a) Valor de Cruce de 0.5 a 0.7 (b)

Valor de Cruce de 0.75 a 0.95……………………………………………….………………...…61

Figura 60 Función Objetivo de Probabilidad de Cruce para Y. (a) Valor de Cruce de 0.5 a 0.7 (b)


Figura 61 Función Objetivo de Probabilidad de Cruce para R. (a) Valor de Cruce de 0.5 a 0.7 (b)

Valor de Cruce de 0.75 a 0.95…………………………………………………..………………..62

Figura 62. Variación de probabilidad de cruce para (a) Variable X, (b) Variable Y y (c) Variable

R………………………………………………………………………………………………….63

Figura 63. Función Objetivo de Probabilidad de Mutación para X. (a)Valor de Cruce de 0.01 a

0.05 (b) Valor de Cruce de 0.06 a 0.1…………………………………………………………....64

Figura 64. Función Objetivo de Probabilidad de Mutación para Y.(a) Valor de Cruce de 0.01 a

0.05 (b) Valor de Cruce de 0.06 a 0.1………………………………………….………………...64

Figura 65. Función Objetivo de Probabilidad de Mutación para R. (a) Valor de Cruce de 0.01 a

0.05 (b) Valor de Cruce de 0.06 a 0.1………………………………………….………………...65

Figura 66. Variación de la probabilidad de mutación para (a) Variable X, (b) Variable Y (c)

Variable R…………………………………………………………………………………….….66

xii

Figura 67. Función Objetivo diferentes tamaños de población para X. (a) Tamaño de población

entre 10 y 18 (b) Tamaño de población entre 20 y 28……………………………….………….67

Figura 68. Función Objetivo diferentes tamaños de población para Y. (a) Tamaño de población

entre 10 y 18 (b) Tamaño de población entre 20 y 28………………………………………......68

Figura 69 Función Objetivo diferentes tamaños de población para R. (a)Tamaño de población

entre 10 y 18 (b) Tamaño de población entre 20 y 28…………………………………………..68

Figura 70. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable

R…………………………………………………………………………….…………………....70

Figura 71. Histograma de número de regresores…………………………………………...……71

Figura 72. Serie de tiempo para Variable X. Real (Azul), Predicción

(Roja)……………………………………………………………………………….……………72

Figura 73. Diagrama de dispersión de variable X real y predicción……………………………..73

Figura 74. Base de reglas resultante para X…………………………………………………...…73

Figura 75. Histogramas de diferente número de regresores para Y……………………………...74

Figura 76. Serie de tiempo variable Y………………………………………………………...…75

Figura 77. Diagrama de dispersión Real vs Predicción para Y……………...…………………..75

Figura 78. Base reglas para la variable Y………………………………………………..............76

Figura 79. Histogramas de la variable R………………………………………………………....77

Figura 80. Serie de tiempo de variable R………………………………………………………...77

Figura 81. Diagrama de dispersión de la variable R……………………………………………..78

Figura 82. Base de Reglas para R………………………………………………………..............79

1

Capítulo 1

1.1. Planteamiento del problema

El crimen ha acompañado al ser humano y ha afectado su convivencia en comunidad

durante toda la historia. Esta incidencia en la convivencia genera una problemática social,

ya sea, por los costos o simplemente la seguridad en una ciudad o una nación. Este

fenómeno ha crecido en los últimos tiempos debido al desplazamiento del hombre a las

ciudades, y aunque se han tomado medidas de contingencia, la problemática es cada vez

de mayor importancia. Según el FBI en el año 2013 se reportó un estimado de 1’163,146

de crímenes violentos y 8’632,512 crímenes de propiedad [1]. Estas estadísticas hacen

solo referencia a los incidentes dentro de los Estados Unidos por lo que mundialmente la

cifra es aún más alarmante, por ejemplo en Taiwán el volumen de crimen ha

incrementado más de 71% en la última década [2].

Los gobiernos han decidido invertir no solo dinero sino también personal y fuerza

pública para el estudio, análisis, prevención y toma de decisiones frente a este fenómeno.

Aunque el estudio ha sido a fondo, este ha dado lugar a muchas interrogantes que aún

hoy siguen siendo inciertas y discutidas como lo son las causas por las cuales se presenta

el crimen y el motivo de la práctica tan regular en las ciudades modernas. Acerca de

cuáles son las posibles causas del crimen, varios autores han trabajado en el

planteamiento de algunas teorías como: 1) La teoría de actividades rutinarias de crimen

[3] y 2) la teoría del crimen situacional [4].

Desde estas teorías podemos encontrarnos con el análisis del crimen. Este análisis que

tiene como fin mejorar la calidad de vida de las comunidades [5] recolecta, prepara e

interpreta información sobre los crímenes como apoyo a la fuerza pública para la

prevención del mismo [5]. Este se basa en la teoría de actividades rutinarias y analiza y

estudia espacialmente como se distribuyen los delitos en una zona. Agrupando los

incidentes de acuerdo con sus características espaciales (distancia entre incidentes [6],

[7], densidad regional y tasas de concentración [8]) por medio de métodos de

agrupamiento como el FCM, EFCM, [6] GK y el EGK [7]. Algoritmos que por medio de

funciones objetivo cuya variable principal es la distancia entre hechos criminales,

identifican lo que conocemos como hotspots [5].

Los hotspots, zonas donde el crimen ocurre con mayor frecuencia, muestran como el

crimen se distribuye, por ejemplo en una ciudad, y da pautas para la distribución de los

escasos recursos de la fuerza pública como rutas de patrullas [8] o de helicópteros [9]

2

donde se intenta hacer una predicción sobre los hotspots del área de interés para tener una

mejor cobertura con los recursos a disposición. En caso de emergencia estos recursos no

podrían abarcar toda el área de interés. Por tanto deben ser distribuidos de manera

eficiente y así colaborar con la disminución en las tasas de crimen. Ya que habrá una

mayor posibilidad de la presencia guardián capaz de proteger una víctima potencial si se

toma como referencia el/los hotspots identificados.

Al observar el comportamiento espacio temporal de los hotspots es posible encontrar

tendencias sobre las zonas de riesgo, lo cual implica que los incidentes de crimen no

ocurren al azar. Como se plantea en [10], la ocurrencia del crimen tiende hacia zonas

particulares por la interacción entre víctima y victimario y la posibilidad de cometer un

crimen. Esto genera tendencias. Encontrar estas tendencias en las zonas donde es más

frecuente el crimen y el comportamiento de los hotspots en el transcurso del tiempo

facilita la predicción de las zonas de mayor riesgo y por lo tanto colabora a la mejoría en

la efectividad de la distribución de los recursos policiales.

En general, las propuestas para modelar el comportamiento de los hotspots han sido de

tipo probabilístico [8], [9], [11]. En [8] la toma de decisiones del enrutamiento de

patrullas no se basa en una predicción, en vez, se tiene en cuenta solo las zonas de riesgo

presentes y no las posibles emergentes, generando una posible zona de riesgo prioritaria

errónea en las nuevas rutas. Aunque en [9] se tiene un modelo probabilístico de

predicción de acuerdo con las tendencias anteriores de los crímenes, no se tiene en cuenta

la incertidumbre de la toma de datos, por ejemplo en la ubicación (longitud y latitud) o la

hora exacta en que ocurrió un crimen en particular. Por esto autores como [2], [12] han

encontrado que agregar lógica difusa al análisis del crimen puede facilitar el

modelamiento. Además, debido al conocimiento lingüístico que tiene la criminalística es

posible que utilizando un sistema de inferencia difusa se puedan extraer reglas que

soportan la toma de decisiones de la fuerza pública por medio de las tendencias del

crimen [2].

Teniendo una visión sistémica del crimen como un fenómeno que emite señales y no

solo como una problemática social entonces se pueden analizar e interpretar estas señales.

Esto, con el fin de obtener un modelo de la dinámica del crimen, encontrando las

propiedades no lineales[13], la incertidumbre y aleatoriedad [12] que presenta. Por lo

tanto, en [2] y [12], una técnica de predicción no lineal como el entrenamiento de un

sistema difuso por medio de métodos evolutivos podría mostrar mejores resultados en la

toma de decisiones de la fuerza pública.

Teniendo en cuenta lo establecido surge entonces la pregunta que se busca resolver

con este trabajo: ¿Cómo sería un modelo basado en la Inteligencia Computacional de la

dinámica espacio-temporal de un hotspot utilizando un sistema difuso entrenado por

métodos evolutivos para soportar la toma de decisiones del despliegue de los recursos

policiales?

3

A parte de esclarecer la importancia en la toma de datos de los delitos en una ciudad

como Bogotá, para facilitar el análisis de crimen, podría ser un escalón de apoyo para

futuros trabajos enfocados al crimen en Colombia mejorando el bienestar y la seguridad

de la ciudadanía colombiana. Desde un punto de vista académico, este trabajo podría dar

paso a una nueva perspectiva de la dinámica de los hotspots dando herramientas para

profundizar en el comportamiento, trabajo que se podrían llevar a cabo en grupos de

investigación, como en la Universidad Distrital Francisco José de Caldas con el grupo de

investigación LAMIC (Laboratorio de Automática e Inteligencia Computacional).

1.2. Objetivos.

1.2.1 Objetivo General.

Desarrollar un modelo de predicción de la dinámica espacio-temporal de los centros

de uno de los hotspot con coordenadas x, y (longitud, latitud) en la ciudad de San

Francisco, USA por medio de un sistema difuso sintonizado con el algoritmo evolutivo

memético para el soporte en la toma de decisiones de prevención.

1.2.2 Objetivos Específicos.

Implementar dos (2) métodos de agrupamiento para identificar los hotspot

semanales presentes en la ciudad de San Francisco.

Generar secuencias asumiendo diferente número de hotspots en la ciudad de San

Francisco para dos (2) casos.

Entrenar un sistema de inferencia difusa mediante el algoritmo evolutivo memético

por cada método de agrupamiento.

1.3. Solución Propuesta.

En este trabajo se presenta una propuesta metodológica que pretende dar una predicción

de una serie de tiempo de la posición del centro por semana de uno de los hotspots que son

localizados en la ciudad de San Francisco EE.UU. Estos hotspots o agrupamientos son los

identificados de acuerdo a los métodos de agrupamiento (extrayendo características

estacionales o lineales del tiempo).

En primer lugar, al obtener los centros del hotspot seleccionado se construye una serie de

tiempo que se introduce al FIS propuesto y una expansión en funciones de base difusa

4

(EFBD). Se propone el FIS para facilitar la interpretación de los resultados y la toma de

decisiones, en este caso posibilitando nuevas rutas de patrullas con anticipación.

El FIS será entrenado a través de un algoritmo evolutivo escogido a priori por las

características del crimen. La evolución social, ha sido fundamento para la creación de

algoritmos como el algoritmo memético (MA). Aunque debido al NFL no es posible afirmar

que este algoritmo sería el mejor para este problema [23], pero sus características son

alentadoras debido a sus bases sociales.

1.4. Contenido del Libro.

La propuesta e implementación del método de reconocimiento de la dinámica

espaciotemporal y el proceso para la predicción de esta dinámica se presenta en estos seis

capítulos. En el segundo capítulo se exponen los conceptos y fundamentos teóricos

utilizados para este problema. Este capítulo se divide en cuatro secciones. Como temas

principales del segundo capítulo se introduce el análisis de crimen con antecedentes de

algunos estudios realizados. Además, se explican los temas de métodos de agrupamiento

como el EFCM y el GK. Adicionalmente, se presenta una introducción a sistemas de

inferencia difusa y como estos pueden ser sintonizados por medio de la computación

evolutiva y por ende de algoritmos meméticos.

En el capítulo tres se explica el acondicionamiento y división temporal de la base de

datos. Adicionalmente, se presenta y se explica de manera detallada el algoritmo creado

para extraer en variables sencillas la información espaciotemporal del crimen, para este

caso el crimen de la ciudad de San Francisco. Finalmente se muestran las series de

tiempo generadas por este algoritmo.

En el capítulo cuatro se presenta la metodología de predicción basada en sistemas

difusos sintonizados por medio de un algoritmo memético. En este capítulo se explica la

integración de la herramienta ANFIS a un algoritmo genético, aprovechando así, los

algoritmos de optimización local de ANFIS y la búsqueda poblacional del algoritmo

genético. Además, se expone la función objetivo escogida que fue construida de acuerdo

a las características requeridas de la predicción a realizar.

En el capítulo cinco se describen los experimentos realizados y se presenta una

discusión de los resultados obtenidos. Se muestran además los mejores resultados

comparándolos con las series de tiempo reales. Se mide además el desempeño de estos

resultados por medio de índices de correlación y diagramas de dispersión. Dando así una

visión de este desempeño no solamente de manera numérica sino también cualitativa de

la predicción. Finalmente, en el capítulo seis se presentan las conclusiones principales

realizadas. También se presentan algunas consideraciones para el desarrollo de trabajos

futuros con el análisis del crimen.

5

Capítulo 2

Marco de Referencia

En esta sección se presentan los conceptos teóricos concernientes a la pregunta

propuesta en el planteamiento del problema. Exponer estos conceptos tiene como

finalidad brindar una contextualización del problema y tener una primera visión de una

posible respuesta a la pregunta planteada.

Entonces, se abarca temas concernientes al análisis de crimen, métodos de

agrupamiento, sistemas de inferencia difusa y computación evolutiva. Siendo estos temas

el eje central del proyecto.

2.1. Análisis de Crimen

El crimen ha tenido un crecimiento paralelo al aumento de la población. Por lo tanto,

la importancia que tiene el análisis de crimen para los departamentos de policía y la

fuerza pública también ha tenido un crecimiento notable en los últimos años. Debido a

que la cantidad de crímenes es mayor, procesar toda la información manualmente hace

que el análisis sobre estos sea ineficiente. También el desarrollo de los sistemas

informáticos ha colaborado enormemente al progreso que ha tenido análisis del crimen

[5].

El análisis espacio-temporal del crimen es principalmente basado en la teoría de

actividades rutinarias. Esta teoría plantea que hay tres requerimientos para que suceda un

crimen: Primero, debe existir un criminal motivado; segundo, debe haber un blanco

adecuado y tercero, la ausencia de un guardián capacitado para evitar una violación.

Según la teoría, si estas tres convergen en el mismo espacio y al mismo tiempo, entonces

la posibilidad de que ocurra un crimen es muy alta [3]. Entonces al cambiar las

actividades rutinarias que tienen los guardianes puede haber una disminución en la

cantidad de ofensas, puesto que la distribución de los guardianes será más eficaz. Por su

parte, la teoría situacional del crimen postula que al cambiar las condiciones de la

sociedad y sus instituciones se puede desmotivar al ofensor a cometer delitos. En vez de

concentrarse en los individuos o grupos y su predisposición al crimen, la teoría, se

6

concentra en la sociedad y como hacer menos atractivo el crimen para el ofensor

reduciendo la tasa de crimen al cambiar las condiciones sociales [4].

Un cambio en las condiciones sociales requiere una reestructuración a largo plazo de

la sociedad, pero la problemática exige una solución inmediata. El análisis espacio-

temporal del crimen puede ayudar a atenuar las tasas de delincuencia en una ciudad en un

corto plazo, y como se dijo antes, aprovechando los escasos recursos policiales.

Principalmente el análisis espacio-temporal toma en cuenta lo que es conocido como

hotspots, las regiones de mayor ocurrencia de crimen en una ciudad o un atractor de

crimen [14].

2.2. Métodos de Agrupamientos.

Lo anterior muestra la gran importancia que tiene el estudio espacial del crimen

(hotspots). Por lo tanto, haciendo una contextualización de cómo se agrupan los sucesos

ocurridos en, por ejemplo, una ciudad podemos llegar a encontrarnos con algunos

métodos de agrupamiento. Aunque en los últimos 30 años se ha avanzado de manera

considerable el mapeo de eventos criminales por medio de sistemas de información

geográfica (GIS, por sus siglas en inglés), inconvenientes para identificar los hotspots y

la cantidad de estos se siguen presentando debido a la incertidumbre que está relacionada

con el número de hotspots y la prioridad que se le debe dar a cada uno [15].

Existen diferentes visiones de la forma y tendencias de los hotpots y los algoritmos

para agrupar eventos de crímenes individuales. Por ejemplo, aunque en [6] el tema en

cuestión son los incendios en un bosque se puede hacer una analogía hacia el crimen,

tomando los hotspots como circunferencias (Figura 1), o en [8] que se muestran como

elipsoides y tienen grados de inclinación (Figura 2). Los enfoques anteriores tienen en

cuenta que lo que relaciona a cada evento individual es la distancia y se agrupan los

eventos en hotspots. La función objetivo (1) debe ser minimizada para ambos algoritmos.

𝐽(𝑋, 𝑈, 𝑉) = ∑ ∑ 𝑢𝑚𝑖𝑗(𝑑2

𝑖𝑗 − 𝑟2𝑖𝑗).𝑁

𝑗=1𝐶𝑖=0 (1)

7

Figura 3 Hotspots Circulares. Tomado de [5] Figura 4 Hotspots Elipsoidales. Tomado

de [6]

Figura 3. Hotspots representados por densidad Figura 4. Análisis Getis-Ord (frec) de hotspots.

Siendo c el número de hotspots, n la cantidad de eventos individuales provenientes de

los datos. Los valores de pertenencia de cada evento es u y d la distancia al centro de

cada hotspot. Por último, r es el radio de cada hotspot.

La principal ventaja de [6] y [7]es que recursivamente determinan el número de

hotspots óptimos para el espacio en estudio, haciéndolos robustos a la presencia de ruido.

Estos algoritmos son mejoras extendidas del FCM [16] y GK los cuales no tenían las

ventajas de determinar el número de hotspots sino que este debía ser predeterminado

[17] . Esto también ha dado pie para que varios autores den propuestas de mejoras a estos

algoritmos [6], [7], [18].

Los hotspots también son vistos desde el punto de frecuencia regional (Getis-Ord) y

por medio de la densidad de eventos individuales por medio del método de estimación de

densidad de Kernel. Al momento de identificar y visualizar los hotspots por medio de

estos métodos existe una gran ventaja y es su facilidad de interpretación y su

visualización [10]. En la figura 3 y figura 4 mostramos la visualización de estos métodos,

para la figura 3 podemos ver la densidad de crímenes por medio del método de Kernel y

en la figura 4 el análisis de frecuencia por medio del Getis-Ord.

8

En este proyecto, para la construcción de la serie tiempo se tomó una analogía a los

métodos de predicción de tormentas en los estudios meteorológicos como [19]. Estas

series de tiempo permiten visualizar la posición en el tiempo y el espació, para nuestro

caso teniendo en cuenta el centro del hotspot.

2.3. Sistemas de Inferencia Difusa.

Un sistema de inferencia difusa (FIS, por sus siglas en inglés), es un sistema basado

declaraciones Si-Entonces de conocimiento de expertos, o en reglas encontradas por

diferentes métodos de reconocimiento de patrones como la computación evolutiva

[20][21][22]. Un ejemplo de una regla Si-Entonces sería: Si el precio es alto y el servicio

es ineficiente entonces la calidad del establecimiento es malo. Las palabras alto,

ineficiente y malo son representadas por funciones de pertenencia que representan las

reglas. La combinación de estas reglas construye un sistema difuso.

Un sistema difuso está compuesto por: un fusificador para los datos de entrada, una

base de reglas, un motor de inferencia difusa, y un defusificador para los datos de salida.

La estructura de este tipo de sistema difuso se encuentra en la figura 5.

La información proveniente de las bases de datos para ingresar al sistema difuso es

puntual. Por lo tanto, se requiere el fusificador para convertirlas en funciones de

pertenencia que puedan interactuar con las funciones de pertenencia de las reglas difusas.

Ayudando a simplificar la computación en el motor de inferencia. El fusificador tiene

como objetivo colaborar a la reducción de ruido teniendo presente una incertidumbre en

la toma de datos. Las reglas difusas toman el papel del conocimiento lingüístico de los

expertos transformado en funciones de pertenencia. Estas reglas relacionan las variables

de entradas por medio de las declaraciones (Si-Entonces) ya predeterminadas, y el

encargado de relacionar y combinar las reglas de la manera adecuada sería el motor de

inferencia difusa. Este motor de inferencia obtiene un mapeo sobre la interacción de los

conjuntos difusos de entrada y salida. Por último, se obtiene un sistema difuso de salida

que debe ser interpretado como una salida puntual. Para esto se introduce el concepto de

defisuficación que lleva a cabo el proceso inverso al fusificador y de una salida difusa

obtiene un dato puntual [23].

9

Figura 5. Estructura de un sistema difuso.

2.4. Computación Evolutiva.

La inteligencia computacional ha tomado a la evolución natural como inspiración para

la creación de nuevos algoritmos buscando nuevos métodos para problemas complejos

donde se busque una optimización global [24]. Estos algoritmos simulan la respuesta de

individuos de una población a un ambiente donde el comportamiento más apropiado para

el ambiente será el seleccionado para las siguientes generaciones. Este comportamiento

no es pasado a generaciones intacto sino que también entra en juego una mutación

aleatoria, similar a la reproducción en la naturaleza. La evolución optimiza los

comportamientos de la población, donde la población se representa como las posibles

soluciones que puede tener el problema [25].

Estas líneas son la línea incluida en la parte superior de la tabla, la línea entre el la

cabecera de la tabla y el contenido y la línea debajo de la tabla.

La computación evolutiva se rige por estas reglas. Primero inicializando una población

aleatoria que serían las soluciones iniciales. Luego, evaluando el desempeño de cada

solución al problema (Individuo de la población) por medio de funciones objetivo que

asignan una probabilidad de adaptación. Como paso siguiente, dos soluciones escogidas

al azar se recombinan para crear una nueva generación de soluciones que será evaluada

en la siguiente iteración. Esta nueva generación puede tener mutaciones, manteniendo

una diversidad en la población para favorecer el proceso evolutivo ya que favorece el

espacio de búsqueda [22].

Dentro de la computación evolutiva los algoritmos meméticos (MA, por sus siglas en

inglés) están recibiendo gran atención, esto es gracias a su estructura de búsqueda. El MA

es un tipo de unión entre una búsqueda global o un acercamiento basado en población y

un aprendizaje individual o un optimizador local, intensificando así la búsqueda a la

solución de un problema [26].

10

Figura 6. Algoritmo del marco general de trabajo del MA tomado de [29]

En el algoritmo memético evolutivo se inicializa la población al azar o por heurística.

Luego de la inicialización cada individuo tiene un aprendizaje local, simulando el

aprendizaje del individuo en su periodo de vida. Para la selección de la siguiente

población, se escogen los individuos con mejor rendimiento, y se siguen los pasos

básicos de un algoritmo genético (GA) [27]. En el Algoritmo 1 de la figura 6 se muestra

la principal diferencia entre el MA y el GA, siendo esta la búsqueda por medio de

optimizadores locales.

11

Capítulo 3

Algoritmo de Reorganización (CRA).

En este capítulo se presenta el algoritmo creado para obtener series de tiempo

consistentes con la evolución de centros de agrupamientos, considerando que solo la

información espacio-temporal de los eventos criminales es conocida. Antes de presentar

el algoritmo se muestra como se extrae la información temporal de la base de datos usada

de la ciudad de San Francisco.

3.1. Descripción de la Base de Datos.

Se utilizó la base de datos de los incidentes reportados al SFPD (Departamento de

Policía de San Francisco) [28] desde el primero de Enero del 2003 hasta el año 2016

como objeto de estudio. Esta base de datos cuenta con incidentes como robo armado,

crueldad a niños, crímenes juveniles, entre otros. Para este caso se extrajo la información

de los robos de casas debido a la poca incertidumbre de la ubicación de donde ocurrió el

crimen.

3.2. Características Extraídas.

La base de datos de incidentes de robos de casa cuenta con el número de incidente,

categoría, descripción, fecha, hora, latitud, longitud, dirección, resolución, entre otros.

Las características que fueron consideradas de mayor importancia fueron la fecha, la

hora, la latitud y longitud. Con esta información es posible tener una secuencia temporal

de la ocurrencia de los crímenes. Esto, permite que se realice un acondicionamiento

separando por ventanas de tiempo los eventos. Al separar de esta manera los datos se

agrupan por ventanas. Al tomar una secuencia de las ventanas se obtiene un

comportamiento espacio-temporal que debe ser agrupado para reducir los parámetros y

simplificar el comportamiento para que se tenga información que se pueda predecir

(como coordenadas del centro y radios de acción del agrupamiento).

12

3.3. Organización de la Base de Datos.

Para los diferentes tipos de agrupamiento espacio-temporal se realizó una organización

de la base de datos de la siguiente manera:

a. Se creó una ventana de tiempo de siete (7) días de incidentes. La diferencia de

tiempo entre cada ventana es de un día.

b. Los datos fueron separados por años y se organizaron por días de la semana, (ej.

Lunes, Martes, Miércoles, etc.) teniendo todos los crímenes que sucedieron en

cada día durante todo el año. Además de esto los días fueron separado entre noche

y mañana. Mañana siendo desde las 7 am a 5 pm y la noche desde las 5:01pm

hasta las 6:59 am (Hora en que los ciudadanos de San Francisco salen y llegan del

trabajo regularmente). Esto generó una serie de tiempo por año puede dar indicios

de la ubicación de los patrones de crimen por día y noche de cada día de la

semana en el año.

c. Al tener la división anual se subdividieron los datos en las 24 horas del día.

Teniendo así, todos los crímenes de, por ejemplo, las siete (7) de la mañana que

ocurrieron en el año. Agrupando está información puede mostrar patrones por

horas de la ubicación de patrones dependiendo de la hora.

d. Por último, se crearon ventanas de tiempo con un total de 30 días de incidentes.

Para crear la variable temporal se creó una diferencia entre cada ventana de

tiempo de 7 días.

En la figura 7 se muestra la proyección de los datos y 4 ventanas de tiempo consecutivas

mostrando la organización de los eventos criminales. Una vez se obtuvo la organización

de los datos para los diferentes agrupamientos espaciotemporales se procede a realizar la

proyección de latitud y longitud de las coordenadas donde ocurrieron los crímenes. Esta

proyección se realiza por medio de la función mfwdtran en MATLAB esto con el fin de

tener los datos en coordenadas rectangulares. La importancia de esto radica en que en el

algoritmo de agrupamiento FCM la función objetivo es evaluada por las distancias

euclidianas entre los datos y los centros de los grupos que se le predeterminan. Esto,

mantiene además un marco de trabajo consistente para el análisis de los patrones en la

ciudad de estudio.

13

Figura 7. División de la base de datos por ventanas de 7 días

La figura 7 se muestra la forma en que los datos fueron organizados por ventanas de

tiempo. Esto se realizó con el fin de mantener una memoria de los datos que fuera

evolucionando con el tiempo. Al obtener esta organización de datos existe una

correlación entre el pasado y el futuro y representando un sistema con memoria como lo

es el crimen. Donde las acciones futuras de un criminal se ven reflejadas en el pasado y

las rutinas que él y sus víctimas tienen. [29]

3.4. Algoritmo de Reorganización.

En este problema se realiza un agrupamiento para obtener series de tiempo de grupos,

lo cual difiere de métodos reportados en donde se obtienen los grupos de series de tiempo

conocidas. Por lo tanto, un problema diferente se configura: Series de tiempo del

agrupamiento (TSC, por sus siglas en inglés). En este acercamiento, los grupos se

delimitan por el algoritmo FCM. Sin embargo, los agrupamientos se pueden obtener por

medio de métodos similares y más refinados, como el algoritmo Gustafson-Kessel o el

Gath-Geva entre otros [30]. Ya que la familia de los algoritmos similares al FCM

inicializa sus valores de pertenencia aleatoriamente al igual que la ubicación de los

centros, un inconveniente de inconsistencia en el orden de los centros de los

agrupamientos aparece al observar su evolución temporal.

Figura 8. Ventanas de tiempo.

Time Frame 1 Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7

Time Frame 2 X Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7

Time Frame 3 X X Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7

14

Figura 9 Inicialización Aleatoria

Debido a la inicialización aleatoria de los valores de pertenencia de los agrupamientos

del FCM no permanecen en la misma zona, el orden de las particiones difusas no se

mantiene. Por lo tanto, si un estudio de n agrupamientos se lleva a cabo, se debe tener

certeza de que en cada marco de tiempo la identificación de los agrupamientos mantiene

el orden inicial de la partición. Considerando que las tendencias espaciotemporales de

agrupamientos de crimen mantienen una regularidad debido al comportamiento habitual

de la población [29] [31], si por cada ventana de tiempo la ubicación espacial de cada

agrupamiento se observa, el agrupamiento resultante en la siguiente ventana se

identificará cercano al agrupamiento en la ventana anterior [6]. Esto da una pista hacia la

organización del orden de los grupos en las diferentes ventanas de tiempo.

Si las series de tiempo obtenidas del agrupamiento de los registros criminales son

útiles para identificar la direccionalidad del crimen, debe haber confianza de que en cada

ventana de tiempo los agrupamientos estén en el mismo orden. A través de las ventanas

de tiempo el primer grupo de la primera ventana de tiempo debe ser siempre identificado

como el primero en las ventanas posteriores. Si solo se utiliza el FCM esto no ocurrirá.

Por lo tanto, un algoritmo de reorganización debe ser llevado a cabo. Las distancias entre

el i-ésimo grupo encontrado por el FCM en la ventana de tiempo tN y los centros de los

grupos j-ésimos en la ventana de tiempo t0 son evaluados. El algoritmo reorganiza el

orden de los agrupamientos en tN dependiendo de las distancias medidas entre los centros.

En la figura 9 los agrupamientos en la ventana de tiempo 1 son asignado por un cierto

orden del FCM pero en la siguiente ventana es posible que la asignación no se de en el

mismo orden. Así, el agrupamiento más cercano a A debería ser A1 no C1 al igual que

para el agrupamiento B y C. Por lo tanto, calculando la distancia mínima los

agrupamientos pueden ser reorganizados. Como se muestra en el Algoritmo 1, hay varios

pasos que deben ser llevados a cabo para la reorganización del orden de los

agrupamientos usando el FCM como herramienta de agrupamiento, tomando como base

de evaluación las distancias entre los centros de cada agrupamiento en la ventana n y la

ventana inicial.

15

3.4.1. Inicialización

El algoritmo propuesto requiere que la base de datos sea dividida en ventanas de

tiempo como se describió anteriormente. De esta manera, los agrupamientos identificados

se forman consecutivamente de acuerdo con esta división de tiempo. Para la etapa de

inicialización el número de agrupamientos debe ser definido a priori, la i-ésima ventana

de tiempo en donde están los datos y la guía de centros. La guía de centros determinará el

orden en el cual el algoritmo de reorganización va a identificar los agrupamientos

encontrados en las siguientes ventanas de tiempo. Sea c= {c1, c2,…, cn} los centros para la

evaluación de agrupamiento del FCM en la primera ventana donde los ci son el orden i-

ésimo de los agrupamientos y la guía de centros para las ventanas de tiempo siguientes.

3.4.2. Iteración.

Este algoritmo asegura que a través de todas las ventanas de tiempo el número de

agrupamientos se mantiene. La etapa de iteración verifica que en cada reorganización

ninguno de los agrupamientos se repita como puede suceder en la etapa de asignación.

Para determinar si algún agrupamiento se repite, el algoritmo de reorganización evaluará

la ubicación del centro de cada agrupamiento, si un centro aparece más de una vez el

algoritmo ejecutará el FCM una vez más y reevaluará el orden de los agrupamientos.

16

Figura 10. Procedure of CRA in iteration

Figura 11. Agrupamientos repetidos

Sea x= {x1, x2,…, xn} la evaluación de agrupamientos en la ventana de tiempo tN,

donde tN, es la ventana de tiempo N-ésima. El dato xj es el j-ésimo orden resultante del

agrupamiento en las siguientes ventanas de tiempo. Como se muestra en la Figura 10, los

centros de los agrupamientos son organizados en una matriz de n por 2. Una vez el

algoritmo reorganiza el orden, este determina si se asignó varias veces el mismo

agrupamiento. El método verifica si algún centro se repite, asegurando que las

coordenadas, en este caso x y no se repitan.

La etapa de iteración está presente debido a la continuidad que se desea para el análisis

espaciotemporal de las series de tiempo. Si una verificación de la repetición de los

agrupamientos no se implementa, algunas ventanas de tiempo no tendrán el número

completo de grupos. Esto genera discontinuidades en las series de tiempo, lo que a su vez

no permite su análisis correspondiente. La Figura 11 muestra si centros repetidos son

identificados. Se puede notar que en el orden de los agrupamientos uno de los centros

17

hace falta. Asignando una zona que pertenece a dos grupos (en este caso en particular) a

solamente un grupo es lo que puede generar discontinuidades. Esto afecta no solamente el

tamaño del agrupamiento sino también la forma y como se ha afirmado anteriormente la

continuidad de la serie de tiempo resultante que pertenece al grupo B.

3.4.3. Evaluación de distancia.

Los centros que retorna el FCM están en coordenadas(x, y). El proceso para medir la

distancia entre los diferentes agrupamientos en las dos ventanas de tiempo (t1 y tN) es el

siguiente:

𝑑𝑖𝑗 = ∑ ∑ √(𝑥1𝑖 − 𝑥𝑁𝑗)2 + (𝑦1𝑖 − 𝑦𝑁𝑗)2𝑛𝑗=1

𝑛𝑖=1 (2)

Donde dij es la distancia Euclidiana entre el centro ci= {c1, c2,…, cn} del i-ésimo

agrupamiento en la ventana de tiempo t1 y el centro xj= {x1, x2,…, xn} de j-ésimo

agrupamiento en la ventana de tiempo tN. La Figura 12 muestra los vectores de las

distancias medidas para cada uno de los agrupamientos de la ventana t1 a la ventana de

tiempo N. Una vez todas las distancias para todos los agrupamientos son calculadas, el

algoritmo procede a determinar la mínima distancia desde el centro i-ésimo ci al centro j-

ésimo xj de la siguiente manera:

ℎ𝑖 = 𝑚𝑖𝑛(𝑑𝑖𝑗) (3)

Figura 12. Distancia entre agrupamientos

18

Siendo hi la mínima distancia desde el i-ésimo agrupamiento a cualquier otro

agrupamiento en la ventana de tiempo N.

3.4.4. Descartando el mínimo falso.

Aunque los agrupamientos tienden a ocupar las mismas zonas, en ciertas ventanas de

tiempo pueden ser identificados más lejos de su ubicación habitual. Para prevenir que el

algoritmo de reorganización confunda estos agrupamientos se asume que el centro j-

ésimo más cercano en la ventana de tiempo tN al centro i-ésimo ci en la ventana de tiempo

t1 se le es asignado el orden en el cual el agrupamiento i-ésimo está organizado. La

Figura 13 muestra que dos agrupamientos en la ventana de tiempo tN a los cuales le puede

pertenecer un mínimo de distancia a un mismo centro en la ventana de tiempo t1 (matriz

de centro guía).

Dos o más de los nuevos centros encontrados por el FCM en una ventana de tiempo N

pueden tener su distancia mínima a solo un centro guía. Si esto ocurre, el centro

seleccionado es el de menor distancia al centro guía entre los centros. Los otros centros

son descartados para ese centro guía específico y sus distancias son reevaluadas en

búsqueda de un nuevo mínimo.

La figura 13 también muestra el criterio de selección del algoritmo, los grupos A y A1

pertenecen al mismo grupo A pero en diferentes ventanas de tiempo y B1 es seleccionado

para el grupo B. El algoritmo descarta la distancia entre A y B1 y reevalúa la distancia

mínima. De este modo, asigna el orden de los agrupamientos adecuadamente. El proceso

se realiza para el número de agrupamientos determinado por el usuario. Si en la

reevaluación de las distancias un nuevo mínimo no es encontrado o si alguno de los

centros es repetido, entonces el proceso reinicia corriendo una vez más el FCM y

reorganizando los nuevos centros obtenidos.

Figura 13. Criterio de distancia mínima

19

3.4.5. Asignación

Esta etapa final se realiza una vez la condición en el proceso de iteración se cumple.

Los centros y los valores de pertenencia ya tienen asignado el orden correcto, de acuerdo

con la identificación de los agrupamientos en la primera ventana de tiempo. Esta etapa

simplemente asigna el orden adecuado a las variables de los centros de los agrupamientos

al igual que los valores de pertenencia correspondientes a cada evento.

3.5. Agrupamiento de ventanas de tiempo con el algoritmo de

reorganización

Una vez la base de datos ha sido organizada, los datos de las ventanas de tiempo son

agrupados de manera secuencial utilizando el algoritmo de reorganización. Por

simplicidad visual se muestran en la Figura 14 el agrupamiento de 4 grupos. El convex

hull se computa de acuerdo a la partición difusa para identificar posibles patrones de

cómo están distribuidos los datos. El polígono que conecta a los centros de los grupos

también se muestra en la figura 14. Una muestra de las matrices de partición difusa se

encuentra en la figura 15 y su evolución a través de cuatro ventanas de tiempo. Aunque

los polígonos del convex hull tienen cambios notorios en su forma y tamaño, se puede

observar que las matrices de partición difusa se mantienen relativamente constantes, lo

cual soporta la suposición de que los patrones de crimen tienden a ser relativamente

estables en la ciudad. También es esperado que las matrices de partición difusa se

entiendan como una interpolación de la posibilidad de eventos criminales y que tanto

estos pertenecen a los diferentes grupos.

Figura 14. Convex Hull1 de agrupamientos Figura 15. Matrices de partición difusa

1. El convex hull de un conjunto de puntos S en n dimensiones es la intersección de todos los conjuntos convexos

que contienen a S.

20

Figura 16. Aproximación de agrupamientos a círculos.

Con el fin de obtener parámetros sencillos para la representación de los agrupamientos

y que estos puedan ser a su vez representados en series de tiempo se optó por aproximar

cada agrupamiento a un círculo. Siendo el agrupamiento un circulo tendremos solo tres

parámetros, las coordenadas x y y y el radio del círculo, que caracterizarán el patrón y

como es su comportamiento en el tiempo. El centro del círculo es el mismo centro del

agrupamiento identificado y ordenado por el algoritmo de reorganización. El radio, es

calculado como la distancia desde el centro hasta el evento criminal más lejano que

pertenece al agrupamiento. En la figura 16 se muestra como estos agrupamientos son

aproximados.

3.6. Construcción de las series de tiempo.

Para el análisis espaciotemporal del crimen se construyen series de tiempo. Esta

construcción es de acuerdo a las diferentes organizaciones que se le dieron a la base de

datos explicadas en la sección 3.3. Resultado de los diferentes tipos de agrupamientos

que se desean. Esto, da la posibilidad de representar las tendencias criminales no solo de

manera secuencial sino también de manera estacional.

Analizando los diferentes componentes de las series de tiempo que se pueden extraer

de los datos. Una vez realizado el algoritmo de reorganización se tiene la certeza de que

la evolución espaciotemporal de los agrupamientos cuenta con una consistencia teórica.

Esta consistencia se basa en la tendencia regular de los sucesos criminales. Para analizar

estos sucesos y su comportamiento macro en el tiempo se redujeron la cantidad de

parámetros necesarios para caracterizar los eventos. Estos eventos se agruparon y a estos

grupos se les extrajo la información necesaria para su reconstrucción. Esta reconstrucción

es posible debido a la sencilla forma que fue asumida para los agrupamientos, la

circunferencia. Al obtener la información de la coordenada X, la coordenada Y y el radio

de acción se tiene todo lo necesario para la reconstrucción del agrupamiento.

21

Estos parámetros identificados permiten el análisis espaciotemporal de los

agrupamientos. En cada ventana de tiempo se extraen estos parámetros. Entonces, para la

creación de las series de tiempo se unen los parámetros por ventana de tiempo para crear

tres series de tiempo diferentes por agrupamiento, dependiendo del número de

agrupamientos que se determinó a priori. En este caso se muestran las series de tiempo

para cada uno de los tipos de agrupamiento.

En las figuras 17-20 se pueden observar las series de tiempo obtenidas del algoritmo

de reorganización con la organización de base de datos especificada. Es posible hacer una

reconstrucción aproximada de los agrupamientos con las series de tiempo. Por lo tanto,

una predicción de estos parámetros es pertinente para anticiparse a la dinámica espacial

de los agrupamientos.

La figura 17 muestra la separación por semanas de la base de datos. La serie de tiempo

abarco desde el año 2003 hasta el 2015. Ésta serie de la figura 17 es considerada

secuencial ya que el tiempo es considerado lineal y no cíclico. En las figuras 18 y 19 se

muestran las series de tiempo en las cuales sus datos fueron organizados de manera

cíclica. Esto, implica entonces un periodo de tiempo que se repite a través de los años que

para este caso en las noches y en los días es representado por los días de la semana desde

lunes (primer día) hasta el domingo (séptimo día). Y por último, la figura 20 muestra las

series de tiempo encontradas por año de las horas del día. Desde la 1:00 de la mañana

hasta las 00:00 del siguiente día. En estos intervalos de tiempo se agruparon todos los

crímenes de cada año y se realizó esto para cada año. La serie de tiempo representa la

dinámica de los agrupamientos encontrados por hora por año.

Figura 17. Series de tiempo de semanas con un día de diferencia para 4 agrupaciones.

22

Figura 17.1 Series de tiempo de semanas con un día de diferencia para 8 agrupaciones

Figura 18. Series de tiempo de días de la semana por año.

Figura 19. Series de tiempo de noches de la semana por año.

Figura 20. Series de tiempo de horas por año.

23

Figura 21. Series de tiempo por semana por mes.

24

Capítulo 4

Propuesta para la sintonización de un sistema de

inferencia difusa por medio de un algoritmo

memético.

En este capítulo se presenta la propuesta para la predicción de un centro de un

agrupamiento de crimen en la ciudad de San Francisco, USA. Primero, en la figura 17 se

muestra el modelo propuesto del sistema difuso y cómo se implementa el MA para la

sintonización del primero. Se presenta la función objetivo, la construcción de la misma y

una breve explicación de los elementos que la componen. Luego, una descripción de los

parámetros del tipo de sistema difuso escogido. Posteriormente, se presenta la

implementación y ventajas del uso de la herramienta ANFIS para los sistemas difusos, y

una descripción de este y sus métodos de optimización local. Por último se presenta la

evaluación de soluciones y un factor de medida de la preservación de la diversidad para

identificar una convergencia prematura en la población.

4.1. Modelo propuesto.

Para realizar la predicción del problema propuesto en este proyecto se toma un sistema

de inferencia difusa, FIS, (por sus siglas en inglés) cuyos parámetros se sintonizan por

medio de un MA. En la figura 22 se muestra el diagrama del modelo propuesto. Este

modelo presenta cómo se implementa el MA para la sintonización de las reglas del FIS

de acuerdo con una función objetivo.

Figura 22. Método propuesto.

25

En el diagrama propuesto se muestra el proceso llevado a cabo para la obtención de la

predicción de uno de los centros y su área de acción respectiva. Desde la recopilación de

la base de datos de los crímenes de robo de casa. Donde los datos fueron separados como

se explicó en la sección 3.3. Al obtener las ventanas de tiempo se efectúa el método de

agrupamiento para la generación de la series de tiempo de cada uno de los parámetros del

grupo que se desea predecir.

La predicción de las series de tiempo generadas se hace por medio de un sistema

difuso compuesto por unos antecedentes, unos consecuentes y una base de reglas. Los

conjuntos del sistema difuso son sintonizados a través del MA el cual tiene una función

objetivo explicada en la siguiente sección. Al realizar el proceso de sintonización de los

conjuntos del FIS y al implementar este FIS final se puede generar la predicción de las

variables de interés del centro de crimen.

En la figura 23 se muestra cómo se le agrega el MA al motor de inferencia para

realizar la sintonización de las reglas. El proceso que se lleva a cabo en esta sintonización

se muestra en la Figura 23 donde se especifican los pasos más importantes del MA.

Posteriormente, se describe cada paso y su tarea en el funcionamiento completo del MA.

Figura 23. Algoritmo Memético

26

4.2. Función Objetivo

Se debe tener consideración especial a la función guía que se le dará al problema pues

de esta depende la dirección de solución del algoritmo. La función objetivo está dentro de

los parámetros que influencian la efectividad y la eficiencia de un algoritmo con

búsqueda por población [32]. Ahí radica su importancia.

La construcción debe tener en cuenta los factores más importantes al momento de una

predicción para este caso. La función objetivo escogida tiene en cuenta cuatro medidas

diferentes que le componen:

MAPE: Hace referencia a la medida de precisión del error de predicción y está

definido así:

𝑀𝐴𝑃𝐸 =1

𝑁∑ |

𝑒𝑡

𝑍𝑡|𝑁

𝑡=1 (4)

Donde Zt es el valor de la serie de tiempo en el tiempo t y N es el número de

datos. Es importante que esta medida sea hecha con una buena cantidad de datos

pues puede ser sensible al volumen de la información por el hecho de ser un

porcentaje.

RMSE: Esta medida muestra la desviación estándar entre un valor observado de

una serie de tiempo y un valor de predicción hecho por un modelo. Se diferencia

del MAPE en que no mira la predicción en precisión por porcentaje sino que da

una medida de las diferencias entre la predicción y el valor real. El RMSE se

expresa en la siguiente formula:

𝑅𝑀𝑆𝐸 = √1

𝑁∑ (𝑍𝑡 − 𝑂𝑡)2𝑁

𝑡=1 (5)

Donde Zt es el valor de la serie de tiempo en el tiempo t y N es el número de

datos y Ot es el valor de la predicción. El RMSE es normalizado entre el rango

máximo y mínimo de los datos de la serie de tiempo. Con esto la medida de

variación toma un valor correspondiente de acuerdo a la serie de tiempo.

POCID: Este factor es una medida de la predicción en el cambio de dirección.

Muestra por medio de un porcentaje la tendencia local de un modelo de

predicción. Está dado por:

27

𝑃𝑂𝐶𝐼𝐷 =∑ 𝐷𝑡

𝑁𝑡=1

𝑁 (6)

Donde:

𝐷𝑗 = {1, 𝑠𝑖 (𝑍𝑗 − 𝑍𝑗−1)(𝑂𝑗 − 𝑂𝑗−1) > 0

0, 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜 (7)

Donde Zj es el valor de la serie de tiempo en el tiempo t y N es el número de datos y Oj

es el valor de la predicción

Coeficiente de correlación: Esta medida representa la covarianza existente entre

dos variables relacionadas linealmente. Está definida como:

𝑟 = ∑ (𝑂𝑡−�̅�)∗(𝑍𝑡−𝑍)𝑁

𝑡=1

√∑ (𝑂𝑡−�̅�)2𝑁𝑡=1 ∗√∑ (𝑍𝑡−𝑍)2𝑁

𝑡=1

(8)

Donde Zj es el valor de la serie de tiempo en el tiempo t y N es el número de datos y Oj

es el valor de la predicción. Además �̅� y �̅� son el promedio de la serie de tiempo

resultante de la predicción y el promedio de la serie real, respectivamente.

Cabe resaltar que aunque el POCID y el coeficiente de correlación sean muy similares

el primero toma una medida local de la dirección de la señal y el segundo toma una

medida global que de manera implícita mide la relación entre las variaciones de las dos

señales.

La estructura de la función objetivo teniendo en cuenta estas medidas es entonces:

𝐹𝑜𝑏𝑗 =𝑀𝐴𝑃𝐸+𝑅𝑀𝑆𝐸

𝑃𝑂𝐶𝐼𝐷+

1

𝑟∗0.1 (9)

En esta función objetivo se debe minimizar el MAPE y el RMSE y maximizar el

POCID y la correlación. Se separó la correlación con el fin de darle a esta un peso

especial debido a que es de vital importancia en la predicción.

Para encontrar la relación entre los estadísticos de la función objetivo de la ecuación

(9). Con el fin de observar el espacio de búsqueda de esta función objetivo se muestra la

variación de esta con respecto a dos de los cuatro estadísticos en la tabla 1. Esta tabla

representa el orden en el que se realizó la relación entre los estadísticos en la Figura 24.

Tabla 1. Relación de estadísticos

MAPE POCID

RMSE MAPE

RMSE POCID

COR RMSE

COR MAPE

COR POCID

28

Figura 24. Variación de F.O. en función de los diferentes estadísticos.

En la figura 24 se muestra el espacio de la función objetivo de acuerdo a la

combinación de a par de los estadísticos escogidos. Como se puede observar el

estadístico con mayor influencia en el espacio de búsqueda de la función objetivo es la

correlación entre las dos señales (real y predicción). El cambio de la función objetivo a la

variación del RMSE y el MAPE es de manera lineal a diferencia de los cambios por el

POCID y la Correlación que son por multiplicativo inverso. Los cambios por el

multiplicativo inverso tienen una ventaja, que la disminución de la función objetivo es

mayor a medida que se esté alejado del valor deseado.

Los rangos de la función se tomaron de acuerdo a cinco pruebas por cada una de las

series construidas (X, Y, R). Se tomó el máximo y el mínimo del total de la pruebas para

determinar aproximadamente el rango de valor de cada estadístico. Además, debido a que

solamente hizo la variación de dos estadísticos a la vez los demás permanecen constantes.

Para fijar un valor adecuado se hizo un promedio de todas las pruebas. En las siguientes

tablas se muestran los valores obtenidos en las pruebas.

29

Figura 25. Construcción del meme.

4.3. Construcción del meme.

Un vector llamado meme en el caso del algoritmo memético representa a cada

individuo de la población. Dentro del meme se le asigna una posición a los parámetros de

los conjuntos difusos. Por medio de esta organización se representan las funciones de

pertenencia de los antecedentes (i.e. media (m), desviaciones estándar (σ)) y la

construcción de las rectas del consecuente para el caso de FIS Sugeno. La estructura del

meme se muestra en la Figura 25. Si se define pa como el número de parámetros que

caracterizan las funciones de pertenencia del antecedente y pc como el número de

parámetros de las funciones lineales del consecuente, n se define como el vector de

entrada que son los datos de centro en las ventanas de tiempo anteriores y M como el

número de reglas. Por lo tanto la longitud del meme Lv está definida como:

𝐿𝑣 = (𝑝𝑎 + 𝑝𝑐) ∗ 𝑛 ∗ 𝑀 (10)

4.4. Inicialización de la Población

Dentro del proceso de búsqueda la población está representada por una matriz como se

muestra en la Figura 26. Cada fila de la matriz contiene un individuo o meme, por lo

tanto el número de filas es el tamaño de la población np. Al momento de inicializar la

población comienza siendo aleatoria. Pero los valores de la población inicial están

restringidos al rango predeterminado que los parámetros pueden tomar. Estos rangos

están determinados por los rangos de los vectores de entrada. Para el caso de la

predicción del centro de agrupamiento de crimen se debe tener en cuenta el rango de las

diferentes variables (i.e x, y y r).

Figura 26. Estructura de la población

m1 m2 … mM σ1 σ2 … σ M x1 x2 … x M

m11 m2

1 … mM1 σ1

1 σ21 … σ M

1 x11 x2

1 … xM1

m12 m2

2 … mM2 σ1

2 σ22 … σ M

2 x12 x2

2 … xM2

.

.

.

.

.

.

.

.

.

m1np

m2 np … mM

np σ1 np σ2

np … σ M np x1

np x2 np … xM

np

Lv

np

30

Figura 27. Inicialización del FIS

4.5. Inicialización del FIS

Una vez inicializada la población cada individuo o meme es optimizado localmente,

para esta optimización se utilizó ANFIS [33]. Este método da la posibilidad de visualizar

sistemas difusos con gran facilidad. Lo cual permite analizar e intentar una interpretación

de las reglas que se sintonizaron con la búsqueda. Para la implementación de esta

herramienta debe ser por medio de un FIS Takagi Sugeno. Este tipo de FIS aunque es

muy similar al tipo Mamdani difiere principalmente en que los consecuentes se computan

como pesos, similar a una red neuronal.

Debido a que se debe crear un FIS para el entrenamiento por medio de ANFIS es

necesario hacer una inicialización de un FIS por cada individuo de la población. El

proceso de inicialización del FIS se muestra en la Figura 27. Primero se crea un nuevo

FIS tipo TSK (Takagi-Sugeno-Kang) con las siguientes características:

Método de AND: producto

Método de OR: Or probabilística.

Implicación: Mínimo.

Agregación: Máximo.

31

Con estas características establecidas se determina como el sistema de inferencia

difusa realiza las operaciones de inferencia. Esto es determinado por defecto en los

sistemas tipo TSK una vez se inicializa el sistema. Siguiendo estos métodos una regla de

un TSK es de la forma:

Si entrada1 = x y entrada 2 = y, entonces la Salida es z=ax+by+c (11)

Cada regla tiene su propio peso como un nivel de salida zi, la fuerza de disparo de

cada regla será entonces wi. Por ejemplo, para el método AND en este caso sería el

producto:

𝑤𝑖 = 𝐹1(𝑥) ∗ 𝐹2(𝑦) (12)

Donde F1, 2() son las funciones de pertenencia para las entradas 1 y 2. Y así la salida

será:

𝑂 =∑ 𝑤𝑖𝑧𝑖

𝑁𝑖=1

∑ 𝑤𝑖𝑁𝑖=1

(13)

Siendo N el número de reglas.

Luego de crear el sistema se definen las funciones de pertenencia. Pero, ya que el MA

tiene un método de búsqueda de soluciones por medio de poblaciones se extraen los

parámetros para un meme de la población. Estos se extraen de los individuos o memes de

la población inicializada aleatoriamente para la primera generación y ya los memes hijo

en las siguientes generaciones. Ya que los individuos representan los conjuntos difusos,

una vez extraídos se procede a hacer la construcción de estos últimos. En la figura 27 se

muestra la organización de los diferentes parámetros de las funciones de pertenencia

(medias, desviaciones y pesos de salida). El número de funciones de pertenencia es

determinado a priori.

Una vez se obtienen los parámetros del meme se adicionan las variables de entrada y

salida. Al agregar cada variable al sistema se hace también la agregación de las funciones

de pertenencia correspondientes. Allí se determina el tipo de función de pertenencia y se

le asigna a cada parámetro extraído anteriormente. Esto se trabaja de igual manera tanto

para los antecedentes como para el consecuente. Al obtener las funciones de pertenencia

de los antecedentes y el consecuente se genera la base de reglas.

4.6. Optimización Local.

Este sistema difuso es utilizado posteriormente por la herramienta ANFIS que realiza

una optimización de un método híbrido entre Backpropagation y LMS con una tasa de

aprendizaje variable. Este método sintoniza los parámetros de las funciones de

pertenencia construidas aprendiendo de los datos de entrada/salida proporcionados.

32

Entrada 1 Entrada 2 Entrada 3 … Entrada n Salida

x1t-3 x1

t-2 x1t-1 x1

t z1t+1

x2t-3 x2

t-2 x2t-1 x2

t z2t+1

.

.

.

xlt-3 xl

t-2 xlt-1 … xl

t zlt+1

Figura 28. Matriz de entrenamiento de ANFIS

El proceso de optimización local se lleva a cabo ingresando los datos de entrada, que

en este caso son llamados regresores, y los datos de salida. Estos datos son organizados

en una matriz como se muestra en la Figura 28. Siendo n el número de entradas y l la

cantidad de datos disponibles para el aprendizaje.

Con esta matriz de datos de entrada y el FIS difuso inicializado anteriormente se

realiza un entrenamiento sintonizando los parámetros del FIS. Está sintonización se

realiza por medio de la herramienta de optimización llamada ANFIS. La sintonización de

todos los parámetros se realiza por medio de meme los cuales representan los parámetros

del sistema difuso.

4.6.1. ANFIS (Adaptive neuro-fuzzy Inference System)

Esta herramienta traza un mapa de una interfaz de un sistema Sugeno de primer orden

en una red neuronal adaptativa feed-forward. Esto con el fin de mejorar el desempeño en

efectividad y precisión de aprendizaje sin afectar en gran medida la generalización.

Gracias a esta combinación se permite que el sistema realice reconocimiento y análisis de

conocimiento lingüístico y numérico implícito en los datos.

La red creada consiste de nodos y enlaces de dirección por medio de los cuales se

conectan los nodos como se muestra en la figura 29. Donde los nodos circulares son

nodos fijos y los cuadrados son nodos adaptativos que se rigen por parámetros que

cambian de acuerdo a las reglas de aprendizaje. En el caso de ANFIS las reglas de

aprendizaje se basan en un algoritmo hibrido entre el descenso de gradiente y el LMS

para la mejora en la velocidad de convergencia. Pues los algoritmos que basan sus reglas

de aprendizaje en solamente el descenso de gradiente se caracterizan por su lentitud en

convergencia y la tendencia de quedar atrapados en un mínimo local.

33

Figura 29. Estructura de red de ANFIS

Como se muestra en la figura 29 estas redes son de múltiples capas y nodos en cada

capa. En algunas de las capas se encuentran nodos adaptativos cuya función se define

como;

𝑂𝑖𝑘 = 𝑂𝑖

𝑘(𝑂1𝑘−1, … , 𝑂𝑛

𝑘−1, 𝑎, 𝑏, 𝑐) (14)

Donde:

i: Es la posición del nodo en la capa k.

k: Es la posición de la capa.

n: Es el número de nodos en la capa

a, b, c: Son parámetros del nodo.

O: Es la función de salida del nodo.

Ya con esta función de salida es posible encontrar el error de salida y según [33],

[34]se calcula de la siguiente manera:

𝐸 = ∑ (𝑇𝑝 − 𝑂𝑝𝐿)2𝑃

𝑝=1 (15)

Asumiendo la base de datos con P entradas, el error se mide por la p-ésima entrada de

entrenamiento como la suma de errores cuadrados. Siendo 1 ≤ p ≤ P. Tp y Op son la

etiqueta de salida y la salida de la red de la p-ésima entrada respectivamente. Y L es el

número de capas en la red.

34

Debido a que la regla de aprendizaje es el descenso de gradiente en [33] se calcula así:

𝜕𝐸

𝜕𝑂𝑖𝑘 = ∑

𝜕𝐸

𝜕𝑂𝑚𝑘+1 ∗

𝜕𝐸 𝑂𝑚𝑘+1

𝜕𝑂𝑖𝑘

𝑃𝑝=1 (16)

Donde 1 ≤ k ≤ L-1.

Asumiendo un solo parámetro para la red adaptativa α entonces:

𝜕𝐸

𝜕α= ∑

𝜕𝐸

𝜕𝑂∗

𝜕𝑂∗

𝜕α𝑂∗∈ 𝑆 (17)

Donde S es el conjunto de nodos cuyas salidas dependen de α. Por lo tanto los nodos

adaptativos y regidos por la regla de aprendizaje. Para actualizar α según [33] será:

∆α = −η𝜕𝐸

𝜕α (18)

Siendo η una tasa de aprendizaje, expresada de la siguiente manera:

η =𝑡

√∑ (𝜕𝐸

𝜕α)

2

𝛼

(19)

Donde t es el tamaño de paso, la longitud de cada transición de gradiente en el espacio

de parámetro. Usualmente ANFIS cambia el valor de t con el fin de mejorar la velocidad

de convergencia. Estos cambios son regidos por dos reglas según [34]:

Regla 1: Si la medida del error sufre cuatro reducciones consecutivas, se aumenta t en

un 10%.

Regla 2: Si la medida del error sufre dos combinaciones consecutivas de un

incremento y un decremento, entonces se reduce t en un 10%.

Estas reglas están basadas en la observación y si t es pequeño, el método se aproxima

al camino dado por el descenso de gradiente. Pero para llegar a convergencia el gradiente

debe ser calculado muchas veces. En cambio sí t es grande, entonces los pasos a

convergencia son grandes. Pero al acercarse al óptimo el método comienza a oscilar

alrededor de este punto. La figura 30 muestra el comportamiento usualmente observado

con el cumplimiento de estas dos reglas.

35

Figura 30. Convergencia con reglas.

4.7. Factor Fano y diversidad de la población.

Con el fin de mantener un espacio de búsqueda amplio para el MA, se debe garantizar un

mínimo de diversidad entre los individuos de la población. Según [35] se debe ser

cuidadoso con la convergencia prematura en mínimos locales del espacio de búsqueda.

Para identificar una convergencia prematura se debe definir si la población está o no

degradada. Esto se hará por medio del monitoreo de la diversidad y para esto se escogió

el factor fano. Este factor es una medida de dispersión y es usada por ejemplo para inferir

la variabilidad de datos [36]. Este factor está definido como se muestra en ecuación (20).

La diversidad se puede ver afectada por la optimización producida en la sintonización de

parámetros de ANFIS. Por esta razón es necesario hacer un monitoreo sobre esta

diversidad vigilando que las soluciones dadas por la herramienta de optimización local

tengan diferencias que aporten a la búsqueda de una buena solución.

Para el monitoreo de la diversidad de la población se escogió el factor fano.

�̂� =1

𝑛−1∑ (𝑁𝑖−�̅�)2𝑛

𝑖=1

�̅�, 𝑑𝑜𝑛𝑑𝑒 �̅� =

1

𝑛∑ 𝑁𝑖

𝑛𝑖=1 . (20)

Esta estadística mide entonces la variación de todos los individuos de la población con

respecto la media entre los individuos. Aplicado entonces a la población, con el factor

fano se tiene una medida de las diferencias presentes entre la media de los individuos.

Esto implica que si el factor disminuye entonces la diversidad de la población disminuye.

Como umbral para determinar si la población ha sido degradada y se tiene una

convergencia prematura se tomó el 10% del valor del Factor Fano en la primera

generación de la población. Si la diversidad de la población se encuentra por debajo de

36

este valor, entonces es considerada en un estado degradado y por lo tanto debe ser

reinicializada.

La re inicialización de la población se realiza de manera similar a la inicialización de

la sección 4.5 pero con una variación. Con el fin de no perder completamente las

soluciones encontradas en las generaciones anteriores se decide mantener los cinco

mejores individuos de la población antes de la re inicialización.

37

Capítulo 5

Experimentos y resultados.

En este capítulo se presenta la descripción de los experimentos realizados y sus

resultados. Primero se describen los parámetros del FIS y el MA. Realizando pruebas

preliminares se busca encontrar la mejor configuración de parámetros. El método de la

sintonización de estos parámetros se presenta con sus respectivos resultados. Una vez

realizada la configuración de los parámetros se realizan las pruebas finales y se muestran

los resultados que se comparan de acuerdo a la función de costo escogida.

Adicionalmente, se muestra la relación entre la serie de tiempo real y la predicción hecha

por el sistema de inferencia con los datos de validación del mejor sistema difuso

sintonizado. Por último, se presenta un análisis de resultados en el que se comparan los

diferentes experimentos realizados y como estos pueden aportar a la toma de decisiones

de la fuerza pública para disminuir el número de crímenes.

5.1. Experimentos.

La figura 22 muestra la metodología propuesta para la sintonización de los parámetros

del sistema difuso. Los antecedentes y consecuentes del FIS son modificados por el MA.

Como en la sección 4.3 se muestra la construcción del individuo que representa el

sistema difuso este es el individuo sintonizado. Esta sintonización de parámetros es

guiada por medio de la función objetivo presentada en la sección 4.2.

Aquí se describe el proceso experimental y los resultados del mismo. Esto para

establecer una configuración de algunos de los parámetros del FIS y el MA, dentro de

estos están:

Número de reglas.

Número de generaciones.

Población intermedia.

Tamaño de la población.

Probabilidades que definen la evolución (probabilidad de mutación, cruce y

presión selectica).

Número de pruebas.

Se realizan dos conjuntos de experimentos (Contexto I y Contexto II). En el primer

contexto se utilizó la base de datos de ventanas de tiempo separadas semanalmente con

una diferencia entre cada ventana de tiempo de un día. Para el contexto II se escogió una

organización de la base de datos donde las ventanas de tiempo son de 30 días con

diferencia entre cada ventana de tiempo de 7 días.

38

La base de datos de cada contexto es dividida en un 70% de entrenamiento y 30% de

validación. El entrenamiento del sistema difuso se realiza con una prueba de 1000

generaciones en cada generación se hicieron cinco iteraciones de optimización local con

ANFIS. Esto, es debido a la fuerte optimización que ofrece este método. Y así, no

disminuir la diversidad de la población tan rápidamente manteniendo un espacio de

búsqueda.

Por cada uno de los parámetros se hace una variación y se realiza una prueba por

variación. Se muestra la evolución de la función objetivo. Y luego, se comparan los

mejores resultados de validación según la función objetivo escogida. Esto, con el fin de

obtener la mejor configuración. A continuación se presenta cada experimento realizado,

el análisis de los resultados de entrenamiento y los resultados de validación. En la tabla se

muestran los parámetros que se varían en función del desempeño de los diferentes

experimentos realizados.

Una vez se finalizan todos los experimentos se obtiene la configuración final del

sistema propuesto. Y se da paso a la determinación de la cantidad de regresores. Esto, se

realiza por medio de 50 pruebas con 300 generaciones. Con el fin de hacer una

caracterización del error y la correlación de la señal resultante con la real.

5.2. Contexto I

En este punto se presentan todas las pruebas realizadas para la primera organización

de la base de datos. Donde hay una agrupación semanal de datos con una diferencia de un

día, esta organización es explicada en la sección 3.3. Además, en la figura 17 se muestra

la serie de tiempo completa de este contexto. Esta serie de tiempo será, en esta sección, la

serie de tiempo de estudio. Fue esta forma de agrupación a la que se le realizaron todas

las pruebas para la predicción del centro y el radio del segundo hotspot de crimen.

5.2.1. Comparación de número de reglas.

Mediante este experimento se pretende definir el número de regiones de decisión

representadas por las funciones de pertenencia del antecedente y el consecuente (i.e.

reglas) del sistema difuso. Se propone hacer pruebas con diferente número de reglas y

observar la evolución de la función objetivo por prueba. Se realizaron un total de 10

pruebas para 4, 6, 8, 12 y 16 reglas para cada una de las variables de interés.

39

Figura 31. Función Objetivo de Número de Reglas

(a) Para X (b) para Y (c) para R

5.2.1.1. Análisis de resultados de entrenamiento.

En la las siguientes figuras se muestra la evolución de la función objetivo en 1000

generaciones del algoritmo memético. Esto, se realiza por cada uno de los experimentos

de las configuraciones escogidas.

En las Figura 31 (a), (b) y (c), se presenta la evolución de la función objetivo

propuesta en la sección 4.7 de las variables x, y y r respectivamente. En la figura 31 (a) se

observa que el mejor resultado de entrenamiento es el de 6 reglas con una gran

disminución cerca de 800 iteraciones. La figura 31 (b) muestra que hay una disminución

de aproximadamente el 5% del valor de la función objetivo en la evolución y de manera

general la evolución de las diferentes reglas están muy cercanas a un mismo punto de

convergencia el cual es 16.5. Por último, en la figura 31 (c) se muestran los experimentos

con 16 y 8 reglas los cuales son los de mejor desempeño. Estos resultados de

entrenamiento indican que las predicciones en estos experimentos son señales más

similares a las series de tiempo generadas por el agrupamiento.

40

Número de reglas X (f.obj) Y (f.obj) R(f.obj)

4 17.0032 23.1541 20.85591

6 18.6703 23.1644 21.6902

8 17.0111 23.8583 21.3576

12 17.0635 23.1233 22.6394

16 18.0391 23.1283 22.6394

Tabla 2. Resultados de prueba preliminar de variación de número de reglas.

5.2.1.2. Análisis de Resultados de Validación.

En la Tabla 2 se muestran los valores obtenidos para cada uno de los estadísticos de la

función objetivo. Estos estadísticos fueron medidos con los datos de validación. Se

muestran los experimentos de 4, 6, 8, 12 y 16 reglas.

En la tabla 2 se muestran los resultados de validación de las pruebas realizadas de la

variación del número de reglas por cada variable (X, Y, R) y se resaltó el mejor sistema.

Para la variable X el sistema con mejor desempeño según la función objetivo es de cuatro

reglas. Para la variable Y el mejor desempeño es del sistema de 12 reglas. Y por último

para la variable R el sistema difuso con mejor desempeño es de cuatro reglas. En la figura

32 se muestra la relación entre el desempeño de los sistemas difusos con respecto a la

variación del número de reglas

En la figura 32 (a) se puede observar que al aumentar el número de reglas de 8 a 16 el

desempeño del sistema difuso sintonizado se deteriora. Para la variable Y el mejor

sistema sintonizado es el de 12 reglas. Por último para la variable R a medida que

aumenta el número de reglas se deteriora el desempeño del sistema sintonizado.

5.2.2. Comparación de Variables del Algoritmo Memético.

En estos experimentos se definen las variables del algoritmo memético como la

probabilidad de cruce, la probabilidad de mutación de los memes y por último el tamaño

de la población para la búsqueda de soluciones del algoritmo. En cada uno de los

experimentos se realizaron diez pruebas por cada variable, el rango escogido por variable

se especifica en las siguientes secciones., el rango escogido por variable se especifica en

las siguientes secciones. Y por medio de estas pruebas se propone encontrar la mejor

configuración de búsqueda del algoritmo memético de acuerdo al mejor desempeño con

los datos de validación de 10 pruebas con 1000 generaciones por prueba.

41

Figura 32. Variación de número de reglas para (a) Variable X, (b) Variable Y | (c) Variable R.

5.2.2.1. Análisis de Entrenamiento para Probabilidad de Cruce.

El conjunto de pruebas realizadas en esta sección conciernen a la variación del

parámetro de probabilidad de cruce del algoritmo memético expuesto en el capítulo 4.

Para este experimento se realizaron un total de 10 pruebas con 1000 generaciones por

prueba. Cada prueba tiene un valor de probabilidad de cruce diferente y se les ha sido

modificado el número de reglas para el FIS de acuerdo a los resultados de la sección 5.2.

En las figuras 33, 34 y 35 se muestra la evolución de la función objetivo a través de las

1000 generaciones para la variables X, Y y R respectivamente. Por cada figura se

presentan dos secciones. La sección a muestra el desempeño del algoritmo con los

valores de probabilidad de cruce desde 0.5 a 0.75. Y en la sección b con valores desde

0.75 a 0.95. Mostrando entonces un total de diez pruebas por variable de interés.

Figura 33 Función Objetivo de Probabilidad de Cruce para X

(a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95

42

Figura 34 Función Objetivo de Probabilidad de Cruce para Y


Figura 35 Función Objetivo de Probabilidad de Cruce para R


Para la variable X (figura 33) se puede observar que las pruebas con valores de

probabilidad de cruce mayores a 0.75 (sección b de las imágenes) se obtuvo un mejor

desempeño general donde se llegó a un valor de función objetivo menor a 15.05 para un

valor de cruce de 0.75. La variable Y (figura 34) se puede observar que en la sección a la

mayoría de las pruebas tienen a un valor cercano a 16.5. A diferencia de la sección b

donde la mayoría de las pruebas se encuentran por encima de 16.6.

En la figura 33 a 35 se puede observar la diferencia del desempeño del algoritmo a las

diferentes variables de interés. El mejor desempeño de todas las variables es para X con

un valor de la función objetivo de 15.05. Y el peor desempeño lo presenta la variable R

con un valor mayor a 17.95. Una diferencia entre los resultados de entrenamiento de las

dos variables de 2.9 del valor de la función objetivo.

43

Valor Cruce X (f.Obj) Y(f.Obj) R(f.Obj)

0.5 17.2326 23.3255 21.9279

0.55 17.2288 23.2704 21.582

0.6 17.4519 23.8493 21.4318

0.65 17.3683 23.4831 21.7206

0.7 17.0737 23.1883 21.9109

0.75 16.8267 23.0476 21.5993

0.8 17.2045 23.1625 21.4074

0.85 17.2011 23.1 319 22.1781

0.9 17.1568 23.3256 22.0585

0.95 17.1885 23.3382 21.6028

Tabla 3. Resultados de validación de Valor de Cruce



función objetivo. Estos estadísticos fueron medidos con los datos de validación de cada

una de las variables de interés. A continuación se muestran los experimentos para los

valores de cruce entre 0.5 y 0.95.

Los resultados de las diez pruebas realizadas se muestran en la tabla 3 organizadas por

variables (X, Y, R). Se muestra por cada valor de cruce el resultado de validación de la

función objetivo escogida. El valor resaltado en la tabla es el mejor valor para la prueba

con 1000 generaciones. Entonces para la variable X el mejor resultado se presenta en un

valor de probabilidad de cruce de 0.75, al igual que para la variable Y. Sin embargo, para

R el mejor desempeño del sistema resultó en una probabilidad de cruce de 0.8. En la

figura 36 se muestra una relación entre el desempeño del sistema con respecto a la

variación del valor de cruce para cada variable.

En la figura 36 (a) y (b) existe un tipo de cuenca en el desempeño de búsqueda del

algoritmo con respecto a la variación del parámetro. Se puede observar que tanto para la

figura 36 (a) como para la figura 36 (b) desde el valor de cruce de probabilidad 0.6

comienza a disminuir hasta llegar a un valor mínimo cercano a 0.75. Y luego nuevamente

aumenta a medida que aumenta el valor de probabilidad de cruce. Para la variable R se

presentan dos cuencas pero la mínima se encuentra en el valor de cruce de 0.8.

44

.

Figura 36. Variación de probabilidad de cruce para (a) Variable X, (b) Variable Y y (c) Variable R.

5.2.2.3. Análisis de Entrenamiento para la Probabilidad de

Mutación.

El conjunto de pruebas realizadas en esta sección conciernen a la variación del

parámetro de probabilidad de cruce del algoritmo memético expuesto en el capítulo

anterior. Para este experimento se realizaron un total de 10 pruebas con 1000

generaciones por prueba. Cada prueba tiene un valor de probabilidad de mutación

diferente y se les ha sido modificado el número de reglas para el FIS de acuerdo a los

resultados de la sección 5.2. Además de esto de acuerdo con los resultados de la sección

5.3 el valor asignado a la probabilidad de cruce fue modificado.

Las pruebas realizadas conciernen a los valores de mutación desde 0.01 hasta 0.1 con

una diferencia entre cada variación de 0.01. Esto da como resultado del experimento un

total de diez pruebas. En las figuras 37, 38 y 39 se muestra la evolución de la función

objetivo con respecto a las 1000 generaciones para cada una de las variables (X, Y y R

respectivamente). Cada figura consta de dos secciones y representa el total de diez

pruebas. La primera sección (a) muestra la evolución de la función objetivo con respecto

a los valores de probabilidad de mutación entre 0.01 y 0.05, al igual que la segunda

sección (b) que abarca los valores de probabilidad de mutación entre 0.06 y 0.1.

Figura 37. Función Objetivo de Probabilidad de Mutación para X


45

Figura 38 Función Objetivo de Probabilidad de Mutación para Y


Figura 39 Función Objetivo de Probabilidad de Mutación para R


La figura 37 muestra el desempeño de las pruebas para los diferentes valores de

probabilidad de mutación. Para la sección a de la variable X el mejor desempeño se

presenta para un valor de mutación de 0.02. Sin embargo, en la sección b se puede

observar un mejor desempeño de entrenamiento con el valor de mutación de 0.09 con un

valor de función objetivo menor a 15.05. La variable Y tiene como mejor desempeño de

búsqueda con el valor de mutación de 0.04 con un valor menor a 16.5. Por último, la

variable R tiene su mejor desempeño con un valor de mutación de 0.01.

46

Tabla 4. Resultados de validación de pruebas de probabilidad de mutación

Figura 40. Variación de probabilidad de mutación para (a) Variable X, (b) Variable Y y (c) Variable R





valores de probabilidad de mutación entre 0.01 y 0.1.


variables (X, Y, R). Se muestra por cada valor de probabilidad de mutación el resultado

de validación de la función objetivo escogida. El valor resaltado en la tabla es el mejor

valor para la prueba con 1000 generaciones. Entonces para la variable X el mejor

resultado se presenta en un valor de probabilidad de mutación de 0.09, para la variable Y

se presenta en 0.06. Y para R el mejor desempeño del sistema resultó en una probabilidad

de mutación de 0.04.

En la figura 40 se muestra una relación entre el desempeño del sistema con respecto a

la variación del valor de mutación para cada variable. Se puede observar que para la

variable Y al pasar del valor de 0.06 de probabilidad de mutación comienza a empeorar el

desempeño del algoritmo. En los valores de 0.08 de mutación para la variable X, en 0.1

Valor de mutación X Y R

0.01 17.3215 24.2848 20.8754

0.02 17.6283 23.191 41.9525

0.03 17.118 23.1722 22.1683

0.04 17.2444 23.5905 20.7635

0.05 17.2122 23.3886 20.8621

0.06 17.1842 23.1293 30.0971

0.07 17.1949 23.2405 22.3407

0.08 20.4298 23.3193 21.1143

0.09 16.9378 23.8322 21.7166

0.1 17.0601 24.5499 21.9354

47

para la variable Y y en 0.02 para la variable R se generaron picos donde se ve degradado

el desempeño del algoritmo. Esto, con respecto a las series de tiempo de las variables de

interés.

5.2.2.5. Análisis de Entrenamiento del Tamaño de Población.

El experimento realizado en esta sección abarca la búsqueda del parámetro del tamaño

de población del algoritmo memético explicado en el cuarto capítulo. Se realizaron un

total de 10 pruebas con 1000 generaciones por prueba. Cada prueba cuenta con un

tamaño de población diferente. Comenzando en 10 memes hasta 28 en pasos de a 2 para

completar el total de las 10 pruebas.

En las figuras 41, 42 y 43 se muestra la evolución de la función objetivo con respecto

a las 1000 generaciones para cada una de las variables (X, Y y R respectivamente). Cada

figura consta de dos secciones y representa el total de diez pruebas. La primera sección

(a) muestra la evolución de la función objetivo con respecto a los diferentes tamaños de

poblaciones asumidos entre 10 y 18 memes, al igual que la segunda sección (b) que

abarca los tamaños de población entre 20 y 28 memes.

Figura 41 Función Objetivo diferentes tamaños de población para X

(a) Tamaño de población entre 10 y 18 (b) Tamaño de población entre 20 y 28

48

Figura 42 Función Objetivo diferentes tamaños de población para Y


Figura 43. Función Objetivo diferentes tamaños de población para R


Las figura 41, 42 y 43 muestran el desempeño de las pruebas para los diferentes

tamaños de población por cada una de las variables. Para la variable X el mejor

desempeño se presenta para un tamaño de población de 28 con un valor de función

objetivo cercano a 15.05. En la figura 42 se representan las pruebas llevadas a cabo para

la serie de tiempo de la variable Y. En esta variable (Y) se observa que las funciones

objetivo tienen una menor dispersión que en las demás variables y convergen todas

cercanas a un mismo punto. El mejor resultado de entrenamiento es el de tamaño de

población de 26 encontrado en la sección b de la figura 42. Las pruebas de la variable R

se muestran en la figura 43 en donde el mejor resultado de entrenamiento se presentó

para un tamaño de población de 26.

49

Tabla 5. Resultados de validación de experimento para el tamaño de población.

Figura 44. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable R





diferentes tamaños de población desde 10 hasta 28.

Los resultados del experimento realizado se muestran en la tabla 5 organizadas por

variables (X, Y, R). Se muestra por prueba el resultado de validación de la función

objetivo escogida y el valor resaltado en la tabla es el mejor valor para la prueba con

1000 generaciones. Entonces, para la variable X el mejor resultado fue con una población

de tamaño 28. Este resultado de validación se encuentra en concordancia con el resultado

de entrenamiento que se muestra en la figura 41. El mejor resultado de validación es

23.1258 de la función objetivo con un tamaño de población de 28. Por último, en la

figura 44 se resalta el mejor resultado para la variable R que es con un tamaño de

población de 16.

Número de Reglas Valor de cruce Valor de mutación Tamaño de población

X 4 0.75 0.09 28

Y 12 0.75 0.06 28

R 4 0.8 0.04 16

Tabla 6. Parámetros sintonizados del sistema propuesto

Tamaño de población X Y R

10 17.2739 25.3534 21.3255

12 17.7706 23.284 21.2524

14 16.8441 23.8357 21.932

16 17.0333 23.7789 21.16

18 17.2337 23.28 64.9733

20 17.1254 23.4097 22.136

22 17.2211 23.3321 21.9464

24 17.0751 23.3891 21.4205

26 17.229 23.1525 22.3741

28 16.7537 23.1258 21.2276

50

En la figura 44 se muestra la relación entre el desempeño del sistema representado por

la función objetivo y la variación del tamaño de población para cada una de las variables

de interés. En la figura 44 parte (a) y (b) (variable X y Y) se puede observar que a medida

que se aumenta el tamaño de la población mejora considerablemente el desempeño del

sistema. Sin embargo, la variable R no le corresponde este mismo comportamiento, si se

observa en un tamaño de población de 18 el desempeño se degrada más de tres veces el

promedio del desempeño de los demás tamaños de población.

5.2.3. Análisis de Entrenamiento de Número de Entradas.

En las secciones anteriores se realizaron experimentos para sintonizar los parámetros

escogidos del algoritmo memético como la probabilidad de mutación, la probabilidad de

cruce y el tamaño de la población. Además, también el número de reglas más adecuado

fue sintonizado para el sistema propuesto. En la tabla 6 se muestra como fueron

sintonizados los parámetros según los experimentos realizados anteriormente.

En el conjunto de experimentos realizados en esta sección han sido configurados de

acuerdo a la tabla 6. Ahora, una vez configurados los sistemas de variable se procede a la

selección del número de regresores. Para eso se realizaron un conjunto de experimentos

con el fin de hacer una caracterización del problema con un gran número de pruebas. Se

realizó un experimento de 50 pruebas con 1000 generaciones cada prueba. Se llevaron a

cabo 6 experimentos por cada variable.

A cada experimento se le fue asignado un número diferente de regresores desde 3

hasta 8 regresores para la predicción del dato inmediatamente siguiente a los datos de

entrada. En este caso el número de regresores representa el número de entradas del

sistema propuesto. Se decidió un máximo de 8 regresores ya que en los datos se tomó una

ventana de tiempo de una semana.

A continuación se presenta una recopilación de los resultados de los experimentos

descritos anteriormente. Se muestra entonces la caracterización por cada número de

regresores. Además, se presenta la mejor solución encontrada de la totalidad de los

experimentos para cada una de las variables de acuerdo con la función objetivo.

Adicionalmente, se muestra el índice de correlación entre la serie de tiempo real y la serie

resultante del sistema propuesto. Este índice se representa de manera gráfica por medio

de un diagrama de dispersión. Un diagrama de dispersión está definido por ser una

gráfica de dos variables, siendo estas medidas de manera independiente y graficadas en

un mismo sistema de coordenadas, en este caso cartesianas. Así, el diagrama de

dispersión muestra los valores de cada una de las variables.

Las variables de interés son las series de tiempo reales generadas por el algoritmo de

reorganización de agrupamiento (coordenada X, Y o R) y la serie resultante del sistema

propuesto como la predicción. Por último, se presenta el sistema difuso resultante con sus

51

parámetros y funciones de pertenencia. Sistema por medio del cual se realizó la

predicción para obtener el mejor resultado de cada una de las variables.

5.2.3.1. Análisis de Validación de Experimentos de la Variable X.

Los experimentos realizados para la variable X se presentan a continuación. En la

figura 45 se muestran la totalidad de las pruebas realizadas para cada número diferente de

regresores asumidos para la predicción de la variable. Esta figura presenta la

caracterización del problema para cada regresor, representando de manera gráfica la

distribución de los valores de validación de la función objetivo. Se puede observar que el

mejor resultado para la variable X es dado en los experimentos 5 regresores con un valor

de 16.6123, este es el mejor resultado encontrado para la variable X.

En la figura 46 se muestra el mejor resultado de todos los experimentos realizados

para la variable X. La serie de tiempo azul es la serie generada por el algoritmo de

reorganización de agrupamientos, la serie de tiempo roja es la señal resultante del sistema

propuesto. A primera vista se puede observar una similitud entre la señal real y la

resultante. Pero es necesario obtener una medida de similitud entre las dos señales y para

esto se extrajo la correlación entre una señal y otra la cual da un valor de 0.6082. Donde

el mayor valor es uno, valor en el cual las señales serían exactamente iguales.

En la figura 47 se muestra el diagrama de dispersión para la predicción resultante del

sistema propuesto para la variable X y la serie de tiempo generada por el algoritmo

presentado en la sección 4. El sistema propuesto fue configurado con los parámetros

sintonizados por las pruebas preliminares, parámetros que son mostrados en la Tabla 6

para la variable X y con 5 regresores. En esta figura se puede observar que la nube de

puntos está agrupada cerca a la recta roja. Además, la pendiente de esta nube de puntos

crea una pendiente similar a la variable roja. Esta recta roja es una serie de tiempo y los

puntos azules son los valores de la otra serie de tiempo.

Figura 45. Histogramas de diferente número de regresores para X.

52

Figura 46. Serie de tiempo de variable X.

Figura 47. Diagrama de dispersión Real vs. Predicción

Figura 48. Base de reglas para la variable X.

53

Variable Indice de Correlación POCID RMSE MAPE

X- Contexto I 0.6082 0.4319 0.0733 1.61e-5

Tabla 6.1 Resultados finales

En la figura 48 se muestra la base de reglas con las funciones de pertenencia

sintonizadas por el algoritmo memético. Las filas muestran el número de reglas fijadas a

priori por cada entrada, que en este caso son cinco. En esta figura se muestra el rango y

un ejemplo de los niveles de disparo de cada una de las reglas. Se puede observar que en

este ejemplo para la entrada 5 en la regla 3 no existe función de pertenencia dentro del

rango determinado para el sistema difuso. Gracias al método de sintonización la

interpretabilidad lingüística de estas funciones de pertenencia presentadas se ve

complicada. Sin embargo, utilizando la información dada por la base de reglas se pueden

realizar inferencias del comportamiento del sistema y como pueden llegar a influir las

entradas de ubicaciones en el pasado para determinar la ubicación en el futuro.

El hecho de que exista una correlación entre las predicciones del sistema y los datos de

validación da a entender que existe entonces información muy importante en la ubicación

de los eventos en el pasado. Por ejemplo, en la entrada dos regla dos se puede observar

una función de pertenencia con un rango muy pequeño esto implica que un cambio

pequeño puede afectar de una manera drástica el resultado de salida. Por lo tanto, se

puede decir que la entrada dos es de gran importancia. Sin embargo, si se observa la

entrada uno regla tres un gran cambio en la entrada no genera grandes cambios en los

valores de pertenencia de esa regla y por lo tanto se puede deducir una menor

importancia de esa entrada en la salida del sistema. Como inferencia final, al observar en

conjunto las entradas y los conjuntos difusos asociados a estas se puede afirmar que hay

un fenómeno de crimen que depende del pasado.

5.2.3.2. Análisis de Validación de Experimentos de la Variable Y.

A continuación se muestran los resultados de validación de los experimentos

realizados para la variable Y. La figura 49 muestra los histogramas de las pruebas

realizadas para cada experimento de la variación del número de regresores. Se presenta

por medio de los histogramas la caracterización del problema para cada regresor,

representando de manera gráfica la distribución de los valores de validación de la función

objetivo. Al igual que para la variable X en la variable Y también se encontró que para el

número de 5 regresores. Esto, con un valor de función objetivo de 22.4895.

54

Figura 49. Histogramas de diferente número de regresores para Y

Figura 50. Serie de tiempo de variable Y.


55

Figura 52. Base de Reglas para la variable Y.


Y- Contexto I 0.4488 0.4543 0.0953 1.373e-4

Tabla 6.2 Resultados finales variable Y.

Ya que se desea medir la similitud existente entre las dos señales se extrae el índice de

correlación que en este caso es de 0.4488. Y, en la figura 50 se presenta el mejor

resultado de todos los experimentos realizados para la variable Y. Al igual que la figura

46 la serie de tiempo azul es generada por el algoritmo del capítulo 4.

El diagrama de dispersión se presenta en la figura 51. Este es el diagrama resultante

del sistema propuesto para la variable Y. El sistema propuesto fue configurado en la

Tabla 6 para la variable Y y al igual que para X se le asignaron un total de 5 regresores.

Se puede observar que la nube de puntos azules tiende a ubicarse a lo largo de la recta

roja. Esto indica que existe una relación entre las variables en cuestión. Para este caso la

predicción de Y y la variable real.

En la figura 52 se muestra la base de 12 reglas de la variable Y que fueron

sintonizados por el algoritmo memético del mejor resultado de la totalidad de los

experimentos. Se puede observar que para la entrada 5 desde las reglas #3 a las regla #8

las funciones de pertenencia tienen muy poca influencia en los valores positivos.

Además, se puede observar que la regla 7 no tiene influencia alguna sobre el rango

predeterminado del sistema para la variable Y.

5.2.4.Análisis de Validación de Experimentos de la Variable R.

Los experimentos realizados para la variable R se presentan a continuación. Los

histogramas que se muestran en la figura 53 son la recopilación de la totalidad de los

experimentos realizados para la variable R. Estos experimentos son con el fin de

determinar el número de regresores adecuados para el sistema propuesto cuando la

56

variable de interés es R. Entonces, por medio de los histogramas se presenta la

caracterización del problema para cada regresor, representando de manera gráfica la

distribución de los valores de validación de la función objetivo. A diferencia de las

variables X y Y, en R no se obtuvo el mismo número de regresores. Para este caso el

mejor resultado se encontró en 8 regresores.

El mejor resultado en 8 regresores es un valor de función objetivo de 20.8627. En la

figura 54 se muestra la predicción del sistema (rojo) y la señal real que es el radio del

agrupamiento encontrado por el algoritmo de reagrupación. Se halló el índice de

correlación como medida de similitud entre las dos señales. Este valor resultó en 0.489,

en la figura 55 se muestra el diagrama de dispersión entre ambas series de tiempo. Como

se puede observar en esta figura la nube de puntos es mucho más dispersa que en los

experimentos de las anteriores variables. Esto es debido a los bruscos cambios presentes

en la señal R. Aunque estos puntos son más dispersos es posible observar una

concentración de puntos en la primera mitad de la recta roja. Esto da indicios de la

existencia una relación entre ambas series de tiempo.

Figura 53. Histograma de diferente número de regresores para la variable R.

Figura 54. Serie de tiempo de variable R.

57


Figura 56 Base de reglas para la variable R.


R- Contexto I 0.489 0.3981 0.1405 0.0234

Tabla 6.3. Resultados finales variable R.

La base de reglas de la variable R se muestra en la figura 56. La base de reglas tiene

las ocho entradas para las cuales se encontró el mejor resultado mostrado en la figura 56.

Se puede observar que la entrada 2 tiene muy poca influencia ya que sus funciones de

pertenencia se encuentran centradas en las partes negativas. También, se puede observar

esto en la primera regla para las entradas 5,6 y 7 donde los niveles de disparo de las

funciones de pertenencia son mínimos para valores positivos. Llevando a concluir que

para la primera regla es más importante la información que aportan las entradas más

próximas en tiempo al dato que se quiere predecir. Es importante recalcar que para esta

variable se deben tener en cuenta una mayor cantidad de entradas al sistema. Esto es

debido a que se encontró que el mejor resultado se presentó con mayor información del

pasado. Lo que implica que esta variable de radio de acción es altamente dependiente de

acciones criminales desde hasta 8 días.

58

5.3. Contexto II

En este punto se presentan todas las pruebas realizadas para la primera organización

de la base de datos. Donde hay una agrupación de 30 días de crímenes con una diferencia

de 7 días como el delta de tiempo para la construcción de la serie de tiempo, esta

agrupación es también explicada en la sección 3.3. Se presenta además la serie de tiempo

a predecir en la figura 21. Al igual que en el contexto I se presenta la forma en que se

realizaron los experimentos para determinar la mejor predicción para esta forma de

agrupación.

5.3.1. Comparación de Número de reglas

Mediante este experimento se pretende definir el número de regiones de decisión

representadas por las funciones de pertenencia del antecedente y el consecuente (i.e.

reglas) del sistema difuso. Se propone hacer pruebas con diferente número de reglas y

observar la evolución de la función objetivo por prueba. Se realizaron un total de 10

pruebas para 4, 6, 8, 12 y 16 reglas para cada una de las variables de interés.

5.3.1.1. Análisis de Datos de Entrenamiento.

El entrenamiento realizado para determinar el número de reglas adecuadas para cada

una de las variables de interés de este contexto se muestra en la figura 57. En esta figura

se presentan los mejores desempeños de entrenamiento para cada número de regla

determinado. Un total de 6 representaciones de desempeño de la función objetivo en el

total de las generaciones.

Figura 57 Función Objetivo de Número de Reglas

(a) Para X (b) Para Y (c) Para R

59

Número de reglas X Y R

4 11.9342 13.6741 29.2315

6 11.8726 13.9189 29.8845

8 11.9628 13.8476 31.139

12 11.9571 13.8395 30.7488

16 11.9504 13.5097 30.5889

Tabla 7 Resultados de variación de Número de Reglas

Figura 58 Variación de número de reglas para (a) Variable X, (b) Variable Y y (c) Variable R.

En la figura 57 (a) se muestra la mejor evolución en el entrenamiento con diferente

número de reglas para la variable X. En esta figura se puede observar que el mejor

resultado de entrenamiento al final de las 1000 generaciones es para 4 reglas (Azul claro)

con un valor de función objetivo cercano a 13.9. Para la variable Y (figura 57 (b)) se

muestra que el mejor desempeño fue dado en las 16 reglas (color verde) con un valor

entre 14.1 y 14.05. Por último, en la figura 57 (c) se muestran los resultados de

entrenamiento de la variable R donde su mejor desempeño es para 16 reglas que luego de

aproximadamente 10 generaciones llegó a un valor cercano a 18.2. En general se puede

observar para cada variable hay un grupo de pruebas que tienden a converger a valores

cercanos y unas pocas pruebas que tienden por debajo de la tendencia de convergencia.


Una vez realizados los entrenamientos para las diferentes pruebas del número de

reglas se validan los resultados con el 30% de la base de datos que no ha sido mostrada al

sistema. En la tabla 7 se muestran los mejores resultados de validación para cada prueba

con un número de reglas diferente. Adicionalmente, resaltado está el menor valor y el

escogido como valor adecuado para la configuración del sistema de inferencia difusa. En

este caso para la variable X se escogió un número de 6 reglas, para Y 16 reglas, y para R

4 reglas. Esta configuración se mantiene en el total de las siguientes pruebas.

60

En la figura 58 se muestra el desempeño del sistema con respecto a la variación del

número de reglas desde 4 a 16 reglas para cada una de las variables de interés. En (a) se

puede observar que existe una gran disminución en 6 reglas y luego un gran aumento que

aunque a medida que incrementa el número de reglas mejora el desempeño sigue

manteniéndose muy por encima del desempeño de 6 reglas. Para Y al aumentar el

número de reglas el desempeño en general mejoró y el mejor resultado fue en 16 reglas.

Por último, se puede observar la tendencia en la variable R que a medida que se

incrementa el número de reglas el desempeño empeora.

5.3.2. Comparación de Variables del Algoritmo Memético.

En esta sección se presentan los experimentos concernientes con la definición de las

variables del algoritmo memético explicado en la sección 4 con el sistema propuesto. Las

variables a definir son la probabilidad de cruce, la probabilidad de mutación y el número

de la población solución. En cada uno de los experimentos se realizaron 10 pruebas, cada

prueba con un valor diferente de las variables del algoritmo. Los valores de cada

parámetro se especifican en las siguientes secciones.

Y por medio de estas pruebas se propone encontrar la mejor configuración de

búsqueda del algoritmo memético de acuerdo al mejor desempeño con los datos de

validación de 10 pruebas con 1000 generaciones por prueba. Esto se realiza sintonizando

los parámetros de acuerdo al resultado de pruebas preliminares variando los parámetros

de interés ya dichos en esta sección.

5.3.2.1. Análisis de entrenamiento para la probabilidad de cruce.

El conjunto de pruebas realizadas en esta sección se realizan para determinar el valor

de probabilidad de cruce adecuado para el problema en cuestión. Para esto se realizan

pruebas de 1000 generaciones, cada prueba tiene un valor de cruce diferente. Una vez

obtenidas todas las pruebas se realiza una comparación con el fin de determinar el mejor

valor para la búsqueda de la predicción de las variables de interés de crimen en la ciudad.

61

Figura 59 Función Objetivo de Probabilidad de Cruce para X


Figura 60 Función Objetivo de Probabilidad de Cruce para Y


Figura 61 Función Objetivo de Probabilidad de Cruce para R


62

En las figuras 59, 60 y 61 se muestra el entrenamiento para cada valor de cruce

diferente. Este entrenamiento fue de 1000 generaciones por prueba, donde cada prueba se

refiere a un valor diferente de probabilidad de cruce desde 0.5 a 0.95 con diferencia entre

prueba de 0.05. La sección a de cada figura muestra las pruebas desde 0.5 a 0.7 y la

sección b muestra de 0.75 a 0.95. Para la variable X se puede observar que las pruebas

todas convergen aproximadamente a las 100 generaciones. Para la variable Y se puede

observar que el mejor desempeño se presenta para el valor de probabilidad de cruce 0.7

con un valor de función objetivo por debajo de 14.1. Finalmente, se puede observar en la

figura 61 que para la variable el mejor desempeño de entrenamiento se encontró para el

valor de probabilidad de cruce de 0.6 convergiendo en un valor de función objetivo de

17.


En la Tabla 8 se muestran los valores obtenidos del desempeño de cada prueba con

respecto a la función objetivo. Estos estadísticos fueron medidos con los datos de

validación de cada una de las variables de interés. A continuación se muestran los

experimentos para los valores de cruce entre 0.5 y 0.95.


variables (X, Y, R). Se muestra por cada valor de cruce el resultado de validación de la

función objetivo escogida. El valor resaltado en la tabla es el mejor valor para la prueba

con 1000 generaciones. Entonces para la variable X el mejor resultado se presenta en un

valor de probabilidad de cruce de 0.85. Como se puede observar, para Y el mejor

desempeño del sistema resultó en una probabilidad de cruce de 0.7, al igual que para R.

Probabilidad de Cruce X Y R

0.5 11.9971 14.171 40.8942

0.55 11.9867 14.0843 30.4683

0.6 11.9908 13.9838 43.3138

0.65 11.9777 14.2277 42.0632

0.7 11.9872 13.761 27.5142

0.75 11.9875 14.0488 33.8138

0.8 11.9901 13.7748 30.6346

0.85 11.9606 13.9105 32.8436

0.9 11.9857 13.971 31.9382

0.95 11.9888 13.9681 29.3322 Tabla 8. Resultados de validación de probabilidad de cruce.

63

Figura 62. Variación de probabilidad de cruce para (a) Variable X, (b) Variable Y y (c) Variable R.

En esta se muestra el desempeño que presentó el algoritmo memético con respecto a la

variación del valor de probabilidad de cruce. En la parte (a) de esta figura se presenta la

variable X donde se puede observar visualmente que el mejor desempeño está en 0.85.

Para Y el mínimo está en 0.7 y luego se observa que comienza a deteriorarse el

desempeño al aumentar el valor de cruce. Al igual que en Y para R en la parte (c) de la

figura el mejor desempeño está en 0.7 y aunque al aumentar la valor de probabilidad

después de 0.8 se comienza a presenciar mejoras con respecto a 0.75 no alcanza a superar

a el desempeño en 0.7. Por lo tanto, se escogen cada uno de estos valores de cruce que

son resaltados en la tabla para así continuar con el proceso de sintonización de

parámetros.

5.3.2.3. Análisis de Entrenamiento para la Probabilidad de

Mutación.

El conjunto de pruebas realizadas para determinar el valor de probabilidad de

mutación sigue el mismo esquema que para la determinación del parámetro de cruce.

Entonces se realizan 10 pruebas con 1000 generaciones. Cada prueba corresponde a un

valor de mutación diferente desde 0.01 hasta 0.1 con diferencias entre cada prueba de

0.01.

64

Figura 63. Función Objetivo de Probabilidad de Mutación para X

(a)Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1

Figura 64. Función Objetivo de Probabilidad de Mutación para Y


Figura 65. Función Objetivo de Probabilidad de Mutación para R


65

En las figuras 63, 64 y 65 se muestra el desempeño de entrenamiento a través de las

1000 generaciones en las que se corrió el algoritmo memético. Estas figuras están

separadas en dos secciones. La primera o sección a muestra la evolución de las pruebas

con valores de probabilidad de mutación entre 0.01 y 0.05 y la sección b muestra las

pruebas con valores desde 0.06 hasta 0.1. En la figura 63 se puede observar que para la

variable X el mejor desempeño se presentó para la línea roja para un valor de 0.02. Al

observar la figura 64 se puede deducir que el mejor resultado de entrenamiento para la

variable Y se encuentra en 0.07 y en la figura 65 se muestra en azul claro el mejor

resultado en la sección b de la figura con un valor de 0.06 para la variable R.





valores de probabilidad de mutación entre 0.01 y 0.1. En esta tabla se encuentran

resaltados los valores con mejor desempeño de validación con la variación del valor de

probabilidad de cruce. En este caso se puede observar que para la variable X el mejor

valor de mutación es en 0.02 con un desempeño de 11.9651. El mejor resultado de la

variable Y está en 0.07 con un valor de función objetivo de 13.6969 y la variable R con

un valor de función objetivo de 29.7495 tiene el mejor desempeño con un valor de

probabilidad de mutación de 0.1.

Probabilidad de Mutación X Y R

0.01 11.9745 14.1398 35.7319

0.02 11.9651 14.0848 30.7645

0.03 11.985 14.0591 31.3942

0.04 11.9846 13.9383 33.423

0.05 11.9661 14.2262 37.9698

0.06 11.9819 13.9912 36.5797

0.07 11.9748 13.6969 31.3791

0.08 11.9875 13.8914 35.0836

0.09 11.9678 13.9472 36.0626

0.1 11.9767 14.0201 29.7495 Tabla 9. Resultados de validación para experimento de probabilidad de mutación.

66

La figura 66 muestra gráficamente los resultados de la tabla para que visualmente se

puede observar la relación entre el desempeño de la función con la variación del valor de

probabilidad de cruce. Al comparar estos resultados de validación con los resultados de

entrenamiento se puede observar una diferencia entre los desempeños de la función

objetivo. Sorprendentemente para la variable los valores de función objetivo no bajan de

14. Sin embargo en los resultados de validación se encuentran los valores por debajo de

12, lo cual significa que existe una mejor correlación y el aprendizaje se llevó a cabo. Y

también se observa que el mejor entrenamiento mostrado en la figura 63 que es para un

valor de 0.02 concuerda con los resultados de validación.

En el caso de la variable Y los valores de la función objetivo en la validación y en el

entrenamiento son bastante cercanos el menor valor de entrenamiento de Y para estas

pruebas fue 14.0744 y en validación fue 13.6969 una diferencia de 0.3775, aunque se

mantiene que en el entrenamiento el mejor resultado fue para un valor de mutación de

0.07 al igual que para la validación del sistema.

Figura 66. Variación de la probabilidad de mutación para (a) Variable X, (b) Variable Y

(c)Variable R

A diferencia de las demás variables en la variable R si se deteriora el desempeño en

cuanto a la función objetivo pues como se observa en la figura 65 se puede observar que

las pruebas de entrenamiento convergen en valores de función objetivo cercanos a 18 y

19 pero en la tabla 9 se muestra que los valores de función objetivo aumentan hasta

37.9698 y donde el mejor desempeño de validación es de 29.7495. Además, no se

mantuvo que el mejor resultado de entrenamiento (0.06) ya que en la validación el mejor

desempeño se encuentra en 0.1.

67

5.3.2.5. Análisis de Entrenamiento para el Tamaño de la

Población.

El experimento explicado en esta sección muestra el proceso que se realizó para

determinar el valor del parámetro de tamaño de población del algoritmo memético. Se

realizaron un total de 10 pruebas con 1000 generaciones al igual que para los otros

parámetros. Cada prueba tiene un tamaño de población diferente desde 10 a 28 con una

diferencia de tamaño de 2 memes entre cada prueba.

Las figuras 67, 68 y 69 muestran el entrenamiento con los diferentes tamaños de

población. En la sección a de cada figura muestra la evolución de la población de 10 a 18

y la sección b es de 20 a 28. En la figura 67 (a) el mejor desempeño se muestra para una

población de 26 memes con un valor cercano a 14.04 de función objetivo. Al igual que en

casos anteriores el punto de convergencia de la variable X es muy cercano para todas las

pruebas realizadas en este y en los experimentos anteriores para este contexto.

Figura 67. Función Objetivo diferentes tamaños de población para X


68

Figura 68. Función Objetivo diferentes tamaños de población para Y


Figura 69 Función Objetivo diferentes tamaños de población para R


Para la variable Y se muestra que el mejor resultado se presentó para una población de

14 memes. En esta variable hay una mayor dispersión en los puntos de convergencia

después de las 1000 generaciones de entrenamiento. Por último, la figura 69 muestra los

resultados de entrenamiento de la variable R. Ya que las funciones objetivos luego de

todas las generaciones de entrenamiento no están tan dispersas como para la variable Y se

puede identificar que los tres mejores entrenamientos son para una población de 20 con

un valor de 17.9420, de 22 con un valor de función objetivo de 17.9396 y de 28 con un

valor de 17.9561. Siendo entonces el mejor resultado de entrenamiento para 22 memes

como el tamaño de la población.

69

5.3.2.6. Análisis de resultados de validación. En la Tabla 10 se muestran los valores obtenidos para cada uno de los estadísticos de

la función objetivo. Estos estadísticos fueron medidos con los datos de validación de cada


diferentes tamaños de población desde 10 hasta 28.

Los resultados del experimento realizado se muestran en la tabla 10 organizados por

variables (X, Y, R). Se muestra por prueba el resultado de validación de la función

objetivo escogida y el valor resaltado en la tabla es el mejor valor para el entrenamiento

de 1000 generaciones. Entonces, para la variable X el mejor resultado fue con una

población de tamaño 24. Este valor de tamaño de población para el resultado de

entrenamiento que se muestra en la figura 67 (b) es la evolución de la función en amarillo

que está dentro de los mejores resultados de entrenamiento menores a 14.05. El mejor

resultado de validación es 11.8948 de la función objetivo que al igual que en los

anteriores experimentos es menor que la función de entrenamiento. A continuación, se

presenta en la figura 70 (b) como varía el desempeño de acuerdo al aumento en el tamaño

de población. En esta figura se puede observar que existe un mínimo valor el cual es el

mejor desempeño de población de 14 con un valor de función objetivo de 13.6791 que

además se muestra en la tabla 10 para la variable Y. Por último, se presentan los

resultados de la variable R, en este caso el mejor resultado de validación que se muestra

en la tabla es para un tamaño de población de 20. En la sección anterior este valor de

población se encontraba dentro de los mejores resultados de entrenamiento. En la figura

70 (c) se muestra gráficamente la disminución en este tamaño de población con respecto

a los demás.

Tamaño de población X Y R

10 11.9865 13.9433 35.3606

12 11.9486 14.2639 36.0611

14 11.9801 13.6791 33.2279

16 11.9827 14.0776 34.5834

18 11.977 14.0737 29.1198

20 11.9585 14.0328 28.9517

22 11.9884 14.2124 34.2018

24 11.8948 14.2245 36.0381

26 11.9203 14.1098 32.33

28 11.9723 13.9655 30.0991 Tabla 10. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable R

70

Figura 70. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable R.

5.4. Análisis de Entrenamiento de Número de Entradas

En las secciones anteriores se presentó la recopilación de todos los resultados de la

sintonización de los parámetros del algoritmo memético tal como la probabilidad de

mutación, la probabilidad de cruce, tamaño de población y número de reglas. En la tabla

11 se muestran los valores de estos parámetros escogidos para cada variable de interés

que como resultado dieron el mejor resultado de validación para la predicción.

En esta sección se presenta la metodología usada para encontrar el mejor número de

entradas o regresores adecuado para la predicción de X, Y y R. Una vez configurados los

sistemas con los parámetros sincronizados de variable se procede a la selección del

número de regresores. Para eso se realizaron un conjunto de experimentos con el fin de

hacer una caracterización del problema con un gran número de pruebas. Se realizó un

experimento de 50 pruebas con 1000 generaciones cada prueba. Se llevaron a cabo 6

experimentos por cada variable con el número de regresores variando desde 3 regresores

a 8 regresores.

A cada experimento se le fue asignado un número diferente de regresores desde 3

hasta 8 regresores para la predicción del dato inmediatamente siguiente a los datos de

entrada. En este caso el número de regresores representa el número de entradas del

sistema propuesto.

Número de

Reglas

Valor de cruce Valor de

mutación

Tamaño de

población

X 6 0.85 0.02 24

Y 16 0.7 0.07 14

R 4 0.7 0.1 28

Tabla 11. Parámetros sintonizados del sistema propuesto.

71

En la siguiente sección se presenta una recopilación de los resultados de los

experimentos descritos anteriormente. Se muestra entonces la caracterización por cada

número de regresores. Adicionalmente, se presenta la mejor solución encontrada de la

totalidad de los experimentos para cada número de regresores escogido. Adicionalmente,

se muestra el índice de correlación entre la serie de tiempo real y la serie resultante del

sistema propuesto. Este índice se representa de manera gráfica por medio de un diagrama

de dispersión. Las variables de interés son las series de tiempo reales generadas por el

algoritmo de reorganización de agrupamiento (coordenada X, Y o R) y la serie resultante

del sistema propuesto como la predicción. Por último, se presenta el sistema difuso

resultante con sus parámetros y funciones de pertenencia. Sistema por medio del cual se

realizó la predicción para obtener el mejor resultado de cada una de las variables.

5.4.1. Análisis de validación de experimentos de la Variable X.

A continuación se presenta la recopilación de los experimentos realizados para la

variable x. Primero, se hace una caracterización de las pruebas realizadas para cada valor

de regresor anteriormente establecido. En la figura 71 se muestra esta caracterización

para de 3 a 8 regresores. En esta figura se puede observar que la distribución de cada

prueba realizada se asemeja a una campana gaussiana. Adicionalmente, se puede

observar que el mejor resultado es para 5 regresores con un valor de función objetivo

obtenido de 11.824. Este es el mejor resultado encontrado para la variable X del contexto

II.

Figura 71. Histograma de número de regresores.

72

Figura 72. Serie de tiempo para Variable X. Real (Azul), Predicción (Roja).

En la figura 72 se muestra la gráfica de los datos de validación (azul) de la variable X y la

predicción resultante del mejor sistema encontrado para 5 regresores. A simple vista se

puede observar una fuerte relación entre estas dos series de tiempo. Con el fin de asegurar

esta afirmación se pasa al diagrama de dispersión que da un acercamiento visual entre

estas dos series de tiempo. Este diagrama de dispersión se muestra en la figura 73. Como

se puede observar en esta figura los puntos azules, que representan una variable, se

extienden de manera muy cercana a la línea roja. En este diagrama entre más cercanos

estén los puntos azules de la línea roja mayor correlación existe entre las dos variables.

Adicionalmente también se encuentra el valor de correlación entre las dos variables el

cual resultó de 0.8589.

Figura 73. Diagrama de dispersión de variable X real y predicción

73

Figura 74. Base de reglas resultante para X.


X- Contexto II 0.8589 0.5524 0.0998 8.402e-6

Tabla 11.1. Resultados finales para la variable X.

Por último, se presenta el sistema sintonizado con el cual es posible la obtención de

estos resultados. En la figura 74 se muestra la base de reglas resultante gracias a la

sintonización de los parámetros de los conjuntos difusos realizada por medio del

algoritmo memético. Se puede observar que existen varias reglas en esta figura que

pueden ser eliminadas ya que no están influyendo en el resultado. Pues, por ejemplo la

regla 1 y la entrada 2 solo tienen función de pertenencia en la parte negativa y debido a

que nunca habrá una entrada negativa esta regla nunca influirá en el resultado del centro

final. Esto sucede igual para varios conjuntos, en trabajos futuros se puede proceder a

eliminar estas reglas para disminuir el número de reglas.

De este fenómeno se puede entender que los sucesos criminales del pasado tienen una

alta incidencia en los sucesos futuros. Esto es lo que permite que sea posible generar una

predicción. Usando estas predicciones para mejorar y convertir el uso de recursos

policiales en un método más eficaz que el que se es implementado. Así, cambiando rutas

de patrulla de acuerdo a las predicciones y generando un sistema de patrullas más flexible

que intente asemejarse a la adaptabilidad que presentan las bandas criminales y la

facilidad en la toma de decisiones de estos a la ubicación de sus próximos victimarios.

5.4.2. Análisis de resultados para la variable Y.

En esta sección se recopilan y se explican los diferentes experimentos realizados para

la variable Y. La figura 75 muestra los histogramas para los diferentes números de

regresores. Estos histogramas representan la caracterización del problema por cada

regresor, esta caracterización muestra la distribución de resultados de validación de la

función objetivo. El mejor resultado para la variable Y es con 3 regresores y un valor de

74

función objetivo de 13.2591. En la figura 76 se muestra la predicción generada por el

sistema sintonizado y la serie de tiempo real, se puede observar que aunque existe una

similitud entre las dos series después del tiempo 100 la serie tiene un pico que no sigue el

sistema. Para mejorar estos picos que son de alta incertidumbre por la rareza con la que

ocurren se puede buscar un sistema que intente modelar estos eventos. Este sistema

podría estar junto al sistema ya encontrado por el algoritmo memético.

Figura 75. Histogramas de diferente número de regresores para Y.

Figura 76. Serie de tiempo variable Y

75

Figura 77. Diagrama de dispersión Real vs Predicción para Y.

Figura 78. Base de reglas para la variable Y.


Y- Contexto II 0.7651 0.5172 0.0978 5.191e-5

Tabla 11.2. Resultados finales para variable Y.

Para determinar la similitud se realizó el diagrama de dispersión de la predicción y la

serie de tiempo generada por el algoritmo de reorganización de agrupamientos. Este

diagrama se muestra en la figura 77. Allí, se observa que la nube de puntos azules se

76

encuentra cercana a la línea roja rodeándola y mostrando que existe una similitud entre

las dos variables de interés en este diagrama. Para ratificar esta visualización de similitud

se halló el coeficiente de correlación que fue de 0.7651 donde la unidad es una máxima

correlación entre variables. En la figura 78 se muestra la base de 16 reglas de la variable

Y que fueron sintonizados por el algoritmo memético del mejor resultado de la totalidad

de los experimentos.

5.4.3. Análisis de Validación de la Variable R. A continuación se presentan los experimentos realizados para la determinación del

número de entradas de la variable R. En la figura 79 se muestran los histogramas de los

resultados de validación de las 50 pruebas por número de regresor. Ya que estos

experimentos se realizaron para determinar el número de entradas al sistema, al mostrar

todos los histogramas se puede observar el mejor desempeño resultante con la referencia

de la función objetivo. El mejor desempeño es para 3 regresores con un valor de función

objetivo 25.1973.

Figura 79. Histogramas de la variable R

77

Figura 80. Serie de tiempo de variable R

Figura 81. Diagrama de dispersión de la variable R.

En la figura 80 se muestra la predicción generada por el sistema difuso sintonizado por

el algoritmo memético (Rojo) y la serie de tiempo real. Se puede observar que aunque la

predicción tiene en general las mismas oscilaciones que la serie generada por el algoritmo

de reorganización pero no alcanza a predecir la misma amplitud de este. Esto puede ser

debido a que los cambios en R son muy grandes en poco tiempo y eso hace que se

dificulte la predicción. Debido a este inconveniente de amplitud se espera una menor

relación entre las dos series de tiempo. En la figura 80 se muestra el diagrama de

dispersión donde efectivamente se visualiza que las nubes de puntos están mucho más

dispersas a comparación de las otras variables de interés X y Y.

78

En el diagrama de dispersión de la figura 81 se presenta la relación entre las variables

mostradas en la figura 80. Se observa que aunque hay una gran dispersión de puntos en el

medio de las variables se presenta una amplía dispersión de puntos que representa lo

lejano de la amplitud a la realidad. Para ratificar esta ayuda visual de relación entre

variables nuevamente se halla el coeficiente de correlación que en este caso resultó de

0.3393, este coeficiente de correlación es 55.65% menor a el coeficiente de correlación

de Y y 60.49% con respecto a X.

La base de reglas para la variable R se muestra en la figura 82. En este sistema difuso

se puede observar que en la regla 3 para la entrada 3 no se encuentran valores de

pertenencia para el conjunto difuso. Por lo tanto el efecto de la entrada 3 en la regla 3 es

insignificante y puede ser obviado. El trabajo de disminución de reglas no se abarca en

este proyecto, aunque se encuentra dentro de las consideraciones a trabajo futuro pues se

puede mejorar aún más los resultados finales de estas predicciones.

Figura 82. Base de Reglas para R


R- Contexto I 0.4062 0.4345 0.2232 0.027

Tabla 11.3. Resultados finales para R

5.5. Recopilación y Comparación de Resultados

En este capítulo se presentó la recopilación de los experimentos realizados para las

diferentes variables de interés encontradas del algoritmo de reorganización de

agrupamientos. Estos experimentos se dividieron en dos contextos. El primer contexto

consta del agrupamiento de la base de datos por semanas donde se avanza en el tiempo

con diferencia de un día. Y el segundo contexto es un agrupamiento de la base de datos

79

por meses y se avanza en el tiempo por diferencias de 7 días. Se realizó entonces la

predicción de estos dos contextos determinados.

Por medio del sistema propuesto se generaron diferentes pruebas para determinar la

mejor configuración de este. Estas pruebas ayudaron a determinar los parámetros

adecuados para mejorar la búsqueda del algoritmo memético (cruce, mutación y

población) y del sistema difuso (número de reglas). Una vez realizadas todas estas

pruebas se realizaron los experimentos finales para determinar el número de entradas

adecuadas para el sistema propuesto dependiendo de la variable que se trabajara.

Como se muestra en la tabla 11, el contexto I presentó que para X y Y se necesitan 5

entradas de los datos inmediatamente anteriores para la predicción. Para R es necesario 8

entradas de los datos inmediatamente anteriores. Y para el contexto II, para X se obtuvo

el mejor resultado con 5 regresores. Para Y al igual que para R el mejor resultado se

obtuvo para 3 regresores. En esta tabla también se presenta que el mejor desempeño del

sistema es el de contexto II para la variable X. Como se pudo observar en la figura 72 las

tendencias que se presentan en esta variable de una manera más suave lo que facilita la

predicción. Estas tendencias son más pues los intervalos de tiempo que se tomaron son

más grandes y se están tomando en cuenta las tendencias con semanas de diferencia y no

días de diferencia.

X Y R

Contexto I Contexto II Contexto I Contexto II Contexto I Contexto II

Número de

reglas 4 6 12 16 4 4

Número de

entradas 5 5 5 3 8 3

Función

Objetivo 16.6123 11.824 22.4895 13.2591 20.8627 25.1973

Índice de

correlación 0.6082 0.8589 0.4488 0.7651 0.489 0.3393

Tabla 11. Comparación de resultados de contextos I y II.

80

Capítulo 6

Conclusiones y trabajo futuro

6.1. Resumen

En este trabajo se presentó y se implementó una metodología de análisis, extracción y

predicción de patrones criminales utilizando una base de datos de uso libre de la ciudad

de San Francisco. El desarrollo de este proyecto surgió a partir de la creciente

problemática de la actividad criminal en todas las ciudades. Además, la fuerza pública se

ve en la necesidad de encontrar nuevas opciones de análisis y predicción que soporten la

toma de decisiones con el fin de optimizar los recursos de la misma.

En primer lugar se realizó un acondicionamiento de la base de datos. Ésta, fue

organizada por ventanas de tiempo. El proceso de separación por ventanas de tiempo se

realizó para generar una dinámica espaciotemporal inherente a los datos, adicional a las

coordenadas de cada uno de los crímenes registrados. Esta variable temporal se tomó de

manera lineal con ventanas de siete días y también de manera estacional con ventanas de

los días de la semana (Lunes a Domingo) por año y también los crimines registrados en

cada hora del día por año. Adicionalmente, se tomó la variable temporal con una ventana

mucho mayor (30 días) y diferencias entre ventanas de 7 para encontrar tendencias en una

escala temporal mayor.

Al realizar el acondicionamiento de la base de datos se separan los datos por ventanas

de tiempo generando así una agrupación temporal de los mismos. Esta agrupación de

datos de cada ventana de tiempo se realizó por medio del algoritmo FCM. Y, con el fin

de que las series de tiempo generadas al unir las ventanas de tiempo fuesen consistentes

se creó el algoritmo de reorganización de agrupamientos. Con este algoritmo se realizó la

extracción de las variables de interés que representan la dinámica espaciotemporal de los

agrupamientos encontrados.

Adicionalmente, se realizó un conjunto de experimentos para sintonizar los parámetros

del sistema propuesto. Determinando así el número de reglas, la probabilidad de cruce, la

probabilidad de mutación, y el tamaño de la población de soluciones y el número de

regresores como entradas del sistema. Estos parámetros fueron encontrados para cada una

de las variables de interés. Una vez realizados todos los experimentos se recopilaron

todos los resultados y se presentó el mejor desempeño para X, Y y R. En general, se

observó que todas para todas las variables fue posible una predicción con un índice de

correlación mayor a 0.45 para el contexto I de experimentos.

81

Para el contexto II de experimentos el centro tuvo una predicción considerablemente

mejor de 0.8589 para X y 0.7651 para Y aunque un deterioro del desempeño de R que

como mejor resultado de correlación se encontró 0.3393. De estos resultados se puede

inferir que en una escala de tiempo mayor la dinámica del crimen es algo menos volátil y

por lo tanto más predecible. En el primer contexto donde la escala de tiempo es mejor se

puede observar como fluctúan más las series de tiempo de las variables de interés. Siendo

esto una dificultad al momento de realizar una predicción.

6.2. Aportes Originales.

De acuerdo con el conocimiento adquirido en técnicas de inteligencia computacional y

análisis de la dinámica espacio-temporal de patrones criminales esta es la primera

propuesta de agrupación de dato s para crear series de tiempo de agrupamientos. En

este caso, de crimines de robos de casa. Adicionalmente, en la literatura consultada no se

encontraron métodos de predicción por medio de técnicas de inteligencia computacional

como lo son los algoritmos meméticos para la sintonización de sistemas difusos.

Además, se propuso y se implementó un algoritmo de reorganización de

agrupamientos. Creado para asegurar la consistencia de la propuesta del análisis de la

dinámica espacio-temporal del crimen. Así, pudiendo extraer por medio de tres variables

el comportamiento general de los agrupamientos encontrados y organizados.

En el capítulo 2 se presentan puntos de acercamiento al crimen como sucesos

puntuales donde la variable de tiempo es agregada por medio de un factor de frecuencia

en lugares específicos y por medio de esto determinan la posibilidad de ocurrencia en el

futuro y organizando las patrullas policiales de acuerdo a estas frecuencias [8]. En este

trabajo se toman los sucesos en una línea temporal y se intenta obtener una dinámica

espaciotemporal del crimen. Esta dinámica se representa por medio de las series de

tiempo creadas. Y gracias a estas series de tiempo es posible generar un modelo para la

predicción de la dinámica generada al agregar la variable temporal.

La propuesta metodológica de mantener la consistencia del análisis espaciotemporal

ha sido sometida a consideración. La cual aceptada por expertos de la inteligencia

computacional y específicamente en métodos de agrupamientos en el siguiente artículo

ya publicado en el Congreso Mundial de Inteligencia Computacional:

M. Melgarejo, D. Mayorga, and N. Obregon, “A Fuzzy Clustering Based Method

For the Spatiotemporal Analysis of Criminal Patterns,” 2016 IEEE World Congr.

Comput. Intell., pp. 738–744, 2016. http://ieeexplore.ieee.org/document/7737761/

http://ieeexplore.ieee.org/document/7737761/

82

Adicionalmente, para la predicción de los agrupamientos se realizó una composición

de un sistema difuso basado en la estructura ANFIS y sintonizado por medio de un

algoritmo memético. El sistema difuso es inicializado como un Takagi-Sugeno

aprovechando las técnicas de optimización de la estructura ANFIS.

Finalmente, el soporte de decisiones de la fuerza pública es un factor importante en

este proyecto. Ya que las predicciones realizadas presentan posibilidades de

reorganización de fuerza pública. De acuerdo a los resultados de la series de tiempo y el

sistema de inferencia encontrado se pretende dar una posible ubicación a priori de los

sectores van a ser afectados en el futuro. Permitiendo así una distribución efectiva de los

escasos recursos policiales con el fin de la reducción de hechos criminales.

Debido a que se predice la ubicación del centro de un agrupamiento de crimen y su

radio de acción se puede hacer uso de esta información de diferentes maneras

dependiendo de su escala de tiempo. Por ejemplo, si se usa una escala de tiempo como en

el contexto I donde hay predicciones diarias es necesaria una respuesta diaria donde

patrullas u oficiales de policía cambien sus rutas de vigilancia de acuerdo a los resultados

del sistema generado. Sí, en cambio, se encuentran predicciones en escalas de tiempo de

años se pueden crear estrategias de rehabilitación para mejorar la calidad de vida y

seguridad en los sectores que según estas predicciones se puedan ver afectados.

Generando así una disminución en la criminalidad a un largo plazo.

6.3. Trabajo Futuro

En el desarrollo de este proyecto se plantearon las siguientes propuestas para la

realización de trabajos futuros relacionados con el análisis espacio-temporal del crimen:

1) Desarrollar interfaces y tecnología para la adquisición, recopilación y

procesamiento de crímenes en la ciudad de Bogotá ya que son exclusivos estas

bases de datos y su acceso es restringido.

2) Implementar otros algoritmos de agrupación aparte del FCM para vincularlos al

algoritmo de reorganización y comparar sus resultados.

3) Desarrollar e implementar propuestas para la determinación del número adecuado

de agrupamientos para la ciudad de estudio. Ya sea Bogotá, San Francisco o

cualquier otra ciudad.

4) Proponer e implementar una metodología de sintonización del número adecuado

de agrupamientos para la ciudad de interés.

5) Realizar estudios comparativos entre el sistema de predicción propuesto y otros

sistemas de predicción como por ejemplo de redes neuronales. A partir de índices

que midan el desempeño de predicción es posible encontrar mejores soluciones.

83

7. Referencias

[1] “Crime Statistics for 2013 Released — FBI,” 2014. [Online]. Available:

https://www.fbi.gov/news/stories/crime-statistics-for-2013-released.

[2] S. T. Li, S. C. Kuo, and F. C. Tsai, “An intelligent decision-support model using FSOM

and rule extraction for crime prevention,” Expert Syst. Appl., vol. 37, no. 10, pp. 7108–

7119, 2010.

[3] C. A. Franklin, T. W. Franklin, M. R. Nobles, and G. A. Kercher, “Assessing the Effect of

Routine Activity Theory and Self-Control on Property, Personal, and Sexual Assault

Victimization,” Crim. Justice Behav. , vol. 39, no. 10, pp. 1296–1315, Oct. 2012.

[4] R. V Clarke, Situational Crime Prevention Second Edition, 2nd ed. Guilderland, New

York: Harrow and Heston, 1997.

[5] R. E. Roth, K. S. Ross, B. G. Finch, W. Luo, and A. M. MacEachren, “Spatiotemporal

crime analysis in U.S. law enforcement agencies: Current practices and unmet needs,”

Gov. Inf. Q., vol. 30, no. 3, pp. 226–240, 2013.

[6] F. Di Martino and S. Sessa, “The extended fuzzy C-means algorithm for hotspots in

spatio-temporal GIS,” Expert Syst. Appl., vol. 38, no. 9, pp. 11829–11836, Sep. 2011.

[7] F. Di Martino and S. Sessa, “Hotspots detection in spatial analysis via the extended

Gustafson-Kessel algorithm,” Adv. Fuzzy Syst., vol. 2013, 2013.

[8] P.-F. Kuo, D. Lord, and T. D. Walden, “Using geographical information systems to

organize police patrol routes effectively by grouping hotspots of crash and crime data,” J.

Transp. Geogr., vol. 30, pp. 138–148, Jun. 2013.

[9] R. van Urk, M. R. K. Mes, and E. W. Hans, “Anticipatory routing of police helicopters,”

Expert Syst. Appl., vol. 40, no. 17, pp. 6938–6947, Dec. 2013.

[10] S. Chainey, L. Tompson, and S. Uhlig, “The Utility of Hotspot Mapping for Predicting,”

pp. 4–28, 2008.

[11] M. S. Gerber, “Predicting crime using Twitter and kernel density estimation,” Decis.

Support Syst., vol. 61, pp. 115–125, 2014.

[12] Q. Shen and R. Zhao, “Risk assessment of serious crime with fuzzy random theory,” Inf.

Sci. (Ny)., vol. 180, no. 22, pp. 4401–4411, 2010.

[13] M. Fonoberova and V. Fonoberov, “Nonlinear Dynamics of Crime and Violence in Urban

Settings,” J. Artif. Soc. Soc. Simul., vol. 15, no. 1, p. 2, 2012.

[14] C.-H. Yu, M. W. Ward, M. Morabito, and W. Ding, “Crime Forecasting Using Data

Mining Techniques,” 2011 IEEE 11th Int. Conf. Data Min. Work., pp. 779–786, 2011.

[15] T. H. Grubesic and A. T. Murray, “Detecting Hot Spots Using Cluster Analysis and GIS,”

Proc. from Fifth Annu. Int. Crime Mapp. Res. Conf., vol. 26, 2001.

[16] A. K. Jain, M. N. Murty, and P. J. Flynn, “Data Clustering: A Review,” ACM Comput.

Surv., vol. 31, no. 3, pp. 264–323, Sep. 1999.

[17] G. Grekousis and H. Thomas, “Comparison of two fuzzy algorithms in geodemographic

segmentation analysis: The Fuzzy C-Means and Gustafson–Kessel methods,” Appl.

Geogr., vol. 34, pp. 125–136, 2012.

[18] W. Wang, Y. Zhang, Y. Li, and X. Zhang, “The Global Fuzzy C-Means Clustering

Algorithm,” no. 1, pp. 3604–3607, 2006.

[19] D. Das and A. Maitra, “Time series prediction of rain attenuation from rain rate

measurement using synthetic storm technique for a tropical location,” AEU - Int. J.

Electron. Commun., vol. 68, no. 1, pp. 33–36, 2014.

[20] C. A. Peña-reyes and M. Sipper, “Fuzzy CoCo : A Cooperative-Coevolutionary Approach

to Fuzzy Modeling,” vol. 9, no. 5, pp. 727–737, 2001.

84

[21] C. Murcia, G. Bonilla, M. Melgarejo, and S. Member, “Fuzzy Classifiers Tuning Through

an Adaptive Memetic Algorithm,” vol. 12, no. 2, pp. 197–204, 2014.

[22] A. Villate-Gil, D. E. Rincón-Arandia, and M. A. Melgarejo-Rey, “Evolución diferencial

aplicada a la sintonización de clasificadores difusos para el reconocimiento del lenguaje

de señas,” Ing. y Universidada, vol. 16, pp. 397–413, 2012.

[23] H. Ying, “Li Xin Wang’s Adaptive Fuzzy Systems and Control: Design and Stability

Analysis,” J. Intell. Fuzzy Syst., vol. 3, no. 2, pp. 187–188, Mar. 1995.

[24] D. H. Wolpert and W. G. Macready, “No free lunch theorems for optimization,” IEEE

Trans. Evol. Comput., vol. 1, no. 1, pp. 67–82, 1997.

[25] W. J. Ewens, “An introduction to evolutionary genetics,” Am. J. Hum. Genet., vol. 34, no.

1, pp. 149–150, 1982.

[26] H. Zhao, W. (Ato) Xu, and R. Jiang, “The Memetic algorithm for the optimization of

urban transit network,” Expert Syst. Appl., vol. 42, no. 7, pp. 3760–3773, 2015.

[27] A. M. Acilar and A. Arslan, “A novel approach for designing adaptive fuzzy classifiers

based on the combination of an artificial immune network and a memetic algorithm,” Inf.

Sci. (Ny)., vol. 264, pp. 158–181, Apr. 2014.

[28] San Francisco Police Department, “SFPD Incidents - from 1 January 2003 | Data | San

Francisco.” [Online]. Available: https://data.sfgov.org/Public-Safety/SFPD-Incidents-

from-1-January-2003/tmnf-yvry?

[29] P. L. Brantingham and P. Brantingham, “Crime Pattern theory,” Environ. Criminol. Crime

Anal., pp. 78–93, 2008.

[30] J. Abonyi and B. Feil, “Cluster analysis for data mining and system identification,” p. 303,

2007.

[31] N. Malleson and M. A. Andresen, “Spatio-temporal crime hotspots and the ambient

population,” 2015.

[32] D. a. Silva, G. I. Alves, P. S. G. de Mattos Neto, and T. a. E. Ferreira, “Measurement of

Fitness Function efficiency using Data Envelopment Analysis,” Expert Syst. Appl., vol.

41, no. 16, pp. 7147–7160, 2014.

[33] J. R. Jang, “ANFIS : Adap tive-Ne twork-Based Fuzzy Inference System,” vol. 23, no. 3,

1993.

[34] P. Jagtap and G. N. Pillai, “Comparison of Extreme-ANFIS and ANFIS Networks for

Regression Probles,” 2014 IEEE Int. Adv. Comput. Conf., pp. 1190–1194, 2014.

[35] P. Moscato and C. Cotta, “A Gentle Introduction to Memetic Algorithms,” pp. 1–36.

[36] U. T. Eden and M. A. Kramer, “Drawing inferences from Fano factor calculations,” J.

Neurosci. Methods, vol. 190, no. 1, pp. 149–152, 2010.