142
Escuela Politécnica Superior Grado en Ingeniería Informática en Sistemas de Información TRABAJO FIN DE GRADO Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud Autor: D. Manuel Jesús Fernández Gómez Tutor: Dr. Francisco Martínez Álvarez Convocatoria de Junio Curso 2014/2015

Desarrollo de una metaheurística basada en aprendizaje de ...eps.upo.es/martinez/TFG/TFG_Manuel_2015.pdf · Un terremoto se define como un movimiento brusco de la Tierra causado

Embed Size (px)

Citation preview

Escuela Politécnica Superior

Grado en Ingeniería Informática en Sistemas de Información

TRABAJO FIN DE GRADO

Desarrollo de una metaheurística basada en

aprendizaje de datos no balanceados para la

predicción de terremotos de gran magnitud

Autor:

D. Manuel Jesús Fernández Gómez

Tutor:

Dr. Francisco Martínez Álvarez

Convocatoria de Junio

Curso 2014/2015

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

I

Agradecimientos

Quiero agradecer a Francisco Martínez Álvarez la oportunidad de realizar este trabajo. Gracias a él se ha

despertado en mí un gran interés por la labor investigadora dentro de la ingeniería informática. Hasta

ahora sentía un vacío en lo que a las aspiraciones personales se refiere. Quizás este trabajo haya

conseguido lo que en cuatro años de carrera no había logrado antes: ganas e interés por la ingeniería

informática, especialmente por la minería de datos y la inteligencia artificial.

En lo personal, Paco, has estado de diez. Me has proporcionado todo el material necesario, has resuelto

todas mis dudas y siempre has estado disponible para cualquier cosa que haya necesitado. Por todo,

gracias.

También quiero agradecer a Alicia Troncoso Lora el interés que ha despertado en mí por la inteligencia

artificial. Una lástima que no haya conocido antes esta rama de la ingeniería informática.

Por último, agradecer a aquellos amigos y familiares que me han hecho más llevadera la realización de

este trabajo. Por su apoyo y su disponibilidad, gracias.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

II

Resumen

El siguiente estudio tiene como objetivo, haciendo uso del proceso de Descubrimiento de Conocimiento

en Bases de Datos (KDD), el desarrollo de una metaheurística que metodice el proceso de análisis de los

algoritmos basados en aprendizaje desbalanceado y la aplicación de dicha metaheurística a casos reales.

La disciplina en la que se va a desarrollar esta metaheurística es la predicción de seísmos de gran

magnitud. Los casos reales sobre los que se va a aplicar la metaheurística desarrollada corresponden a

datos sobre la ocurrencia de terremotos de diversas zonas de Chile y Japón.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

III

CONTENIDO

1. INTRODUCCIÓN ...................................................................................................................... 1

1.1. DESCRIPCIÓN DEL PROBLEMA ................................................................................................ 1 1.2. MOTIVACIÓN Y OBJETIVOS ..................................................................................................... 2

2. ESTADO DEL ARTE ................................................................................................................ 3

2.1. PREDICCIÓN DE SEÍSMOS ....................................................................................................... 3 2.2. APRENDIZAJE DESBALANCEADO ............................................................................................. 5 2.3. PREDICCIÓN DE SEÍSMOS A PARTIR DEL APRENDIZAJE DESBALANCEADO ................................... 16

3. CONCEPTOS TEÓRICOS DEL DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE

DATOS (KDD) ............................................................................................................................ 17

3.1. INTRODUCCIÓN ................................................................................................................... 17 3.2. ADQUISICIÓN DE DATOS ....................................................................................................... 18 3.3. PREPROCESAMIENTO Y TRANSFORMACIÓN ............................................................................ 19 3.4. MINERÍA DE DATOS ............................................................................................................. 20 3.5. EVALUACIÓN ...................................................................................................................... 21 3.6. INTERPRETACIÓN ................................................................................................................ 22

4. DESARROLLO DE UNA METAHEURÍSTICA PARA LA PREDICCIÓN DE SEÍSMOS DE

GRAN MAGNITUD MEDIANTE ALGORITMOS BASADOS EN APRENDIZAJE

DESBALANCEADO ................................................................................................................... 23

4.1. ADQUISICIÓN DE LOS DATOS ................................................................................................ 23 4.2. PREPROCESAMIENTO Y TRANSFORMACIÓN DE LOS DATOS ....................................................... 24 4.3. MINERÍA DE DATOS ............................................................................................................. 30 4.4. EVALUACIÓN ...................................................................................................................... 35

5. RESULTADOS ....................................................................................................................... 47

5.1. MEJORES CLASIFICADORES INDIVIDUALES ............................................................................. 49 5.2. MEJORES CLASIFICADORES GLOBALES ................................................................................. 87

6. CONCLUSIONES ................................................................................................................. 129

7. REFERENCIAS .................................................................................................................... 131

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

1

1. Introducción

1.1. Descripción del problema

El hombre es el único animal racional que existe en la naturaleza. Y como tal, hay un aspecto por el cual

siempre se ha sentido atraído, ya sea por razones de supervivencia, o por cualquier otro motivo: la

búsqueda de conocimiento. Tal es la obsesión del hombre por el conocimiento que, ante la ausencia de

éste, muchas veces ha optado por la generación de un conocimiento artificial frente al miedo y la

incertidumbre que provoca el admitir el desconocimiento sobre algo. De esta manera surgieron los mitos y

las leyendas. El hombre encontraba fenómenos que no podía explicar o no alcanzaba a comprender, y

uno de estos fenómenos eran los terremotos.

Un terremoto se define como un movimiento brusco de la Tierra causado por la brusca liberación de

energía acumulada durante un largo tiempo. En general se asocia el término terremoto con los

movimientos sísmicos de dimensión considerable, aunque rigurosamente su etimología significa

"movimiento de la Tierra". Pero este conocimiento no ha sido tan obvio a lo largo de la historia.

El estudio de los seísmos es muy antiguo. Se han encontrado registros sobre éstos con una antigüedad

de más 3000 años en China y de más 1600 en Japón y Europa oriental. Se han encontrado registros

incluso en códices mayas y aztecas en América.

Pero que se registraran no quiere decir que se comprendieran. Así, han sido muchas las culturas que lo

atribuían a intervenciones divinas asociadas al castigo o la ira de estos seres superiores. En Japón, la

ocurrencia de terremotos se atribuía a un gran pez gato llamado Namazu, que yacía bajo tierra y era

controlado por un dios. Cuando este se descuidaba, el pez se movía y, con fuertes sacudidas de su cola,

hacia que la tierra temblara. En la mitología griega, sin embargo, se atribuía a Poseidón, el dios del mar,

quien hacia tambalear a Atlas, el cual sostenía el mundo sobre sus hombros, lo que provocaba que los

terremotos ocurriesen.

Hoy en día, gracias a los grandes avances científicos, se ha podido explicar detalladamente el origen de

estos fenómenos, registrando todo tipo de información acerca de ellos. Así, se plantea la posibilidad de

usar esta gran cantidad de información para entenderlos, y más importante aún, para intentar predecirlos.

Resulta demasiado presuntuoso hablar de predicción de terremotos con el nivel actual de conocimiento

sobre el tema. Es más realista referirse al riesgo de ocurrencia de terremotos, ya que no existe una

certeza mayor que decir que en cierta zona hay una probabilidad estadística de que se registre un evento

sísmico de magnitud variable desconocida. Variaciones en el comportamiento del clima o conductas

anormales en algunos animales no tienen solidez científica como para que se considere una predicción.

Los terremotos son fenómenos que provocan grandes pérdidas tanto humanas como económicas,

pudiendo llegar a destruir ciudades completas en pocos segundos. No en vano, el terremoto de mayor

magnitud registrado ocurrió en Chile (1906) y alcanzo una magnitud de 9,5 en la escala sismológica de

magnitud de momento, que es la escala que se usa cuando se sobrepasa la magnitud 7 en la escala

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

2

Richter. Sus efectos fueron 962 muertos y 1410 desparecidos, además de daños en algunas de las

ciudades cercanas al epicentro y el 65% de las viviendas.

Si alguien avisara de que con certeza se producirá un terremoto en las siguientes horas, se desataría el

pánico en la población. Es por ello que se debe evitar a toda costa el anuncio de un terremoto si no se

sabe que éste va a ocurrir con total seguridad. El objetivo, entonces, de asignar un grado de riesgo no es

otro que atenuar los efectos de un terremoto. Si se vaticina la ocurrencia de un seísmo, y se calcula

cuáles serían sus consecuencias, se podrían tomar las precauciones adecuadas para mitigar los daños

que éste pueda ocasionar.

1.2. Motivación y objetivos

A medida que la magnitud de un terremoto aumenta, su capacidad de destrucción lo hace también. La

necesidad de predecir un seísmo cobra una especial relevancia cuando se habla de grandes magnitudes.

El problema que se presenta es que la rareza de un terremoto está estrechamente relacionada con la

magnitud de éste. Alrededor de un millón de terremotos de magnitud 2 se producen al año en todo el

planeta. Sin embargo, sólo existen siete terremotos registrados con una magnitud igual o mayor a 9. La

poca frecuencia con las que los terremotos de gran magnitud ocurren es una dificultad añadida para el

estudio de su predicción.

Cuando se habla de sucesos de gran interés que suceden con muy poca frecuencia, se está hablando de

desbalanceo. Uno de los grandes retos que la ciencia está afrontando en la historia moderna es el

manejo del desbalanceo. El desbalanceo se encuentra en numerosos ámbitos de la vida humana:

enfermedades raras, detección de fraudes, filtrado de información, detección de errores, etc. Entre ellos

se encuentra la predicción de terremotos de gran magnitud, objeto de este estudio. Mediante una serie de

algoritmos especializados en el tratamiento del problema del desbalanceo, este estudio se plantea como

objetivo lo siguiente:

1. Evaluación de los algoritmos basados en aprendizaje desbalanceado en la disciplina de la

detección de patrones precursores de terremotos de gran magnitud.

2. Desarrollo de una metaheurística, haciendo uso del proceso de Descubrimiento de Conocimiento

en Bases de Datos (KDD), para la clasificación de datos desbalanceados que metodice la

evaluación de lo anterior.

3. Aplicación de la metaheurística desarrollada a conjuntos de datos reales pertenecientes a varias

zonas de Chile y Japón.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

3

2. Estado del arte

2.1. Predicción de seísmos

El problema de la predicción de terremotos ha fascinado al ser humano desde su existencia temprana.

Aunque este problema parece ser irresoluble, trabajos recientes han propuesto nuevos paradigmas de

predicción que se deben tener en cuenta [1]. En particular, el uso de técnicas de minería de datos ha

surgido en este campo como una herramienta de gran alcance con innegables beneficios [2, 3, 4, 5].

La posibilidad de la predicción de terremotos ha sido cuestionada y respondida de diversas maneras,

desde la negación al optimismo, incluyendo la aportación de pruebas matemáticas y apoyo empírico para

cada hipótesis [6, 7, 8, 9, 10].

Para asegurarse de que cualquier declaración que proporciona una predicción de terremotos es rigurosa,

la siguiente información debe ser proporcionada de forma simultánea, de acuerdo con [4]:

1. Una localización o zona específica.

2. Un lapso de tiempo específico.

3. Un rango de magnitud específica.

4. Una probabilidad específica de ocurrencia.

Además, el Servicio Geológico de Estados Unidos (USGS) fundó el Co-laboratorio para el Estudio de la

Predictibilidad de los Terremotos (CSEP) en 2007 [11]. El objetivo de esta organización es el desarrollo

de un laboratorio virtual y distribuido que pueda soportar una amplia gama de experimentos de predicción

científica en múltiples laboratorios naturales regionales o globales. Este enfoque sobre la ciencia de los

sistemas sísmicos busca proporcionar respuestas a las siguientes preguntas:

1. ¿Cómo deben ser llevados a cabo y evaluados los experimentos de predicción científica?

2. ¿Cuál es la previsibilidad intrínseca del proceso de ruptura del terremoto?

En este contexto, se han propuesto varios métodos para predecir cualquiera de las características que se

detallan en [12]. Según el método Liberación del Momento de Aceleración (AMR), la tasa de liberación del

momento sísmico de magnitud se incrementa rápidamente antes de que ocurra un gran evento [13, 14].

También se han analizado las variaciones del valor . Para que se produzca un terremoto de gran

magnitud, es necesaria una acumulación de energía potencial elástica previa. Este hecho provoca un

déficit de terremotos pequeños y moderados. Esto conduce a una alteración anormal del valor de la ley

de Gutenberg-Richter [15, 16].

Los algoritmos M8 estudian la ocurrencia de terremotos de magnitud mayor que 8. Se basan en la

evolución de varias series temporales compuestas por los terremotos de magnitud moderada. El objetivo

es decidir si existe un incremento de probabilidad en el tiempo (TIP) para un evento de mayor magnitud

[17, 18].

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

4

Región-Tiempo-Longitud (RTL) es un algoritmo que analiza secuencias temporales de los terremotos.

Sólo toma en cuenta la ubicación, el tiempo y magnitud, y detecta anomalías en la sismicidad antes de

grandes eventos [19, 20].

Se cree que, para que se produzca un terremoto de gran magnitud, es necesario que se libere más

energía durante el período de carga que durante el de descarga. Basándose en esta hipótesis, el Ratio de

Respuesta de Carga-Descarga (LURR) utiliza la relación de energía liberada como un precursor potencial

para hacer predicciones [21, 22].

Otro método muy utilizado es el “Cada Terremoto es un Precursor de Acuerdo con la Escala” (EEPAS).

Este método se basa en la observación de un incremento de los pequeños terremotos, ya que esto se

considera un fenómeno precursor de terremotos más grandes [23, 24].

El método “Secuencia de Réplicas Sísmicas de Tipo Epidémico” (ETAS) considera que cada terremoto

es, al mismo tiempo, una potencial réplica sísmica, un seísmo principal o un seísmo precursor, con su

propia secuencia de réplicas. De esta manera, se pueden encontrar configuraciones anómalas de

sismicidad temporal y espacial [25,26].

El Modelo de Sismicidad Suavizada Simple, o simplemente Triple S, proporciona previsiones de tipo

espacio-tasa-magnitud basadas en una agrupación espacial de la sismicidad. Para hacer esto, se aplica

una gaussiana suavizada al catálogo sísmico que estima la cantidad de terremotos previstos en zonas

particulares para determinados períodos de tiempo [27].

En la actualidad, se está prestando una mayor atención a los algoritmos basados en el aprendizaje

automático. Estos algoritmos incluyen una amplia variedad de soluciones que van desde aprendizaje no

supervisado [15, 28] al supervisado [4, 29]. En el aprendizaje supervisado, cada terremoto se modela por

medio de ciertos atributos que [30] Panakkat y Adeli definen como Indicadores de Sismicidad. Desde su

aplicación inicial, varios trabajos han propuesto nuevos indicadores. Tal es el caso de [9] o [31], donde los

autores también añadieron las leyes de Bath y Omori-Utsu, así como las variaciones de valor b, para el

conjunto de indicadores de sismicidad propuestos. El modelo se evaluó mediante redes neuronales

artificiales, un método también se utiliza en [2, 32, 5].

Sin embargo, algunos de los indicadores de sismicidad propuestos presentan un comportamiento

paramétrico, es decir, existe la necesidad de realizar una configuración inicial de modo que puedan

trabajar correctamente con clasificadores supervisados. Por otra parte, los estudios originales no

proponen explícitamente una afinación específica para ellos.

La correlación de estos indicadores con la clase binaria (tanto si un va a ocurrir terremoto como si no) fue

analizada en [29], mostrando que algunos de ellos eran simplemente inútiles. En [33] se determina la

influencia de un ajuste adecuado o incorrecto para todos los indicadores de sismicidad existentes

reportados en la literatura. En él se analiza el efecto del uso de diferentes parametrizaciones para las

entradas en los algoritmos de aprendizaje supervisado por medio de una nueva metodología. Se

realizaron cinco análisis diferentes, principalmente relacionados con la forma de capacitación y de

prueba, para el cálculo del valor b, y para el ajuste de la mayoría de los indicadores recogidos. Se evaluó

también cómo de sensible puede ser la salida cuando no se tiene debidamente en cuenta alguno de estos

factores. Las conclusiones que se extrajeron son que una selección adecuada de la longitud de los

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

5

conjuntos y una parametrización cuidadosa de ciertos indicadores desemboca en resultados

significativamente mejores, en términos de exactitud de la predicción.

2.2. Aprendizaje desbalanceado

El aprendizaje de clasificadores a partir de conjuntos de datos desbalanceados o sesgados es un tema

importante que surge, en la práctica, muy a menudo en los problemas de clasificación. En este tipo de

problemas, la mayoría los casos pertenecen a una clase determinada, mientras que muy pocos están

etiquetados en otra clase que, por lo general, suele ser la clase más importante. Es obvio que los

clasificadores tradicionales, los cuales buscan un rendimiento preciso sobre una amplia gama de casos,

no son adecuados para hacer frente a la labor que conlleva el aprendizaje desbalanceado, ya que éstos

tienden a clasificar todos los datos en la clase mayoritaria, que normalmente es la clase menos relevante.

El problema del desbalanceo va teniendo, con el paso de los años, cada vez más énfasis. Existen

muchos conjuntos de datos desbalanceados en muchos ámbitos de la vida real, como pueden ser la

detección de clientes de telecomunicaciones de poca confianza, la detección de derrames de petróleo en

las imágenes de radar por satélite, el aprendizaje sobre la pronunciación de palabras, la clasificación de

textos, la detección de llamadas telefónicas fraudulentas, la recuperación de información y tareas de

filtrado, etc. [1, 22, 5].

Un gran número de soluciones al problema del desbalanceo de clases fueron propuestas anteriormente,

tanto en niveles de datos como algorítmicos. A nivel de datos [13], estas soluciones incluyen muchas

formas diferentes de re-sampling, tales como over-sampling aleatorio con reemplazo, under-sampling

aleatorio, over-sampling dirigido (en el que no se crean nuevos ejemplos, sino que la selección de las

muestras a reemplazar es informada en vez de aleatoria), under-sampling dirigido (donde, de nuevo, la

elección de ejemplos a eliminar es informada), over-sampling con la generación informada de nuevos

ejemplos, y combinaciones de las técnicas anteriores.

A nivel algorítmico [20], las soluciones incluyen el ajuste de los costes de las diversas clases a fin de

contrarrestar el desbalanceo. Esto se consigue mediante el ajuste de la estimación probabilística de las

hojas del árbol (cuando se trabaja con los árboles de decisión), el ajuste del umbral de decisión, y el

aprendizaje basado en el reconocimiento (esto es, en el aprendizaje de una clase) en lugar del

aprendizaje basado en la discriminación (dos clases). La mezcla de expertos [26] es un enfoque que

también ha sido usado para tratar los problemas de desbalanceo de clase. En este método se combinan

los resultados de muchos clasificadores; cada uno por lo general construido después de aplicar diferentes

tasas de over-sampling o under-sampling a los datos.

La naturaleza propensa a errores de los conjuntos disjuntos pequeños es una consecuencia directo de la

rareza. Por lo tanto, la comprensión de por qué los conjuntos disjuntos pequeños son tan propensos a

errores ayudará a explicar por qué la rareza es un problema. Una explicación es que algunos conjuntos

disjuntos pequeños pueden no representar casos raros o excepcionales, sino otras cosas tales como

datos con ruido. Por lo tanto, sólo los conjuntos disjuntos pequeños que sean "significativos" deben

mantenerse. La mayoría de los sistemas de clasificación por inducción tienen algunos medios para

prevenir el overfitting y eliminar los conjuntos disjuntos que no parezcan relevantes. El sesgo inductivo

también juega un papel en lo que respecta a las clases raras. Muchos sistemas de inducción tienden a

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

6

preferir las clases más comunes en la presencia de incertidumbre (es decir, van a estar sesgados a favor

de las clases mayoritarias).

Gary Weiss [10] presenta una visión general en el ámbito del aprendizaje a partir de los datos

desbalanceados. Se presta especial atención a las diferencias y similitudes entre los problemas de las

clases raras y los de los casos raros. A continuación, se analizan algunos de los problemas comunes y

sus soluciones en los problemas de minería de datos desbalanceada.

2.2.1. Métodos a nivel de datos para el manejo del desbalanceo

Los métodos de re-sampling, también conocidos como métodos de preprocesado, pueden ser divididos

en tres grandes grupos: los que eliminan instancias de la clase mayoritaria (under-sampling), los que

generan nuevas instancias de la clase minoritaria (over-sampling) y la hibridación de ambas técnicas. A

continuación son descritos algunos de los métodos más conocidos.

2.2.1.1. Under-sampling

El under-sampling aleatorio [34] es un método no-heurístico que busca equilibrar la distribución de las

clases a través de la eliminación aleatoria de ejemplos de la clase mayoritaria. El principal inconveniente

es que el under-sampling aleatorio es un método que puede descartar datos potencialmente útiles que

podrían ser importantes para el proceso de inducción. Otro problema que existe es el que se expone a

continuación: el propósito del aprendizaje automático es, para el clasificador, estimar la distribución de

probabilidad de la población objetivo. Dado que la distribución es desconocida, se trata de estimar la

distribución de la población usando la distribución de una muestra. Las estadísticas dicen que, siempre y

cuando la muestra sea extraída al azar, la distribución de la muestra se puede utilizar para estimar la

distribución de la población de donde se haya extraído. Por lo tanto, mediante el aprendizaje de la

distribución de la muestra se puede aprender a aproximar la distribución objetivo. El problema surge una

vez que se realiza el under-sampling de la clase mayoritaria, ya que esto hace que la muestra ya no

puede ser considerada aleatoria y, por tanto, no se puede estimar la distribución de la población usando

la distribución de una muestra a la que se le haya aplicado este método de rebalanceo.

Dados dos ejemplos y pertenecientes a diferentes clases, y siendo la distancia entre y

; un par se denomina un enlace Tomek si no hay un ejemplo , tal que

o . Si dos ejemplos forman un enlace Tomek, entonces uno de estos

ejemplos es ruido o ambos se encuentran en el límite de la frontera de decisión. Los enlaces Tomek se

pueden utilizar como un método de under-sampling o como un método de limpieza de datos. Como

método de under-sampling, sólo los ejemplos que pertenecen a la clase de mayoritaria son eliminados, y

como método de limpieza de datos, se eliminan ejemplos de ambas clases. Kubat y Matwin [9] extraen al

azar un ejemplo de la clase mayoritaria y todos los ejemplos de la clase minoritaria, y los colocan en el

subconjunto . Después, usan un en los ejemplos de para clasificar los ejemplos del

conjunto . Cada ejemplo de mal clasificado se traslada a . La idea detrás de esta implementación

de un subconjunto consistente es eliminar los ejemplos de la clase mayoritaria que están lejos de la

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

7

frontera de decisión, ya que este tipo de ejemplos pueden ser considerados menos relevantes para el

aprendizaje.

Dentro de los métodos más clásicos para realizar under-sampling se encuentra el RU (Random Under-

Sampling), que selecciona de manera aleatoria instancias de la clase mayoritaria para ser eliminarlas sin

reemplazamiento, hasta que ambas clases queden balanceadas. Otro método clásico es el BU (Bootstrap

Under- Sampling) que funciona de manera muy parecida al RU pero con reemplazamiento.

El NCR (Neighborhood Cleaning Rule), propuesto en [35], hace que, para cada elemento del conjunto de

entrenamiento, se busquen sus 3 vecinos más cercanos: si el elemento seleccionado es de la clase

mayoritaria y los 3 vecinos son de la minoritaria, entonces se elimina el elemento seleccionado; si dicho

elemento pertenece, en cambio, a la clase minoritaria, entonces se eliminan los vecinos que pertenezcan

a la mayoritaria.

2.2.1.2. Over-sampling

El over-sampling aleatorio es un método no-heurístico que busca equilibrar la distribución de las clases a

través de la replicación aleatoria de ejemplos de la clase minoritaria. Varios autores [13,9] están de

acuerdo en que el over-sampling aleatorio puede aumentar la probabilidad de que ocurra overfitting, ya

que hace copias exactas de los ejemplos de la clase minoritaria. De esta manera, un clasificador

simbólico, por ejemplo, podría construir reglas que son aparentemente precisas, pero que en realidad

cubrirán un ejemplo replicado. Además, el over-sampling puede introducir una labor computacional

adicional si el conjunto de datos es demasiado grande y desbalanceado.

Entre las estrategias más conocidas para la generación de nuevas instancias con el fin de balancear

conjuntos de entrenamiento se encuentra SMOTE (Synthetic Minority Over- Sampling TEchnique),

propuesto en 2002 por Chawla y colaboradores [6]. Este algoritmo, para cada ejemplo de la clase

minoritaria, introduce ejemplos sintéticos en un punto intermedio entre ejemplo seleccionado y sus 5

vecinos más cercanos. De esta manera se evita el overfitting. Sin embargo, esta estrategia presenta el

problema de que puede introducir ejemplos de la clase minoritaria en el área de la clase mayoritaria, es

decir, puede crear malos ejemplos que posteriormente pudieran confundir a los clasificadores.

En 2005 son realizadas dos nuevas propuestas de SMOTE [36]: borderline-SMOTE1 y borderline-

SMOTE2. Ambos generan instancias en la frontera entre las clases, es decir, son etiquetados como

“peligrosos” los elementos de la clase minoritaria situados muy cerca de la clase mayoritaria y, a partir de

ellos y sus vecinos, se comienzan a generar las nuevas instancias, lográndose muy buenos resultados.

En el 2006 Cohen y colaboradores [37] proponen el AHC (Agglomerative Hierarchical Clustering Based),

en el cual, a partir de la creación de grupos enlazados usando un algoritmo jerárquico aglomerativo de

agrupamiento, se seleccionan los centroides de cada grupo como un nuevo elemento sintético y

finalmente se insertan en el conjunto original.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

8

2.2.1.3. Híbridos

A pesar de que tanto el over-sampling como el under-sampling logran buenos resultados por separado,

muchos investigadores han obtenido magníficos resultados hibridando ambos métodos. Uno de ellos es

el SMOTE-Bootstrap Hybrid, el cual inicialmente genera nuevas instancias haciendo uso de SMOTE y

luego reduce la clase mayoritaria a través de Bootstrap, hasta lograr que las clases queden con similar

número de instancias, [38]. Otro método híbrido es el AHC-KM Hybrid, en el que primeramente se

generan nuevas instancias de la clase minoritaria con el AHC-based y luego se eliminan instancias de la

mayoritaria con el KM- based [37]. También está el SMOTE- Tomek Hybrid, que inicialmente realiza el

over-sampling con la clase minoritaria y luego aplica el método del enlace Tomek a ambas clases [39].

2.2.1.4. Selección de atributos para los conjuntos de datos desbalanceados

Zheng et al [38] sugiere que las medidas existentes que se utilizan para la selección de atributos no son

muy apropiadas para los conjuntos de datos desbalanceados. Proponen un marco de selección de

atributos que selecciona los atributos para la clase positiva y negativa por separado y luego

explícitamente los combina. Los autores muestran formas sencillas de transformar las medidas existentes

de modo que consideren por separado los atributos para la clase mayoritaria y minoritaria.

2.2.2. Métodos a nivel de algoritmo para el manejo del desbalanceo

Drummond y Holte [39] informan que, cuando se utiliza la configuración predeterminada del algoritmo

C4.5, el over-sampling es sorprendentemente ineficaz, a menudo produciendo poco o ningún cambio en

el rendimiento en respuesta a las modificaciones de los costes de clasificación errónea y distribución de

las clases. Además, señalan que el over-sampling poda menos y, por lo tanto, generaliza menos que el

under-sampling, y que una modificación de los parámetros del C4.5 para aumentar la influencia de poda y

otros factores para evitar el overfitting puede restablecer el rendimiento del over-sampling.

Para desviar internamente el procedimiento de discriminación, se propone una función de distancia

ponderada en [2] para ser utilizada en la fase de clasificación de kNN. La idea básica de esta distancia

ponderada es compensar el desbalanceo en la muestra de entrenamiento sin llegar a alterar la

distribución de las clases. Por lo tanto, los pesos son asignados, a diferencia de la norma ponderada

habitual k-NN, a las distintas clases y no a los prototipos individuales. De tal manera, ya que el factor de

ponderación es mayor para la clase mayoritaria que para la minoritaria, la distancia a los prototipos de la

clase minoritaria se vuelve mucho menor que la distancia a los prototipos de la clase mayoritaria. Esto

produce una tendencia de los nuevos patrones a encontrar su vecino más cercano entre los prototipos de

la clase minoritaria.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

9

2.2.2.1. Método Umbral

Algunos clasificadores, como el clasificador Naïve Bayes o algunas Redes Neuronales, dan una

puntuación que representa el grado en que un ejemplo es un miembro de una clase. Tal clasificación se

puede utilizar para producir varios clasificadores, variando el umbral de un ejemplo perteneciente a una

clase [10].

2.2.2.2. Aprendizaje de una clase

Un aspecto interesante del aprendizaje de una clase (basado en el reconocimiento) es que, bajo ciertas

condiciones, como la multimodalidad del espacio de dominio, el enfoque de una clase a la solución del

problema de clasificación puede ser en realidad superior al enfoque de dos clases (basado en la

discriminación), tales como árboles de decisión o Redes Neuronales [31]. Ripper [6] es un sistema de

inducción de reglas que utiliza un enfoque “divide y vencerás” para construir iterativamente reglas para

cubrir ejemplos de entrenamiento previamente no cubiertos. Cada regla se desarrolla mediante la adición

de condiciones hasta que ningún ejemplo mayoritario esté cubierto. Normalmente se generan reglas para

cada clase, desde más rara a la más común. Dada esta arquitectura, es bastante sencillo aprender reglas

sólo para la clase minoritaria (una capacidad que Ripper ofrece).

En particular, Raskutti y Kowalczyk [1] muestran que el aprendizaje de una clase es particularmente útil

cuando se utiliza en conjuntos de datos extremadamente desbalanceados compuestos de un espacio de

atributos con altas dimensiones de ruido. Ellos argumentan que el enfoque de una sola clase se relaciona

con los métodos agresivos de selección de atributos, pero éste es más práctico, ya que la selección de

atributos a menudo puede ser demasiado costosa de aplicar.

2.2.2.3. Aprendizaje sensible al coste

Como ya se ha mencionado, cambiar la distribución de las clases no es la única forma de mejorar el

rendimiento del clasificador en el aprendizaje a partir de conjuntos de datos desbalanceados. Un enfoque

diferente para la incorporación de los costos en la toma de decisiones es definir costes de clasificación

errónea fijos y desiguales entre las clases [19]. Dicho modelo de costes toma la forma de una matriz de

costes, donde el coste de clasificar una muestra como perteneciente a la clase cuando realmente

pertenece a la clase corresponde a la entrada de la matriz. Esta matriz se expresa generalmente en

términos de coste promedio de los errores de clasificación para el problema. Los elementos de la

diagonal se establecen generalmente a cero, lo que significa una clasificación correcta, la cual no tiene

ningún coste. Definimos riesgo condicional para tomar una decisión en cuanto como:

La ecuación indica que el riesgo de elegir la clase se define por los costes de clasificación errónea fijos

y la incertidumbre de nuestro conocimiento acerca de la verdadera clase de expresadas por las

probabilidades posteriores. El objetivo en la clasificación coste sensible es reducir al mínimo el coste de

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

10

errores de clasificación, lo cual se consigue mediante la elección de la clase con el mínimo riesgo

condicional.

2.2.3. Combinación de métodos

El enfoque de la mezcla de expertos [24] se ha utilizado para combinar los resultados de muchos

clasificadores, cada uno inducido después de realizar un re-sampling sobre los datos con diferentes tasas

de over-sampling o under-sampling. Este enfoque reconoce el hecho de que todavía no está claro qué

método de re-sampling se desempeña mejor y qué tasa de re-sampling debe utilizarse (y la elección

correcta de ello es probablemente específica de cada dominio). Los resultados indican que el enfoque de

la mezcla de expertos se comporta bien, en general, superando a otro método (AdaBoost) con respecto a

la precisión y la sensibilidad en problemas de clasificación de texto, y haciéndolo especialmente bien con

los ejemplos de la clase minoritaria. En [7] se presentan experimentos más detallados.

Chan y Stolfo [12] ejecutan una serie de experimentos preliminares para identificar una buena distribución

de clases y luego muestrear de tal manera que se generen múltiples conjuntos de entrenamiento con la

distribución de clase deseada. Cada conjunto de entrenamiento normalmente incluye todos los ejemplos

de la clase minoritaria y un subconjunto de los ejemplos de la clase mayoritaria; sin embargo, se

garantiza que cada ejemplo de la clase mayoritaria se encuentre en al menos un conjunto de

entrenamiento, por lo que los datos no son desperdiciados. El algoritmo de aprendizaje se aplica a cada

conjunto de entrenamiento y el meta-aprendizaje se usa para formar un aprendizaje compuesto a partir

de los clasificadores resultantes. Este enfoque se puede utilizar con cualquier método de aprendizaje y

Chan y Stolfo lo evalúan utilizando cuatro algoritmos de aprendizaje diferentes. El mismo enfoque básico

para particionar los datos y el aprendizaje de múltiples clasificadores se ha usado con máquinas de

soporte vectorial.

La SVM resultante del ensemble [5] ha demostrado superar tanto al over-sampling como al under-

sampling. Si bien los enfoques de ensemble son eficaces para tratar con clases minoritarias, éstos

asumen que se conoce una buena distribución de clase. Dicha distribución se puede estimar realizando

algunas ejecuciones preliminares, pero esto aumenta el tiempo necesario para el aprendizaje.

Otro método que utiliza este enfoque general emplea un algoritmo de progressive-sampling para construir

conjuntos de entrenamiento cada vez más grandes, donde la proporción de ejemplos positivos y

negativos añadidos en cada iteración se elige basándose en el rendimiento de las diversas distribuciones

de clase evaluadas en la iteración anterior [21].

MetaCost [19] es otro método para hacer que un clasificador sea sensible al coste. El procedimiento

comienza a aprender un modelo sensible al coste interno mediante la aplicación de un procedimiento

sensible al coste, el cual emplea un algoritmo de aprendizaje de base. Después, el procedimiento

MetaCost estima las probabilidades de clase mediante bagging. Posteriormente, se realiza un re-

etiquetado de las instancias de entrenamiento con el menor coste de clase esperado y, finalmente, re-

aprende un nuevo modelo utilizando el conjunto de entrenamiento modificado.

Los algoritmos de boosting son algoritmos iterativos que, en cada iteración, colocan diferentes pesos en

la distribución de entrenamiento. Después de cada iteración, el boosting aumenta los pesos asociados a

los ejemplos clasificados incorrectamente y disminuye los asociados a los clasificados correctamente.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

11

Esto obliga al aprendizaje a centrarse más en los ejemplos clasificados de forma incorrecta en la

siguiente iteración. Debido a que las clases y los casos minoritarios son más propensos a errores que las

clases y los casos comunes, es razonable creer que el boosting puede mejorar el rendimiento de la

clasificación ya que, en general, se aumentará el peso de los ejemplos asociados a las clases y los casos

minoritarios. Hay que tener en cuenta que, debido a que el boosting efectivamente altera la distribución

de los datos de entrenamiento, se podría considerar que es un tipo de técnica de muestreo avanzada.

Se ha hecho que la regla de actualización de los pesos de AdaBoost sea sensible al coste, por lo que, a

los ejemplos que pertenecen a las clase minoritaria y fueron clasificados erróneamente, se les asignan

pesos más altos que a los que pertenecen a la clase común. Se ha demostrado empíricamente que el

sistema resultante, Adacost [14], produce costes de clasificación errónea acumulativos más bajos que

AdaBoost y, por lo tanto, al igual que otros métodos de aprendizaje sensibles al coste, se puede utilizar

para tratar el problema con las clases minoritarias.

Rare-Boost [26] escala los falsos positivos en proporción a lo bien que se distinguen de los verdaderos

positivos y escala los falsos negativo en proporción a lo bien que se distinguen de los verdaderos

negativos. Otro algoritmo que hace uso del boosting para abordar los problemas con clases raras es

SMOTEBoost [23]. Este algoritmo reconoce que el boosting puede sufrir de los mismos problemas que el

over-sampling (por ejemplo, overfitting), ya que tenderá más a aumentar de peso los ejemplos que

pertenecen a la clase rara que los pertenecientes a la clase común (duplicando algunos de los ejemplos

que pertenecen a la clase rara). En lugar de cambiar la distribución de los datos de entrenamiento

mediante la actualización de los pesos asociados a cada ejemplo, SMOTEBoost altera la distribución

mediante la adición de nuevos ejemplos de la clase minoritaria utilizando el algoritmo SMOTE.

Kotsiantis y Pintelas [34] utilizaron tres agentes (el primer aprendizaje, utilizando Naïve Bayes, el

segundo, C4.5, y el tercero, 5-NN) con una versión filtrada de los datos de entrenamiento y combinando

sus predicciones de acuerdo con un esquema de votación. Esta técnica intenta conseguir la diversidad en

los errores de los modelos aprendidos mediante el uso de diferentes algoritmos de aprendizaje. La

intuición es que los modelos generados utilizando diferentes sesgos de aprendizaje son más propensos a

cometer errores de diferentes maneras. Debido a que en los pequeños conjuntos de datos el desbalanceo

de clases afecta más al proceso de inducción, también se hizo uso de la selección de atributos, lo que

hace el problema menos difícil.

Kaizhu Huang et al. [8] presentó Biased Minimax Probability Machine (BMPM) para resolver el problema

del desbalanceo. Teniendo en cuenta las matrices fiables de la media y la covarianza de las clases

mayoritarias y minoritarias, BMPM puede derivar el hiperplano de decisión mediante el ajuste del límite

inferior de la precisión real del conjunto de test.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

12

2.2.4. Métricas de evaluación

En el aprendizaje supervisado, las métricas que se utilizan comúnmente para evaluar el rendimiento de

generalización de los modelos inducidos, son el error de clasificación y la exactitud predictiva. En base a

la matriz de confusión, estas medidas se definen de la siguiente manera:

Clase Real

Positivo Negativo

Clase Predicha Positivo Verdadero Positivo (TP) Falso Positivo (FP)

Negativo Falso Negativo (FN) Verdadero Negativo (TN)

Sin embargo, estas métricas no son apropiadas cuando, a priori, las probabilidades de las clases son muy

diferentes, ya que no consideran los costes de las clasificaciones incorrectas y son muy sensibles al

sesgo entre las clases [40,41]. La clase minoritaria tiene mucha menor precisión y sensibilidad que la

clase mayoritaria. Muchos profesionales han observado que, para las distribuciones de clase muy

sesgadas, la sensibilidad de la clase minoritaria incluso suele llegar a ser 0 (es decir, no hay reglas de

clasificación generadas para la clase minoritaria). La exactitud pone más peso en las clases comunes que

en las clases raras, lo que hace difícil que un clasificador funcione bien en las clases raras.

Debido a que estas medidas dependen de la distribución de los datos, en los problemas de aprendizaje

desbalanceado se adoptan otras métricas de evaluación que permitan medir el rendimiento sobre cada

una de las clases de manera independiente. Algunas de éstas son la precisión y la sensibilidad (o recall),

las cuales, junto con sus equivalentes negativos, se definen a partir de la matriz de confusión de la

siguiente manera:

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

13

La precisión (o Valor Predictivo Positivo) es una medida de exactitud que determina, de los ejemplos

clasificados como positivos, cuántos son clasificados correctamente. La sensibilidad es una medida de la

completitud o exactitud positiva, que indica cuántos ejemplos de esta clase fueron clasificados

correctamente. A partir de estas dos métricas se definen otras medidas de evaluación, como el valor F:

El valor F es alto cuando tanto sensibilidad como precisión son altas, y se puede ajustar cambiando el

valor de β, donde β corresponde a la importancia relativa de la precisión frente a la sensibilidad y por lo

general se establece en 1.

Otra medida que se utiliza en escenarios no balanceados es la media geométrica (g-media), la cual

evalúa el rendimiento en términos de la sensibilidad y la especificidad (exactitud negativa) de la siguiente

forma:

En general, se utilizan cuatro criterios para evaluar el desempeño de los clasificadores en el aprendizaje a

partir de datos desbalanceados. Se detallan a continuación:

Criterio del Coste Mínimo (MC) [42]: minimiza el coste, el cual es medido por:

Donde es el coste de un falso positivo y es el coste de un falso negativo. Sin

embargo, el coste de los errores de clasificación es generalmente desconocido en los casos

reales, lo que restringe el uso de esta medida.

Criterio de la Media Geométrica Máxima (MGM): maximiza la media geométrica de la exactitud

[9], pero contiene una forma no lineal, por lo que dicho criterio no es fácil de ser optimizado

automáticamente.

Criterio de la Suma Máxima (MS): maximiza la suma de la exactitud de la clase mayoritaria y de

la minoritaria (o maximiza la diferencia entre la probabilidad de TP y la de FP) [17]. A diferencia

del criterio de la Media Geométrica Máxima, el criterio de la Suma Máxima contiene una forma

lineal.

Criterio del Análisis de las Características Operativas del Receptor (ROC): es una técnica de

evaluación que es utilizada comúnmente y que, además, constituye una herramienta visual de

comparación entre diferentes clasificadores. La curva ROC muestra gráficamente las relaciones

entre la sensibilidad (eje Y) y la proporción de FP (eje X); ésta última se define como el número

de falsos positivos entre el número total de instancias negativas (VN+FP). Así, es posible

representar el rendimiento global de un clasificador en un punto de esta gráfica. Por ejemplo, el

punto (0,0) representaría a un modelo que clasifica a todos las instancias como negativas, y el

punto (0,1) uno que clasifica bien a todos los datos.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

14

Además, para evaluar el rendimiento de diferentes clasificadores se puede utilizar el área total

bajo la curva ROC (AUC), la cual puede ser estimada de la siguiente manera [43]:

Esta medida varía entre 0 y 1 donde, a mayor valor, mejor rendimiento de clasificación. AUC no

pone más énfasis en una clase sobre la otra, por lo que no está sesgada en contra de la clase

minoritaria.

Independientemente de cómo se crean las curvas ROC (mediante muestreo, moviendo el umbral

de decisión o variando la matriz de costes) el problema sigue siendo el seleccionar el mejor

método simple y el mejor clasificador simple para el despliegue en un sistema inteligente. Si se

sostiene el supuesto de que la distribución de los datos es de tipo binormal, las varianzas de las

dos distribuciones son iguales y los costes de error son los mismos, entonces el clasificador en el

vértice de la curva dominante es la mejor opción.

Al aplicar aprendizaje automático a problemas del mundo real, rara vez se sostendrían uno o

más de estos supuestos, pero para seleccionar un clasificador deben existir ciertas condiciones,

y puede que sea necesaria más información. Si una curva ROC domina sobre las demás,

entonces el mejor método es aquel que produce la curva dominante, que es también la curva

cuya área es la mayor de todas. Esto es generalmente cierto en algunos dominios, pero no lo es

en el caso de otros. Para seleccionar un clasificador a partir de la curva dominante, necesitamos

información adicional, como una tasa de falsos positivos del objetivo. Por otro lado, si múltiples

curvas dominan en diferentes partes del espacio ROC, entonces se puede utilizar el método

ROC Convex Hull para seleccionar el clasificador óptimo [20].

2.2.5. Otros problemas relacionados con el desbalanceo

Sin embargo, también se ha observado que en algunos dominios, por ejemplo el conjunto de datos Sick,

los algoritmos de aprendizaje automático estándar son capaces de inducir buenos clasificadores, incluso

utilizando conjuntos de entrenamiento altamente desbalanceados. Esto demuestra que el desbalanceo de

clase no es el único problema responsable de la disminución de rendimiento de los algoritmos de

aprendizaje y, por tanto, no es el único problema con el que lidiar: la distribución de los datos dentro de

cada clase también es relevante (desbalanceo entre clases frente a desbalanceo dentro de la clase)

[31,27].

Prati et al [11] desarrolló un estudio sistemático con el objetivo de cuestionar si el desbalanceo de clase

obstaculiza la inducción del clasificador o si estas deficiencias pueden ser explicadas de otra manera. Su

estudio fue desarrollado con serie de conjuntos de datos artificiales con el fin de controlar plenamente

todas las variables que se pretendían analizar.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

15

Los resultados de sus experimentos, utilizando un esquema inductivo basado en la discriminación,

sugirieron que el problema no está únicamente causado por un desbalanceo de clase, sino que también

se relaciona con el grado de superposición de los datos entre las clases.

Una serie de artículos analiza la interacción entre el desbalanceo de clases y otras cuestiones como los

conjuntos disjuntos pequeños [28] y los problemas relativos a los casos raros [4], la duplicación de datos

[18] y la superposición de clases [16]. Se encontró que, en ciertos casos, tratando el problema del

conjunto disjunto pequeño sin tener en cuenta el problema de desbalanceo de clases era suficiente para

aumentar el rendimiento. El método para el manejo de casos raros de conjuntos disjuntos se encontró

que era similar a la del suavizado m-estimación de Laplace, pero requiriendo menos afinación. También

se encontró que la duplicación de datos es generalmente perjudicial, aunque para ciertos clasificadores,

tales como Naive Bayes y Perceptrones con Márgenes, es necesario un alto grado de duplicación para

que la clasificación resulte dañada [18]. Se argumentó que la razón por la que el desbalanceo de clase y

la superposición de clases están relacionados es que los errores de clasificación a menudo se producen

cerca de las fronteras de clase, donde generalmente también se produce la superposición.

Los experimentos de Jo y Japkowicz [30] sugieren que el problema no es causado directamente por el

desbalanceo de clase, sino más bien que el desbalanceo de clase puede producir conjuntos disjuntos

pequeños que, a su vez, provoca la degradación. La estrategia de re-sampling propuesta por [30]

consiste en la clusterización de los datos de entrenamiento de cada clase (por separado) y la realización

de over-sampling clúster a clúster. Su idea es tener en cuenta no sólo el desbalanceo entre clases (el

desbalanceo que se produce entre las dos clases), sino también el desbalanceo dentro de la clase (el

desbalanceo que se produce entre los subgrupos de cada clase) y realizar over-sampling sobre el

conjunto de datos corrigiendo estos dos tipos de desbalanceo simultáneamente.

Antes de realizar un over-sampling aleatorio, los ejemplos de entrenamiento en las clases mayoritaria y

minoritaria deben ser clusterizados. Una vez hecho esto, el over-sampling comienza. En la clase

mayoritaria, a todos los grupos, a excepción del más grande, se les realiza un over-sampling aleatorio con

el fin de obtener el mismo número de ejemplos de entrenamiento que el clúster más grande. Se permite

que sea el tamaño global de la clase grande. En la clase minoritaria, a cada clúster se le

aplica over-sampling aleatorio hasta que cada grupo contenga , donde

representa el número de subgrupos que la clase minoritaria tiene. En conjunto, los

experimentos apoyan la hipótesis de que el over-sampling basado en clústeres funciona mejor que el

over-sampling simple u otros métodos para el manejo del desbalanceo de clase o de los conjuntos

disjuntos pequeños, especialmente cuando el número de ejemplos de entrenamiento es pequeño y el

problema, complejo. La razón es que el re-sampling basado en clústeres identifica casos raros y los

vuelve a muestrear de forma individual, a fin de evitar la creación de conjuntos disjuntos pequeños en la

hipótesis aprendida.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

16

2.2.6. Conclusiones sobre el aprendizaje desbalanceado

En la práctica, a menudo se informa de que el aprendizaje sensible al coste supera el re-sampling

aleatorio [15]. Los métodos de re-sampling y combinación inteligente pueden hacer bastante más que el

aprendizaje sensible al coste, ya que pueden proporcionar información nueva o eliminar información

redundante para el algoritmo de aprendizaje, como se muestra en [13, 23, 9, 29, 32]. La relación entre el

tamaño del conjunto de entrenamiento y el rendimiento relativo a la clasificación incorrecta de los

conjuntos de datos desbalanceados parece ser que, en los conjuntos de datos desbalanceados

pequeños, la clase minoritaria está pobremente representada por un número excesivamente reducido de

ejemplos que podrían no ser suficientes para el aprendizaje, sobre todo cuando existe un alto grado de

superposición de clases y la clase se divide en subclústeres. Para los conjuntos de datos más grandes,

en cambio, el efecto de estos factores de complicación parece estar reducido cuando la clase minoritaria

está mejor representada por un mayor número de ejemplos.

2.3. Predicción de seísmos a partir del aprendizaje desbalanceado

El uso del aprendizaje desbalanceado en la ciencia dedicada a la predicción de terremotos se

fundamenta en la dificultad que supone la predicción de éstos debido a la rareza con la que suceden. La

predicción de terremotos encaja perfectamente en el perfil de los dominios que el aprendizaje

desbalanceado pretende abarcar. Son muchas las vías de investigación abiertas en el área de la

predicción de grandes seísmos, debido a la gran repercusión de éstos. El aprendizaje desbalanceado

puede abrir una nueva vía de investigación que permita un mayor acercamiento a la consecución del

objetivo, que no es otro que desarrollar la capacidad de predecir estos grandes seísmos.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

17

3. Conceptos teóricos del Descubrimiento de Conocimiento en Bases de

Datos (KDD)

3.1. Introducción

La revolución de la información global en la sociedad actual ha causado la generación de gran cantidad

de datos a gran velocidad, creándose una necesidad de aumento de las capacidades de almacenamiento

que no pueden resolverse por métodos manuales. En las últimas décadas, la principal preocupación se

ha centrado en cómo tratar la información disponible de la forma más rápida y eficiente. Se hace

entonces necesario encontrar técnicas y herramientas que ayuden en el análisis de dichas cantidades de

datos, que se encuentran normalmente infrautilizadas, ya que dicho volumen excede la habilidad del ser

humano para el análisis de los datos sin el uso de técnicas automatizadas.

La minería de datos surgió como solución a este problema y es actualmente una de las técnicas que más

usadas. Su misión no es otra que la de analizar la información de las bases de datos, apoyándose en

distintas disciplinas como la estadística, los sistemas para tomas de decisión o el aprendizaje automático,

entre otros, permitiendo así la extracción de patrones, la descripción de tendencias y la predicción de

comportamientos.

La minería de datos constituye una de las etapas más importantes de un proceso más amplio como es el

descubrimiento de la información en bases de datos (KDD o Knowdledge discovery in databases),

entendiendo por descubrimiento la existencia de información valiosa escondida y no conocida

anteriormente. Definido en varias fases, el KDD se puede definir como el proceso completo de extracción

de información, desde la adquisición y preparación de los datos que se van a analizar hasta la generación

e interpretación de los resultados obtenidos.

En una definición más formal, Fayyad U. y colaboradores, en 1996, definieron el KDD como “el proceso

no trivial de identificación en los datos de patrones válidos, nuevos, potencialmente útiles, finalmente

comprensibles”.

El objetivo fundamental del KDD es encontrar conocimiento que reúna una serie de condiciones. Dicho

conocimiento debe ser útil (el conocimiento debe servir para algo, se debe obtener algún tipo de beneficio

a partir de éste), válido (el conocimiento debe verificarse en todos los datos que se tienen, y los patrones

deben seguir siendo precisos para datos nuevos, no solo para aquellos que han sido usados en su

obtención), comprensible (debe posibilitar la interpretación, revisión, validación y uso en la toma de

decisiones) y nuevo (debe aportar algo que anteriormente desconocido para el sistema y para el usuario).

El conocimiento extraído por la minería de datos se puede dar en forma de relaciones, patrones o reglas

inferidas de los datos previamente desconocidas, o bien en forma de una descripción más concisa. Estas

relaciones o resúmenes constituyen el modelo de los datos analizados. Existen muchas formas diferentes

de representar los modelos y cada una de ellas determina el tipo de técnica que puede usarse para

inferirlos. Dichos modelos pueden ser de dos tipos: predictivo, en el que se pretende estimar valores

futuros o desconocidos de variables (estimación de la demanda de un nuevo producto en función del

gasto en publicidad), o descriptivo, en el que se exploran las propiedades de los datos examinados

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

18

(identificación de grupos de personas con unos mismos gustos, con el objeto de organizar diferentes

ofertas de ocio).

El KDD nace como interfaz y se nutre de diferentes disciplinas. Es un aspecto muy interesante de esta

metodología, ya que involucra distintas áreas de investigación como la estadística, los sistemas de

información y bases de datos, el aprendizaje automático, la inteligencia artificial, el reconocimiento de

patrones, la visualización de datos, la computación paralela y distribuida, los sistemas de toma de

decisiones y la recuperación de información, entre otras. Para extraer el conocimiento durante estos

procesos se utilizan técnicas tales como redes neuronales, lógica difusa, algoritmos genéticos,

razonamiento probabilístico y árboles de decisión.

Las aplicaciones de la minería de datos y, en extensión, del descubrimiento de conocimiento, son muy

variadas: medicina (detección de pacientes con riesgo potencial de sufrir alguna patología),

mercadotecnia (identificación de clientes asociados a determinados productos), telecomunicaciones

(detección de fraudes), finanzas (análisis de riesgos), climatología (predicción meteorológica), política

(diseño de campañas electorales) y un largo etcétera.

El proceso de KDD consta de unas etapas bien claras y definidas:

1. Adquisición de datos

2. Preprocesamiento y transformación

3. Minería de datos

4. Evaluación

5. Interpretación

A continuación se detallan cada una de las etapas del proceso de KDD.

3.2. Adquisición de datos

Como paso previo a la propia adquisición de los datos, se considera muy importante comprender el

dominio del problema. Se podría definir como la “fase 0”. Tras esto, se debe seleccionar el conjunto de

datos sobre el que se desea extraer información. Para ello, se localizan las fuentes de información y se

obtienen los datos que se tenía como objetivo. Éstos se llevan a un formato común para poder trabajar de

manera más adecuada con ellos. Frecuentemente, los datos que se adquieren pertenecen a distintos

departamentos u organizaciones, incluso es posible que haya que buscar datos complementarios de

informaciones oficiales. Por tanto, es recomendable y conveniente utilizar algún método automatizado

para explorar dichos datos.

En esta etapa también se incluye la comprensión de los datos adquiridos. De esta forma se podrán

identificar más fácilmente ciertos problemas de calidad de los datos que dificulten el proceso de KDD. Así

mismo, se podrán detectar subconjuntos para realizar las primeras hipótesis sobre la información oculta.

Las tareas que se realizan en esta etapa se detallan a continuación:

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

19

Selección de los datos: selección de tablas, de atributos, registros y/o fuentes con las que

comenzar a trabajar.

Estudio de los datos: análisis de las características y particularidades de los datos.

Selección los metadatos para un uso posterior de éstos.

Análisis de las variables: éstas pueden en cuantitativas o cualitativas. Las cuantitativas a su vez,

se distinguen en discretas (número de empleados de una empresa) o continuas (salario de un

empleado). Las cualitativas se distinguen entre nominales (estado civil) u ordinales (posición en

un ranking)

Análisis de la caducidad de los datos.

3.3. Preprocesamiento y transformación

La calidad del conocimiento descubierto no sólo depende del algoritmo de minería de datos usado, sino

que también depende de la calidad de los datos minados. Es decir, aunque el algoritmo de minería de

datos sea muy bueno, si los datos no son adecuados, el conocimiento extraído podría no ser válido. Esta

etapa resulta imprescindible, ya que algunos de los datos adquiridos en la etapa anterior son irrelevantes

o innecesarios para la tarea de minería que se desea realizar. Por tanto, el objetivo general de esta fase

es el de seleccionar el conjunto de datos adecuado para el resto del proceso de KDD. Las tareas de esta

etapa se detallan a continuación

Limpieza de los datos: las bases de datos reales en la actualidad suelen contener datos con

ruido. Se debe eliminar el mayor número posible de datos erróneos o inconsistentes (limpieza) e

irrelevantes (criba). Algunos de los algoritmos de Minería de Datos tienen métodos propios para

tratar con datos incompletos o ruidosos, pero dado que estos métodos, en general, no son muy

robustos, lo normal es realizar previamente la limpieza de los datos. Los objetivos de esta tarea

son rellenar valores perdidos, suavizar el ruido de los datos, identificar o eliminar outliers (datos

anómalos) y resolver inconsistencias.

Transformación de los datos: el objetivo es adaptar los datos de la mejor forma posible para que

la aplicación de los algoritmos de Minería de Datos sea óptima. Algunas de las operaciones

típicas que se suelen realizar se exponen a continuación:

o Generalización: se trata de obtener datos de más alto nivel a partir de los actuales,

utilizando jerarquías de conceptos.

o Normalización: el objetivo de esta operación es hacer que el rango de los valores de un

atributo sea más adecuado. Es bastante útil para técnicas como AANN o métodos

basados en distancias. Entre las técnicas de normalización cabe destacar la

normalización min-máx., que realiza una transformación lineal, la normalización zero-

mean, que normaliza en función de la media y la desviación estándar, y la

normalización por escala decimal, que consiste en normalizar moviendo el punto

decimal de los valores del atributo.

o Construcción de atributos: consiste en generar nuevos atributos aplicando operaciones

tales como agrupación o separación a los atributos originales. Puede ser interesante

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

20

cuando los atributos no tienen mucho poder predictivo por sí solos o cuando los

patrones dependen de variaciones lineales de las variables globales. Se utiliza para

mejorar la exactitud y la comprensibilidad de la estructura al trabajar con datos con

muchas dimensiones.

o Discretización: Se basa en convertir atributos continuos (o discretos con muchos

valores) a casos discretos manejables o a categóricos. Esta técnica es imprescindible

para muchos algoritmos de Minería de Datos que no pueden trabajar con valores

continuos. Hay que tener precaución al aplicar esta operación, ya que una mala

discretización puede invalidar los datos.

Reducción de la dimensionalidad: el objetivo principal es obtener una representación reducida

del conjunto de datos en la que, aun siendo el volumen del nuevo conjunto mucho menor que el

original, éste no pierda en gran medida la integridad de los datos originales. La minería sobre el

conjunto reducido resultante debe ser mucho más eficiente, pero obteniendo conclusiones

iguales o al menos aproximadas a las que se obtendrían del conjunto original. La reducción de la

dimensionalidad se puede llevar a cabo mediante la selección de instancias o la selección de

atributos:

o Selección de instancias: consiste en obtener una representación más pequeña del

conjunto de datos. Dentro de este tipo se pueden distinguir dos tipos de técnicas: las

paramétricas, las cuales estiman un modelo a partir de los datos, de forma que se

almacenan sólo los parámetros y no los datos reales, y las no paramétricas, que

reducen la cantidad de datos mediante el uso de algoritmos basados en clustering

(agrupación de ejemplos similares) y muestreo (selección de un subconjunto del total de

casos presentes).

o Selección de atributos: consiste en encontrar un subconjunto de los atributos del

problema que optimice la probabilidad de clasificar correctamente. Además, el trabajar

con menos variables reduce la complejidad del problema, disminuye el tiempo de

ejecución y aumenta la capacidad de generalización.

3.4. Minería de datos

Se distinguen dos tipos de minería de datos:

Minería de datos supervisada o predictiva: existe un conocimiento a priori, lo que permite realizar

predicciones sobre nuevos datos. Existen dos técnicas de minería de datos supervisada:

o Clasificación: es, probablemente, la técnica más utilizada. En ella, cada instancia (o registro

de la base de datos) pertenece a una clase, la cual se indica mediante el valor de un atributo

al que se le denomina como clase de la instancia. Este atributo puede tomar diferentes

valores discretos, cada uno de los cuales corresponde a una clase. El resto de los atributos

de la instancia (los relevantes a la clase) se utilizan para predecir la clase. El objetivo es

predecir cuál es la clase de nuevas instancias de las que se desconoce ésta.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

21

o Regresión: se utiliza para designar de forma general el problema de predecir una variable de

tipo continuo. Se trata de aproximar el valor numérico de dicha variable conociendo el resto

de atributos. Implica el aprendizaje de una función para establecer la correspondencia entre

los datos y el valor a predecir. Un caso particular de regresión es el análisis de series

temporales, cuyo objetivo consiste en observar la variación del valor de un atributo en el

tiempo. Se diferencian de la regresión en que los datos tienen una relación temporal.

Minería de datos no supervisada o descriptiva: no existe un conocimiento a prior, por lo que se

realizan descripciones del conjunto de datos tratado, de manera que se pueda extraer algún

conocimiento. Existen varias técnicas de minería de datos no supervisada:

o Agrupamiento o clustering: consiste en obtener grupos naturales a partir de los datos. Se

diferencia de la clasificación en que en este caso los grupos no están definidos. En lugar de

analizar datos etiquetados con una clase, los analiza para generar esa etiqueta. Los datos

son agrupados basándose en el principio de maximizar la similitud entre los elementos de

un grupo determinado.

o Reglas de asociación: su objetivo es identificar relaciones no explícitas entre atributos

categóricos. Se define como un modelo que identifica tipos de asociaciones específicas en

los datos. Las reglas de asociación no implican una relación causa-efecto, es decir, puede

no existir una causa para que los datos estén asociados. Una asociación entre dos atributos

ocurre cuando la frecuencia de que se den dos valores determinados de cada uno de estos

atributos conjuntamente es relativamente alta. Un caso especial son las reglas de

asociación secuenciales, las cuales se usan para determinar patrones secuenciales en los

datos. Se basan en secuencias temporales de acciones y difieren de las reglas de

asociación en que las relaciones entre los datos son temporales.

o Correlaciones: se usan para examinar el grado de similitud de los valores de dos variables

numéricas. El análisis de las correlaciones, sobre todo negativas, puede ser muy útil para

establecer reglas de ítems correlacionados.

3.5. Evaluación

La fase de Minería de Datos puede generar varios modelos, por lo que es necesario establecer cuáles

son los más válidos. Medir la calidad de los patrones descubiertos por un algoritmo de Minería de Datos

no es un problema trivial, ya que esta medición puede realizarse siguiendo distintos criterios de

evaluación, algunos de ellos bastante subjetivos.

Idealmente, los patrones descubiertos deben tener tres cualidades principales; deben ser precisos,

comprensibles (es decir, inteligibles) e interesantes (útiles y novedosos). Según sus aplicaciones, puede

interesar mejorar algunos de estos criterios y sacrificar ligeramente otros.

Las técnicas de evaluación que se usan dividen el conjunto de datos en dos subconjuntos: el de

entrenamiento, que sirve para extraer el conocimiento, y el de test, que prueba la validez del

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

22

conocimiento extraído. Existen técnicas para generar estos subconjuntos, entre las cuales destacan las

siguientes:

Validación simple: se generan los subconjuntos en base a un porcentaje determinado.

Generalmente, el subconjunto de entrenamiento posee un mayor porcentaje de los datos del

conjunto inicial.

Validación cruzada: es recomendable cuando tenemos una cantidad no muy elevada de datos

para construir el modelo, no siendo posible permitir que un subconjunto de datos no intervenga

en algún momento en el entrenamiento del modelo. Consiste en un conjunto de validaciones

simples en las que los subconjuntos varían de tal manera que todos los datos intervengan en el

entrenamiento del modelo. El resultado final estará compuesto por la media de los resultados de

cada una de las validaciones simples que hayan conformado la validación cruzada.

Bootstrapping: consiste en construir primero un modelo con todos los datos iniciales,

posteriormente, se crean numerosos conjuntos de datos, llamados bootstrap samples, haciendo

un muestreo de los datos originales con reemplazo, por lo que los conjuntos construidos pueden

contener datos repetidos. A continuación se construye un modelo con cada conjunto y se calcula

su ratio de error sobre el conjunto de test. El error final se calcula promediando los errores

obtenidos para cada muestra.

Dependiendo de la tarea de minería de datos, existen diferentes medidas de evaluación de los modelos.

Por ejemplo, en clasificación, lo habitual es evaluar la calidad de los patrones encontrados con respecto a

su precisión predictiva, que se calcula como el número de instancias del conjunto de prueba clasificadas

correctamente, dividido por el número de instancias totales en el conjunto de prueba. En el caso de reglas

de asociación, se suele evaluar de forma separada cada una de las reglas con objeto de converger a

aquellas que pueden aplicarse a un número mayor de instancias y que tienen una precisión relativamente

alta sobre cada una de éstas. Se hace en base a dos conceptos, los cuales son soporte y confianza.

3.6. Interpretación

Una vez el modelo ha sido validado, se interpretan los resultados obtenidos. Para ello, resulta

imprescindible tener un extenso conocimiento del dominio tratado. De esta manera, la interpretación de

los patrones obtenidos podrá ser explicada en términos que usuarios no expertos en la materia puedan

comprender. El fin de la interpretacion no es más que, en base a los modelos o patrones obtenidos, llegar

a una conclusión que lleve a la aceptación o rechazo de una hipótesis determinada y/o la apertura de

nuevas hipótesis.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

23

4. Desarrollo de una metaheurística para la predicción de seísmos de gran

magnitud mediante algoritmos basados en aprendizaje desbalanceado

4.1. Adquisición de los datos

Los datos que se han utilizado para realizar este estudio provienen de dos países distintos: Chile y Japón.

Los datos de Chile se han obtenido desde el Centro Sismológico Nacional de la Universidad de Chile,

organismo oficial dependiente del Departamento de Geofisica (DGF) y de la Facultad de Ciencias Físicas

y Matemáticas de la Universidad de Chile, la cual cuenta con un amplio registro de los terremotos

ocurridos en el país. Fue fundada en 1908 debido a la necesidad de poseer un organismo sismológico

que estudiara la alta tasa de actividad sísmica que presentaba el país, necesidad que se hizo más

patente si cabe tras el gran terremoto que devastó Valparaíso en 1906. El centro cuenta con unas 65

estaciones sismológicas repartidas por todo Chile.

Para los datos de Japón, se ha hecho uso de la base de datos pública de U.S. Geological Survey, que se trata una agencia científica del gobierno de Estados Unidos dedicada a estudiar el terreno, los recursos y los peligros naturales de todo el territorio nacional. Una de las disciplinas que abarca es la geografía, y dentro de ella existe un programa dedicado al peligro que suponen los terremotos. Dicho programa pone a libre disposición sus bases de datos, dando la posibilidad de descargar datos de terremotos, entre los cuales se encuentran los de Japón. Las ciudades elegidas para el estudio han sido 7 en total: Pichilemu, Santiago, Talca y Valparaíso, por parte de Chile, y Tokyo, Nagoya y Osaka, por parte de Japón. Todas ellas son ciudades con una gran actividad sísmica. Además, cada ciudad posee información que data del año 2001 en adelante. Debido a todo esto se considera que, a priori, los datos adquiridos son lo suficientemente buenos como para realizar un estudio de calidad. Cada conjunto de datos perteneciente a una ciudad concreta posee la siguiente información:

Localización del terremoto, expresada en términos de latitud y longitud.

Fecha de ocurrencia del terremoto, expresada año, mes, día, hora y minutos.

Magnitud del terremoto. Cabe mencionar que en este estudio sólo se van a tener en cuenta los terremotos registrados cuya magnitud sea mayor o igual que 4, ya que los terremotos por debajo de esa magnitud apenas ocasionan daños en estos países, los cuales se han preparado a conciencia para sucesos de este tipo.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

24

4.2. Preprocesamiento y transformación de los datos

A partir de los datos obtenidos anteriormente, se van a generar un total de 16 atributos, los cuales se

muestran a continuación:

Atributo Notación Descripción

Ley de Omori-Utsu

Ley dinámica de Gutenberg-Richter

Tiempo transcurrido durante los últimos eventos de magnitud mayor a un valor predefinido

Promedio de las magnitudes de Richter de los últimos eventos

Tasa de liberación de la raíz cuadrada de la energía sísmica

Pendiente de la curva entre la magnitud del terremoto y el logaritmo de la frecuencia de ocurrencia de eventos con una magnitud igual o mayor que un valor predefinido

Valor definido en la ley de Gutenberg-Richter

Diferencia entre la magnitud esperada y la observada basada en la ley de potencia inversa de Gutenberg-Richter

Suma de la desviación típica media sobre la línea de regresión basada en la ley de potencia inversa de Gutenberg-Richter

Coeficiente de variación del tiempo medio entre eventos característicos, o aperiodicidad media.

Tiempo medio entre los eventos característicos o típicos

Estos atributos se han generado a partir de dos fuentes distintas: el conjunto

se corresponde con los atributos propuestos en [44,45], mientras que

el conjunto

se corresponde con los atributos propuestos en

[46]. A continuación se explicará cómo se han generado cada uno de estos atributos. Para conocer el

proceso de una manera más detallada se insta a consultar las fuentes mencionadas anteriormente.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

25

4.2.1. Atributos del conjunto

Estos atributos se generan siguiendo la ley de Gutenberg-Richter. En ella se menciona el valor , el cual

refleja propiedades tanto tectónicas como geofísicas de las rocas, así como la variación de la presión de

los fluidos en una región concreta [47, 48]. El estudio de la alteración del valor ha resultado de utilidad

en lo que a la predicción de terremotos se refiere [49].

Los estudios de Gibowitz [50] y Wiemer et al. [51] sostienen que las variaciones del valor desembocan

en réplicas del un terremoto determinado. Se percataron de un incremento de después de un gran

terremoto en Nueva Zelanda y una posterior reducción de éste después de importantes réplicas. En

general, expusieron que el valor tiende a reducirse cuando muchos terremotos ocurren en un área

concreta durante un corto periodo de tiempo.

Sammonds, Meredith y Main [52] esclarecieron los cambios y variaciones de , postulando que “un

estudio sistemático de cambios temporales en el valor ha mostrado que un gran terremoto suele ir

precedido a medio plazo de un incremento en , seguido de una reducción en los meses a semanas

antes del terremoto. Un descenso pronunciado de b puede preceder a la aparición de terremotos de hasta

siete años”.

En el caso que ocupa, es necesario calcular el valor para la generación de los atributos. Para ello, se

hace uso de la siguiente fórmula:

Donde es la magnitud del i-ésimo terremoto y el número 3 es la magnitud de referencia, . La

ecuación hace uso de los últimos 50 terremotos registrados.

4.2.1.1. Atributos

Los atributos que se pretenden generar se calculan a partir del incremento del valor en intervalos de 4

terremotos. Teniendo en cuenta esto, se generan los 5 atributos definidos de la siguiente manera:

Se hace uso, en total, de 20 terremotos para la formulación de los 5 atributos anteriores. Esto, sumado a

los 50 terremotos de los que hace uso la ecuación, conforma un total de 70 terremotos necesarios para

calcular dichos atributos.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

26

4.2.1.2. Atributo

El atributo recoge la magnitud máxima de los terremotos registrados durante la última semana en

el área analizada. Este atributo viene definido por las leyes de Omori-Utsu y Bath. Así pues, el atributo se

define de la siguiente manera:

Donde es el tiempo medido en días.

4.2.1.3. Atributo

El atributo identifica la probabilidad de registrar un terremoto con una magnitud mayor o igual a 6. Se

añade esta información para que, de esta manera, sea posible incluir la ley de Gutenberg-Richter de

forma dinámica. El atributo es calculado a partir de la siguiente función de densidad de probabilidad

(PDF):

4.2.2. Atributos del conjunto

En esta segundo conjunto de atributos, tres de ellos son independientes de de la distribución temporal de

la magnitud del terremoto asumida. Estos son: el tiempo transcurrido durante un número ( ) predefinido

de eventos ( ), la magnitud promedio de los últimos eventos ( ) y la tasa de liberación de la

raíz cuadrada de la energía sísmica ( ).

Otros tres atributos están basados en la distribución de magnitud temporal de la ley de potencia inversa

de Gutenberg-Richter. Estos son: la pendiente de la curva de la ley de potencia inversa de Gutenberg-

Richter, más conocido como el valor , la suma de la desviación típica media sobre la línea de regresión

basada en la ley de potencia inversa de Gutenberg Richter, conocido como el valor , y la diferencia entre

la magnitud esperada y la observada basada en la ley de potencia inversa de Gutenberg-Richter,

conocido como el valor [53].

Los dos atributos restantes están basados en la distribución característica temporal de la magnitud del

terremoto. Estos son: el tiempo medio entre los eventos característicos o típicos, conocido como el valor

, y el coeficiente de variación del tiempo medio o la aperiodicidad de la media, conocido como el valor

[54].

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

27

4.2.2.1. El valor

El tiempo transcurrido durante los últimos eventos de magnitud mayor a un valor predefinido es definido

como:

Donde es el tiempo de la ocurrencia del evento n-ésimo y es el tiempo de la ocurrencia del primer

evento.

La mayoría de los terremotos están precedidos por una actividad precursora significativa, como por

ejemplo una serie de terremotos de pequeña magnitud, también llamados seísmos precursores [55]. De

hecho, algunos de los modelos predictivos más populares tales como el modelo de cascadas en colisión

[56] y otros estudios de terremotos dinámicos están basados en la observación de la frecuencia e

intensidad de los seísmos precursores. El valor puede ser una medida de la frecuencia de los seísmos

precursores dependiendo de valor umbral elegido para la magnitud.

En este caso, un valor elevado indica una falta de seísmos precursores, lo cual en muchas regiones

sísmicas puede indicar una baja probabilidad de que ocurra un gran evento sísmico en un futuro. Por el

contrario, un valor pequeño indica una frecuencia elevada de seísmos precursores y una probabilidad

más elevada de que ocurra un gran evento sísmico en un futuro.

4.2.2.2. La magnitud promedio

El promedio de las magnitudes de Richter de los últimos eventos es definida como:

Junto con el valor (el cual es una medida de la frecuencia de los seísmos precursores), el promedio de

las magnitudes de los seísmos precursores es también un indicador crucial de un terremoto inminente en

algunas regiones.

De acuerdo con la hipótesis de liberación acelerada [57] y sus modificaciones [58,59], la energía liberada

de una falla fracturada se incrementa exponencialmente a medida que el tiempo de ocurrencia de un

terremoto se vuelve más corto. En otras palabras, las magnitudes observadas de los terremotos

preliminares aumentan inmediatamente antes de la ocurrencia de un gran terremoto.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

28

4.2.2.3. Tasa de liberación de la raíz cuadrada de la energía sísmica ( )

La tasa de liberación de la raíz cuadrada de la energía sísmica sobre el tiempo es definida como:

Donde es la raíz cuadrada de la energía sísmica ( ) calculada a partir de la magnitud de Richter

correspondiente usando la siguiente relación empírica [60]:

La mayoría de las regiones sísmicas pueden ser aproximadas como sistemas físicos abiertos con un

aumento gradual de la energía a través del movimiento de las placas litosféricas. Tales sistemas

permanecen en equilibrio relativo si este aumento gradual es liberado a través de actividades sísmicas de

baja magnitud con regularidad [61]. Si estas actividades sísmicas son interrumpidas por largos periodos

de tiempo (inactividad sísmica) debido a razones mecánicas o friccionales, el sistema físico acumula

energía, la cual será liberada bruscamente en forma de eventos sísmicos mayores cuando dicha energía

almacenada alcance el umbral [62].

4.2.2.4. Pendiente del logaritmo de la frecuencia del terremoto frente a la curva de la magnitud

(valor )

Este parámetro está basado en la ley de potencia inversa de Gutenberg-Richter para frecuencias y

magnitudes de terremotos, y se expresa como:

Donde es el número de eventos de magnitud igual o mayor que , y y son constantes.

El parámetro (conocido en la literatura de la predicción de terremotos como el valor ), es la pendiente

del gráfico aproximadamente lineal entre la magnitud del terremoto y el logaritmo de la frecuencia de

ocurrencia de eventos de igual o mayor magnitud.

Los valores y pueden ser calculados usando la regresión lineal de mínimos cuadrados de la siguiente

manera:

Donde es la magnitud de evento i-ésimo, es el número de eventos de magnitud igual o mayor a

y es el total de número de eventos sísmicos.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

29

4.2.2.5. Suma de la desviación típica media sobre la línea de regresión basada en la ley de

potencia inversa de Gutenberg Richter (valor )

Este parámetro está definido en la relación magnitud-frecuencia de Gutenberg-Richter de la siguiente

manera:

Esta es una medida de conformidad de los datos sísmicos observados para la relación de la ley de

potencia inversa de Gutenberg-Richter. Cuanto más bajo es el valor , más probable es que la

distribución observada pueda ser estimada usando la ley de potencia inversa, mientras que un elevado

valor de indica mayor aleatoriedad y la inconveniencia de usar la ley de potencia para la descripción de

la distribución de magnitud-frecuencia.

4.2.2.6. Diferencia entre la magnitud esperada y la observada basada en la ley de potencia inversa

de Gutenberg-Richter (valor )

Este parámetro es definido como:

Donde es la magnitud máxima observada en los últimos eventos y es

la magnitud máxima en los últimos eventos basada en la relación de la ley de potencia inversa.

Dado que un evento de la mayor magnitud probablemente ocurra una sola vez a lo largo de los

eventos, , y la Ecuación 3 conduce a:

4.2.2.7. Tiempo medio entre los eventos característicos o típicos (valor )

Este atributo representa el tiempo medio o la diferencia observada entre los eventos típicos o

característicos a lo largo de los últimos eventos. Varias zonas sísmicas, incluida la bien estudiada

Parkfield, California, presenta tendencias periódicas en el aumento gradual del estrés y en la posterior

liberación a través de grandes terremotos, de acuerdo con la hipótesis de rebote elástico [57f] [[63]]. Para

la región de Parkfield, Kagan y Jackson [42f] [[54]] encontraron que los tiempos intermedios entre grandes

terremotos son relativamente constantes. Estos grandes terremotos son conocidos como eventos

característicos.

En este contexto, las magnitudes son definidas dentro de un rango de aproximación dado. Por ejemplo,

los terremotos de magnitud entre 7 y 7,5 son agrupados juntos como una magnitud característica. Los

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

30

eventos característicos deberían, en un escenario ideal, ser separados mediante periodos de tiempo

aproximadamente iguales. El tiempo medio es dado por:

Donde es el tiempo medio transcurrido entre los eventos característicos de magnitud ,

y es el número total de eventos característicos.

4.2.2.8. Coeficiente de variación del tiempo medio entre eventos característicos ( ), también

conocido como la aperiodicidad de la media (valor )

Este parámetro es una medida de proximidad de la distribución de la magnitud de la región sísmica a la

distribución característica, y es definido matemáticamente como:

Un alto valor de indica una gran diferencia entre el tiempo medio calculado y el tiempo medio observado

entre los eventos característicos y viceversa.

4.3. Minería de Datos

En este estudio, el problema a tratar pertenece a lo que se denomina como aprendizaje supervisado,

pues se dispone de un conocimiento determinado antes de realizar el aprendizaje. Es decir, se va a

generar una función capaz realizar predicciones, a partir de unos datos de entrada, después de haber

visto una serie de ejemplos, los cuales representan los datos de entrenamiento. Los valores predichos

van a ser valores discretos, también conocidos como etiquetas de clase. Por tanto, el problema

representa un problema de clasificación, que es un tipo concreto de aprendizaje supervisado.

Para obtener un modelo predictivo a partir de unos datos de entrenamiento, es necesario disponer de

algoritmos de clasificación. Como en este estudio se está tratando el aprendizaje a partir de conjuntos

desbalanceados, se va a hacer uso de unos algoritmos especializados en este tipo de aprendizaje.

Además de los algoritmos de clasificación desbalanceados, que tratan el problema del desbalanceo a

nivel algorítmico, existen una serie de algoritmos que tratan dicho problema a nivel de datos, como ya se

expuso en el apartado correspondiente al Estado del Arte.

En este estudio, la metodología llevada a cabo hasta la obtención de un modelo predictivo va a seguir

siempre el mismo patrón: a cada conjunto de datos se le aplica un algoritmo a nivel de datos que permita

un cierto rebalanceo de éste, y al conjunto resultante se le aplica un algoritmo de clasificación

desbalanceada.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

31

Para simplificar el diagrama anterior, se va a dar por hecho que la salida de un algoritmo de preprocesado

lleva implícita un nuevo conjunto de datos rebalanceado, y la salida de un algoritmo de clasificación lleva

implícita un nuevo modelo predictivo. Por tanto, el diagrama simplificado quedaría de la siguiente manera:

Para poder llevar a cabo el estudio, se hace uso de una herramienta llamada Keel, la cual incluye una

sección dedicada al aprendizaje desbalanceado, en la que se incluyen casi medio centenar de algoritmos

especializados en esta disciplina.

A continuación se muestra una tabla con todos los algoritmos de preprocesado y de clasificación usados durante el estudio:

Algoritmos para Datos Desbalanceados

Preprocesado Clasificación

Over-Sampling Under-Sampling Sensibles al Coste Ensembles

ADASYN CNN C SVMCS AdaBoost

ADOMS CNNTL C45CS AdaBoostM1

AHC CPM NNCS AdaBoostM2

Borderline SMOTE NCL AdaC2

ROS OSS Bagging

Safe Level SMOTE RUS BalanceCascade

SMOTE SBC DataBoost-IM

SMOTE ENN TL EasyEnsemble

SMOTE RSB IIVotes

SMOTE TL MSMOTEBagging

SPIDER MSMOTEBoost

SPIDER2 OverBagging

OverBagging2

RUSBoost

SMOTEBagging

SMOTEBoost

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

32

Algoritmos para Datos Desbalanceados

Preprocesado Clasificación

Over-Sampling Under-Sampling Sensibles al Coste Ensembles

UnderBagging

UnderBagging2

UnderOverBagging

La experimentación en Keel se realiza mediante la construcción de diagramas mediante una interfaz

gráfica. A continuación se muestra el diseño de un experimento simple en Keel:

La descripción del experimento es la siguiente: a un conjunto datos se le aplica un algoritmo de

preprocesado (ADASYN) y, tras el rebalanceo, se aplica un algoritmo de clasificación (AdaBoost). El

último elemento del diagrama corresponde a la visualización de los resultados del proceso de evaluación

del modelo obtenido tras la ejecución del clasificador. Dicho proceso de evaluación se describirá en el

apartado correspondiente.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

33

El objetivo de este estudio es realizar tantos experimentos como combinaciones posibles de algoritmos

existan.

Keel dispone de 24 algoritmos de clasificación y 20 algoritmos de preprocesado. Teniendo en cuenta que

se pueden crear modelos a partir de clasificadores sin hacer uso de algoritmos de preprocesado, hay un

total de 504 combinaciones posibles, lo que se traduce en 504 experimentos a realizar por cada conjunto

de datos. Los modelos obtenidos para cada conjunto de datos podrían representarse en forma de matriz,

para una mayor comprensión:

Conjunto de Datos 1

Clasificador - 1 Clasificador - 2 . . . Clasificador - J

Preprocesado - 0 Modelo - 01 Modelo - 02 . . . Modelo - 0J

Preprocesado - 1 Modelo - 11 Modelo - 12 . . . Modelo - 1J

Preprocesado - 2 Modelo - 21 Modelo - 22 . . . Modelo - 2J

.

.

.

.

.

.

.

.

.

. . . . .

.

.

.

Preprocesado - I Modelo - I1 Modelo - I2 . . . Modelo - IJ

Donde “Preprocesado - 0” indica que no se ha usado ningún algoritmo de preprocesado.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

34

Tras la generación y ejecución de todos los experimentos, éstos son evaluados. Dicho proceso de

evaluación será explicado con detalle en el apartado correspondiente. Tras esta etapa de evaluación, se

procede a la construcción de los ensembles (combinación de varios modelos) para la obtención de un

clasificador que mejore a los obtenidos en la primera etapa. Dado que se tiene como prioridad la

obtención de un clasificador cuyas predicciones positivas tengan una credibilidad muy alta (es decir, que

si el clasificador predice un caso positivo, éste tenga muchas probabilidades de acertar), o lo que es lo

mismo, un clasificador con muy pocos Falsos Positivos (es decir, un alto Valor Predictivo Positivo), los

ensembles a construir van a ser el resultado de la intersección de la predicción de dos o más

clasificadores. En otras palabras, el modelo obtenido tras realizar un ensemble va a predecir un caso

positivo sólo si todos los clasificadores que han intervenido en el ensemble han predicho ese mismo caso

como positivo.

Predicción Modelo 1

Predicción Modelo 2

Predicción Modelo 3

Predicción Ensemble

0 0 0 0

0 1 1 0

1 0 0 0

0 0 1 0

1 1 1 1

1 1 0 0

En esta etapa de construcción de ensembles se persiguen dos objetivos distintos: por un lado, crear

nuevos clasificadores para cada conjunto de datos individual a partir de aquellos clasificadores que mejor

se comportan en cada uno de estos conjuntos por separado; por otro lado, se busca crear un clasificador

global que se comporte bien de en el mayor número de conjuntos de datos posible a partir de aquellos

clasificadores que mejor se comportan de manera global.

Todo esto se realizará de forma iterativa, creando nuevos clasificadores y evaluándolos en cada iteración.

Se comenzará realizando ensembles a partir de dos clasificadores, aumentando en cada iteración el

número de clasificadores que participan en cada ensemble. El proceso iterativo continuará hasta

encontrar un clasificador que se considere que cumple las expectativas tras ser evaluado. A continuación

se muestra en un diagrama el proceso llevado a cabo, sin entrar en detalle en el proceso de evaluación,

el cual se explicará en el apartado correspondiente.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

35

Así pues, la metodología completa usada, sin entrar en detalle en los procesos de evaluación, es la

siguiente:

Una vez se para el proceso iterativo tras haber encontrado unos clasificadores satisfactorios, se da por

concluida la etapa de minería de datos.

4.4. Evaluación

Como paso previo a la explicación del proceso de evaluación usado en este estudio, se considera útil

comentar que, debido a la gran extensión del estudio (por cada conjunto de datos, 504 experimentos

iniciales, más los ensembles necesarios y su posterior evaluación e interpretación de los resultados) se

ejecutó una primera fase de experimentos, a modo de prueba, la cual desembocó en el descubrimiento

de un fallo de diseño de la experimentación que, aunque hizo que ésta quedara inservible, permitió la

corrección del error descubierto y evitó tener que prescindir de la experimentación completa en caso de

haberla realizado y haber descubierto dicho error posteriormente.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

36

Esta fase inicial se realizó con los cuatro conjuntos de datos que corresponden a las cuatro magnitudes

de la ciudad de Pichilemu (M4, M5, M6 y M7). La técnica de evaluación usada fue la validación cruzada

con k=5. La creación de los 5 subconjuntos fue realizada por la herramienta Keel, la cual hizo uso de la

estratificación, de manera que los pocos casos positivos que existían estuvieran proporcionalmente

repartidos en cada subconjunto. Por tanto, los subconjuntos no estaban construidos de manera

secuencial a partir de los datos del conjunto inicial. En otras palabras, el subconjunto 1 no estaba

compuesto de los primeros casos del conjunto de datos inicial, y el subconjunto 5 no estaba

compuesto de los últimos casos del conjunto inicial, siendo el número de casos del conjunto de

datos. En el apartado correspondiente se mostrarán los resultados de esta primera fase y se explicará el

motivo por el que dicha fase fue mal diseñada.

Una vez comentado esto, se procede a explicar el proceso de evaluación llevado a cabo en este estudio.

Para la evaluación de los clasificadores obtenidos tras el proceso de minería de datos, se ha realizado un

minucioso análisis de los datos, lo cual ha permitido descartar aquellos conjuntos de datos inservibles y

utilizar las técnicas de evaluación que mejor se ajustan a cada uno de ellos.

En primer lugar, se muestran los conjuntos de datos iniciales. Como para poder ejecutar los experimentos

hay que separar cada ciudad en tantos conjuntos de datos como magnitudes haya, las cuatro ciudades

de Chile se dividen en 16 conjuntos de datos, debido a que cada una de ellas posee 4 magnitudes. A esto

hay que sumarle las tres ciudades de Japón, las cuales poseen sólo una magnitud. Así pues, existe un

total de 19 conjuntos de datos iniciales.

M4 M5 M6 M7

Pichilemu

Santiago

Talca

Valparaíso

Tokyo

Nagoya

Osaka

Tras esto, se procede a realizar un análisis de todos los conjuntos de datos. En dicho análisis se muestra

el número de casos que hay en cada conjunto, así como la cantidad de casos positivos y negativos que

tienen éstos. Además, se muestra la proporción de casos positivos sobre el total de casos de cada

conjunto para, de esta manera, determinar el nivel de desbalanceo de cada uno de ellos. Los conjuntos

no desbalanceados serán sombreados de naranja, y los desbalanceados, de azul.

Tras este análisis, se descartan aquellos conjuntos de datos que no poseen ningún caso positivo, ya que

es imposible obtener un clasificador capaz de predecir casos positivos si no se tiene la posibilidad de

estudiarlos.

Total Positivos Negativos Desbalanceo

Pichilemu_M4 343 211 132 61,51603499

Pichilemu_M5 343 122 221 35,56851312

Pichilemu_M6 343 8 335 2,332361516

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

37

Total Positivos Negativos Desbalanceo

Pichilemu_M7 343 6 337 1,749271137

Talca_M4 204 69 135 33,82352941

Talca_M5 204 7 197 3,431372549

Talca_M6 204 0 204 0

Talca_M7 204 0 204 0

Santiago_M4 480 21 459 4,375

Santiago_M5 480 0 480 0

Santiago_M6 480 0 480 0

Santiago_M7 480 0 480 0

Valparaíso_M4 979 166 813 16,95607763

Valparaíso_M5 979 42 937 4,290091931

Valparaíso_M6 979 0 979 0

Valparaíso_M7 979 0 979 0

Tokyo_M5 2276 1076 1200 47,27592267

Nagoya_M5 409 8 401 1,95599022

Osaka_M5 293 11 282 3,754266212

Tras desechar los conjuntos inservibles, se dispone de un total de 12 conjuntos de datos.

M4 M5 M6 M7

Pichilemu Santiago Talca Valparaíso Tokyo Nagoya Osaka

Una vez hecho esto, se elige la técnica de evaluación que se va a usar. En este caso, y debido al error

detectado en la primera fase de experimentación, se va a hacer uso del Hold-out, con los subconjuntos

creados de manera secuencial a partir del conjunto inicial. Es decir, que si se usara un Hold-out 70%-30%

(70% de los datos del conjunto inicial para el conjunto de entrenamiento y 30% para el conjunto de test),

el conjunto de entrenamiento estaría compuesto por los primeros casos del conjunto inicial, y el

conjunto de test estaría compuesto por los últimos casos, siendo el número de casos del

conjunto de datos.

En principio, se pretende usar un Hold-out 66%-33%, que suele ser el más común. Para ello, se realiza

un análisis de cómo quedarían repartidos los datos con un Hold-out de este tipo. Además de los casos

totales, positivos y negativos que tendrían los conjuntos de entrenamiento y de test de cada conjunto de

datos, también se muestra la proporción de positivos del subconjunto respecto del total de casos del

mismo (en adelante, D), y la proporción de positivos del subconjunto respecto del total de positivos del

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

38

conjunto inicial (en adelante, PP). Estos dos últimos indicadores mostrarán cómo de proporcionados han

quedado los subconjuntos con respecto a los casos positivos, que son los verdaderamente interesantes

en este estudio. En una proporcionalidad ideal, la D del subconjunto debe ser igual a la D del conjunto

inicial (es decir, el nivel de desbalanceo debe ser el mismo). La PP del subconjunto, en cambio, debe ser

igual a la proporción del Hold-out que se está llevando a cabo. Para comprender esto mejor, se muestra

un ejemplo de lo que sería una distribución ideal de los casos positivos en un conjunto de datos de

ejemplo tras aplicar un Hold-out 70%-30%:

C. Completo C. Entrenamiento (70%) C. Test (30%)

T P N D T P N D PP T P N D PP

C.D. Ejemplo 100 10 90 10 70 7 63 10 70 30 3 27 10 30

Donde “D” indica el desbalanceo del conjunto (la proporción de positivos del conjunto respecto del total de

casos del mismo) y “PP” la proporción de positivos del subconjunto con respecto al total de positivos del

conjunto inicial. Las “D” de los conjuntos de entrenamiento y test deben ser iguales a la “D” del conjunto

inicial (en este caso, 10) y las “PP” de cada subconjunto deben ser iguales a las proporciones del Hold-

out usado (70%-30%, en este caso).

Tras esta explicación, se muestra el análisis de los conjuntos de datos y de sus subconjuntos generados

tras aplicar un Hold-out 66%-33%.

C. Completo C. Entrenamiento (66%) C. Test (33%)

Ciudad T P N D T P N D PP T P N D PP

P-M4 343 211 132 61,5 228 154 74 67,5 73 115 57 58 49,6 27

P-M5 343 122 221 35,6 228 72 156 31,6 59 115 50 65 43,5 41

P-M6 343 8 335 2,3 228 8 220 3,5 100 115 0 115 0 0

P-M7 343 6 337 1,7 228 6 222 2,6 100 115 0 115 0 0

T-M4 204 69 135 33,8 136 28 108 20,6 40,6 68 41 27 60,3 59,4

T-M5 204 7 197 3,4 136 7 129 5,1 100 68 0 68 0 0

S-M4 480 21 459 4,4 320 9 311 2,8 42,9 160 12 148 7,5 57,1

V-M4 979 166 813 17 652 66 586 10,1 39,8 327 100 227 30,6 60,2

V-M5 979 42 937 4,3 652 7 645 1,1 16,7 327 35 292 10,7 83,3

Tk-M5 2276 1076 1200 47,3 1527 555 972 36,3 51,6 749 521 228 69,6 48,4

N-M5 409 8 401 2 272 5 267 1,8 62,5 137 3 134 2,2 37,5

O-M5 293 11 282 3,8 195 11 184 5,6 100 98 0 98 0 0

Para que la tabla sea más fácil de visualizar, se va a mostrar una versión simplificada en la que

únicamente aparecen los indicadores “D” y “PP”, que son, al fin y al cabo, los que muestran la idoneidad

de los conjuntos.

C. Completo C. Entrenamiento (66%) C. Test (33%)

Ciudad D D PP D PP

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

39

C. Completo C. Entrenamiento (66%) C. Test (33%)

Ciudad D D PP D PP

P-M4 61,5 67,5 73 49,6 27

P-M5 35,6 31,6 59 43,5 41

P-M6 2,3 3,5 100 0 0

P-M7 1,7 2,6 100 0 0

T-M4 33,8 20,6 40,6 60,3 59,4

T-M5 3,4 5,1 100 0 0

S-M4 4,4 2,8 42,9 7,5 57,1

V-M4 17 10,1 39,8 30,6 60,2

V-M5 4,3 1,1 16,7 10,7 83,3

Tk-M5 47,3 36,3 51,6 69,6 48,4

N-M5 2 1,8 62,5 2,2 37,5

O-M5 3,8 5,6 100 0 0

Se han sombreado de rojo aquellos conjuntos de datos que quedan inservibles tras aplicar un Hold-out

66%-33%, ya que no hay ningún caso positivo en el conjunto de test. Esto implica que, si bien se puede

crear un modelo que sea capaz de realizar predicciones de casos positivos, al no haber casos positivos

en el conjunto de test, dicho modelo no se puede evaluar. Es por ello que, como medida alternativa, se

decide analizar los conjuntos aplicando un Hold-out 50%-50%, con el objetivo de que algunos de los

conjuntos de datos que son inservibles en el Hold-out 66%-33% sí puedan ser aprovechados en este

nuevo Hold-out. Así pues, se muestra un nuevo análisis de todos los conjuntos de datos para observar si

algunos conjuntos presentan una mejor distribución que en el Hold-out anterior.

C. Completo C. Entrenamiento (66%) C. Test (33%)

Ciudad T P N D T P N D PP T P N D PP

P-M4 343 211 132 61,5 172 135 37 78,5 64 171 76 95 44,4 36

P-M5 343 122 221 35,6 172 70 102 40,7 57,4 171 52 119 30,4 42,6

P-M6 343 8 335 2,3 172 8 164 4,7 100 171 0 171 0 0

P-M7 343 6 337 1,7 172 6 166 3,5 100 171 0 171 0 0

T-M4 204 69 135 33,8 102 5 97 4,9 7,2 102 64 38 62,7 92,8

T-M5 204 7 197 3,4 102 2 100 2 28,6 102 5 97 4,9 71,4

S-M4 480 21 459 4,4 240 6 234 2,5 28,6 240 15 225 6,3 71,4

V-M4 979 166 813 17 490 43 447 8,8 25,9 490 123 367 25,1 74,1

V-M5 979 42 937 4,3 489 3 486 0,6 7,1 489 39 450 8 92,9

Tk-M5 2276 1076 1200 47,3 1138 195 943 17,1 18,1 1138 881 257 77,4 81,9

N-M5 409 8 401 2 205 2 203 1 25 204 6 198 2,9 75

O-M5 293 11 282 3,8 147 9 138 6,1 81,8 146 2 144 1,4 18,2

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

40

De nuevo, se ofrece una versión simplificada para facilitar la comprensión:

C. Completo C. Entrenamiento (50%) C. Test (50%)

Ciudad D D PP D PP

P-M4 61,5 78,5 64 44,4 36

P-M5 35,6 40,7 57,4 30,4 42,6

P-M6 2,3 4,7 100 0 0

P-M7 1,7 3,5 100 0 0

T-M4 33,8 4,9 7,2 62,7 92,8

T-M5 3,4 2 28,6 4,9 71,4

S-M4 4,4 2,5 28,6 6,3 71,4

V-M4 17 8,8 25,9 25,1 74,1

V-M5 4,3 0,6 7,1 8 92,9

Tk-M5 47,3 17,1 18,1 77,4 81,9

N-M5 2 1 25 2,9 75

O-M5 3,8 6,1 81,8 1,4 18,2

De los 4 conjuntos de datos que quedaban inservibles en el Hold-out 66%-33%, se ha conseguido

aprovechar dos de ellos usando el Hold-out 50%-50%. Con respecto a los conjuntos de datos

correspondientes a Pichilemu M6 y Pichilemu M7, se ha estudiado en detalle la distribución de los casos

positivos dentro del conjunto. Estos casos positivos se dan en forma de ráfaga secuencial, es decir, se

dan todos de forma consecutiva, por lo que resulta imposible separar los conjuntos de tal manera que

haya casos positivos tanto en el conjunto de entrenamiento como en el de test. Por tanto, estos conjuntos

de datos quedan definitivamente inservibles.

Aprovechando que se ha hecho un análisis de los datos con dos Hold-out distintos, se realiza una

comparación entre ellos, conjunto a conjunto, para seleccionar el Hold-out que mejor se ajuste a cada

uno. En caso de que los indicadores no difieran mucho, se opta por el Hold-out 66%-33%, puesto que es

el más común. Para facilitar la comparación se añaden indicadores que muestran la diferencia, en valor

absoluto entre los indicadores de cada subconjunto y el valor ideal de dicho indicador. Cuanto menor sea

la diferencia, más se acerca el subconjunto a la distribución ideal de los casos positivos. Se sombrean de

verde los conjuntos escogidos tras haber realizado las comparaciones.

C. Completo C. Entrenamiento C. Test

Ciudad Hold-out D D Dif-D PP Dif-PP D Dif-D PP Dif-PP

P-M4 66%-33% 61,5 67,5 6 73 6,3 49,6 12 27 6,3

P-M4 50%-50% 61,5 78,5 17 64 14 44,4 17,1 36 14

P-M5 66%-33% 35,6 31,6 4 59 7,7 43,5 7,9 41 7,7

P-M5 50%-50% 35,6 40,7 5,1 57,4 7,4 30,4 5,2 42,6 7,4

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

41

C. Completo C. Entrenamiento C. Test

Ciudad Hold-out D D Dif-D PP Dif-PP D Dif-D PP Dif-PP

T-M4 66%-33% 33,8 20,6 13,2 40,6 26,1 60,3 26,5 59,4 26,1

T-M4 50%-50% 33,8 4,9 28,9 7,2 42,8 62,7 28,9 92,8 42,8

T-M5 66%-33% 3,4 5,1 1,7 100 33,3 0 3,4 0 33,3

T-M5 50%-50% 3,4 2 1,5 28,6 21,4 4,9 1,5 71,4 21,4

S-M4 66%-33% 4,4 2,8 1,6 42,9 23,8 7,5 3,1 57,1 23,8

S-M4 50%-50% 4,4 2,5 1,9 28,6 21,4 6,3 1,9 71,4 21,4

V-M4 66%-33% 17 10,1 6,8 39,8 26,9 30,6 13,6 60,2 26,9

V-M4 50%-50% 17 8,8 8,2 25,9 24,1 25,1 8,1 74,1 24,1

V-M5 66%-33% 4,3 1,1 3,2 16,7 50 10,7 6,4 83,3 50

V-M5 50%-50% 4,3 0,6 3,7 7,1 42,9 8 3,7 92,9 42,9

Tk-M5 66%-33% 47,3 36,3 10,9 51,6 15,1 69,6 22,3 48,4 15,1

Tk-M5 50%-50% 47,3 17,1 30,1 18,1 31,9 77,4 30,1 81,9 31,9

N-M5 66%-33% 2 1,8 0,1 62,5 4,2 2,2 0,2 37,5 4,2

N-M5 50%-50% 2 1 1 25 25 2,9 1 75 25

O-M5 66%-33% 3,8 5,6 1,9 100 33,3 0 3,8 0 33,3

O-M5 50%-50% 3,8 6,1 2,4 81,8 31,8 1,4 2,4 18,2 31,8

Tras la elección de los conjuntos, se muestra una tabla resumen con los conjuntos usados en el estudio,

la técnica de evaluación usada en cada uno de ellos y si son desbalanceados (azul) o no (naranja):

M4 M5 M6 M7

Pichilemu 66%-33% 66%-33% Santiago 66%-33%

Talca 66%-33% 50%-50% Valparaíso 66%-33% 66%-33% Tokyo

66%-33%

Nagoya

66%-33% Osaka

50%-50%

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

42

Se dispone, por tanto, de 10 conjuntos de datos para realizar el estudio. En 8 de ellos se hace uso del

Hold-out 66%-33%, y en los 2 restantes se usa el Hold-out 50%-50%. De los 10 conjuntos, 4 están

balanceados y 6 desbalanceados.

Una vez definidos los conjuntos y las técnicas que se van a usar para la fase de evaluación, se procede a

describir el proceso a partir del cual se obtienen los resultados del estudio.

En primer lugar, han de evaluarse los modelos obtenidos tras realizar, para cada conjunto de datos, los

504 experimentos que resultan de combinar los 24 algoritmos de clasificación con los 20 algoritmos de

preprocesado. Para ello se hace uso del Área Bajo la Curva ROC (AUC), que como ya se comentó en el

apartado Estado del Arte, es un indicador que no está sesgado en contra de la clase minoritaria (la clase

positiva) que es la que denota interés en este estudio. A partir de este indicador, se realizan dos tareas

distintas: por un lado, se seleccionan las mejores combinaciones individuales de cada conjunto de datos

para un posterior estudio, más exhaustivo; por otro lado, se hace uso de un test estadístico no

paramétrico de ranking, el cual va a permitir conocer la combinación que mejor comportamiento global

tiene (es decir, la combinación que, de media, se comporta mejor en todos los conjuntos de datos).

Para la evaluación de los mejores individuales, se construye la matriz de confusión de cada uno de ellos.

En la matriz de confusión intervienen los indicadores Verdaderos Positivos (VP), Falsos Positivos (FP),

Verdaderos Negativos (VN) y Falsos Negativos (FN), ya explicados en el apartado correspondiente al

Estado del Arte. A partir de los indicadores anteriores, se obtienen los indicadores de Sensibilidad (S),

Especificidad (E), Valor Predictivo Positivo (VPP) y Valor Predictivo Negativo (VPN), también explicados

en el apartado mencionado anteriormente. Además, se va a añadir un nuevo indicador, denominado

General (GRAL.), que se obtiene a partir de la media aritmética de los cuatro indicadores anteriores. Se

utiliza para una visión global del indicador. A continuación se muestra un ejemplo de evaluación de varios

modelos del conjunto Santiago M4:

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

43

Preprocesado Clasificador TP FP TN FN S E VPP VPN AUC GRAL.

SMOTE NNCS 12 57 91 0 1 0,61 0,17 1 0,81 0,70

OSS OverBagging 8 23 125 4 0,67 0,84 0,26 0,97 0,76 0,68

SMOTE_TL NNCS 10 51 97 2 0,83 0,66 0,16 0,98 0,74 0,66

Safe Level NNCS 11 67 81 1 0,92 0,55 0,14 0,99 0,73 0,65

Para la evaluación del mejor global, se hace uso del test de Friedman, que como ya se ha comentado

antes, es un test no paramétrico de ranking. Este test tiene como parámetro de entrada una tabla, en

cuyas filas se sitúan todos los conjuntos de datos que han intervenido, y en cuyas columnas se

encuentran todas las combinaciones algorítmicas existentes. A continuación se muestra un ejemplo

genérico:

M01 M02 . . . M0N M11 M12 . . . M1N . . . MNN

CD1 AUC 1-01

AUC 1-02

. . . AUC 1-

0N AUC 1-11

AUC 1-12

. . . AUC 1-

1N . . .

AUC 1-NN

CD2 AUC 2-01

AUC 2-02

. . . AUC 2-

0N AUC 2-11

AUC 2-12

. . . AUC 2-

1N . . .

AUC 2-NN

.

.

.

.

.

.

.

.

.

. . . . .

.

.

.

.

.

.

.

.

.

. . . . .

.

.

.

. . . .

.

.

.

.

CDN AUC N-01

AUC N-02

. . . AUC N-0N

AUC N-11

AUC N-12

. . . AUC N-1N

. . . AUC N-NN

El test devuelve la posición promedio en el ranking de cada clasificador, además de otros indicadores

tales como el valor medio, la desviación típica, y los valores mínimo y máximo que el clasificador alcanza.

Con estos indicadores se pueden conocer aquellos clasificadores que mejores resultados globales

poseen. Se muestra un ejemplo de los resultados de un test de Friedman:

Clasificador N Media Desviación

estándar Mínimo Máximo Rango promedio

Ninguno-AdaBoostM1 10 60,73 17,21 35,59 99,31 200,90

CNNTL-EasyEnsemble 10 60,33 7,56 46,72 70,40 198,40

CPM-C45CS 10 60,94 16,49 31,22 90,40 196,45

SPIDER2-C45CS 10 59,87 16,08 43,28 98,26 195,15

TL-SMOTEBoost 10 59,68 16,41 44,92 99,31 194,55

NCL-OverBagging 10 60,38 13,15 45,15 87,88 191,50

CNN-BalanceCascade 10 58,21 10,36 40,67 71,21 191,05

ADASYN-C45CS 10 62,26 18,54 39,55 89,93 190,45

ROS-OverBagging2 10 59,41 16,63 44,24 99,65 189,90

SPIDER-AdaBoostM1 10 59,11 16,04 43,92 98,96 189,15

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

44

Una vez realizadas estas dos tareas, se da paso a la construcción y evaluación de los ensembles. De

manera análoga a lo realizado anteriormente, se lleva a cabo una evaluación de los mejores ensembles

individuales y una evaluación de los mejores ensembles globales. Cabe recordar que este proceso de

construcción y evaluación de los ensembles se realiza de forma iterativa hasta encontrar aquellos

ensembles que cumplan las expectativas que se tengan como objetivo.

En esta ocasión, la evaluación de los ensembles individuales y globales se lleva a cabo de la misma

forma: construyendo la matriz de confusión y obteniendo los posteriores indicadores a partir de ésta. La

diferencia radica en que para escoger los mejores ensembles de una iteración concreta, los mejores

individuales se escogen manualmente, mientras que para escoger los mejores globales se realiza de

nuevo un test de Friedman, que devuelve los mejores ensembles globales en esa iteración concreta.

Una vez finalizado el proceso iterativo se da por concluida la etapa de evaluación.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

45

Así pues, la metaheurística completa desarrollada es la que se muestra a continuación:

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

46

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

47

5. Resultados

Tras finalizar la etapa de evaluación, se valoran los resultados de todos los experimentos y ensembles

realizados. En primer lugar se van a describir brevemente los resultados y errores de la fase inicial que

fue desechada; posteriormente, se explicará en detalle toda la fase definitiva. Esta última fase, debido a

su extensión, se va a dividir en dos apartados principales: los resultados de los clasificadores individuales

y los resultados de los clasificadores globales. Dentro de cada apartado se explicarán uno a uno los

resultados de cada conjunto de datos, el cual se dividirá de nuevo en dos subapartados: los resultados de

los clasificadores simples y los resultados de los ensembles.

Con respecto a la fase inicial, como se explicó en el apartado anterior, se realizó una experimentación de

los 4 conjuntos pertenecientes a las diferentes magnitudes de la ciudad de Pichilemu.

Se hizo, para cada conjunto de datos, una media aritmética de todos los resultados obtenidos que, como

se comentó en el apartado anterior, están medidos con el indicador Área Bajo la Curva ROC (AUC),

agrupándolos por algoritmo de preprocesado y por algoritmo de clasificación. Se muestran las gráficas

para el conjunto de datos Pichulemu M7:

Destacó en sobremanera el resultado del algoritmo de preprocesado ADASYN, el cual tenía un AUC

medio de más de 0,95. Se seleccionaron las mejores combinaciones que poseía este algoritmo y se hizo

un análisis más detallado de dichos clasificadores. Al haber realizado la experimentación usando una

0,50

0,60

0,70

0,80

0,90

1,00

0,70 0,72 0,74 0,76 0,78 0,80 0,82 0,84

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

48

validación cruzada con k=5, por cada experimento había un total de 5 ejecuciones, por lo que había que

calcular 5 matrices de confusión por cada uno de ellos. Se muestran los análisis de algunos de estos

clasificadores:

AdaBoost TP FP TN FN S E VPP VPN AUC

Ejecución 1 1 0 67 1 1 0,9853 1 0,9853 0,9926

Ejecución 2 1 0 68 0 1 1 1 1 1

Ejecución 3 2 0 65 2 1 0,9701 1 0,9701 0,9851

Ejecución 4 1 0 67 0 1 1 1 1 1

Ejecución 5 1 0 67 0 1 1 1 1 1

Promedio

1 0,9911 1 0,9911 0,9955

Bagging TP FP TN FN S E VPP VPN AUC

Ejecución 1 1 0 68 0 1 1 1 1 1

Ejecución 2 1 0 68 0 1 1 1 1 1

Ejecución 3 2 0 65 2 1 0,9701 1 0,9701 0,9851

Ejecución 4 1 0 66 1 1 0,9851 1 0,9851 0,9925

Ejecución 5 1 0 67 0 1 1 1 1 1

Promedio

1 0,9910 1 0,9910 0,9955

UnderBagging TP FP TN FN S E VPP VPN AUC

Ejecución 1 1 0 67 1 1 0,9853 1 0,9853 0,9926

Ejecución 2 1 0 68 0 1 1 1 1 1,0000

Ejecución 3 2 0 66 1 1 0,9851 1 0,9851 0,9925

Ejecución 4 1 0 66 1 1 0,9851 1 0,9851 0,9925

Ejecución 5 1 0 67 0 1 1 1 1 1

Promedio

1 0,9911 1 0,9911 0,9955

Como se observa, los resultados son casi perfectos. Esto dio pie a sospechas de que algo no se estaba

haciendo bien. Es por ello que se analizó la forma en que Keel realizó los experimentos. Como ya se

comentó anteriormente, Keel hizo uso de la estratificación para la generación de los 5 subconjuntos, por

lo que los datos no estaban repartidos de forma secuencial. Los datos de este estudio se encuentran

ordenados cronológicamente, ya que es una serie temporal. Dichos datos van variando paulatinamente a

lo largo de la serie, por lo que los datos que se encuentran en posiciones consecutivas son muy similares

entre ellos. Cuando los datos se reparten entre los subconjuntos de forma no secuencial, ocurre que, en

cada experimento, el conjunto de test siempre tiene casos muy parecidos a los del conjunto de

entrenamiento. Esto produce un efecto similar a cuando entrenamos y evaluamos un modelo con un

mismo conjunto de datos, en el que los resultados de la evaluación siempre son perfectos, debido a que

el modelo predictivo realmente no realiza predicciones, sino que “se copia” de los casos del conjunto de

entrenamiento. En este caso, como los datos no son iguales sino muy parecidos, los resultados no son

perfectos sino casi perfectos. Desgraciadamente, estos resultados no son realistas, por lo que esta

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

49

experimentación queda inservible. Eso sí, el error detectado ha permitido la realización del estudio

completo en la fase definitiva sin caer en el mismo.

En esta fase definitiva, en la que se han ejecutado todos los experimentos que existían, 5040 en total, hay

que señalar que algunos de estos experimentos no se han ejecutado correctamente, generando un error

en la herramienta Keel. En concreto, los algoritmos de preprocesado SMOTE ENN, SMOTE RSB y SBC,

y los algoritmos de clasificación C SVMCS y DataBoost-IM no se han ejecutado bien nunca. Además,

otros algoritmos, como los de clasificación MSMOTEBagging, MSMOTEBoost o IIVotes, entre otros, han

dado error en algunas ocasiones. En definitiva, en el proceso de experimentación han intervenido

realmente 17 algoritmos de preprocesado y 22 algoritmos de clasificación, generando alrededor de 320

experimentos por cada uno de los diez conjunto de datos, lo que hace un total de 3200 experimentos,

aproximadamente.

Como se señaló anteriormente, debido a su extensión, esta fase se divide en dos grandes apartados: los

resultados de los mejores clasificadores individuales y los resultados de los mejores clasificadores

globales.

5.1. Mejores Clasificadores Individuales

5.1.1. Pichilemu M4

5.1.1.1. Clasificadores Simples

En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

50

Se observa que, en general, todos los algoritmos están cerca de 0,5, (el peor resultado posible en AUC,

pues evidencia falta de capacidad discriminatoria) exceptuando el algoritmo NNCS, que posee un valor

de 0,5843.

Se escogen aquellas combinaciones que mejores resultados presentan:

Preprocesado Clasificador AUC

ADASYN NNCS 0,7114

OSS NNCS 0,6951

SMOTE_TL NNCS 0,6933

CNN NNCS 0,6588

ADOMS NNCS 0,6335

Se construyen las matrices de confusión:

Preprocesado Clasificador TP FP TN FN

ADASYN NNCS 30 6 52 27

OSS NNCS 36 14 44 21

SMOTE_TL NNCS 24 2 56 33

CNN NNCS 24 6 52 33

ADOMS NNCS 28 13 45 29

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

0,7000

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

51

Y se calculan los indicadores:

Preprocesado Clasificador S E VPP VPN GRAL.

ADASYN NNCS 0,5263 0,8966 0,8333 0,6582 0,7286

OSS NNCS 0,6316 0,7586 0,7200 0,6769 0,6968

SMOTE_TL NNCS 0,4211 0,9655 0,9231 0,6292 0,7347

CNN NNCS 0,4211 0,8966 0,8000 0,6118 0,6823

ADOMS NNCS 0,4912 0,7759 0,6829 0,6081 0,6395

Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:

Preprocesado Clasificador S E VPP VPN GRAL.

SMOTE_TL NNCS 0,4211 0,9655 0,9231 0,6292 0,7347

5.1.1.2. Ensembles

Se numeran los algoritmos que intervienen en los ensembles:

Preprocesado Clasificador Nº

ADASYN NNCS 1

OSS NNCS 2

SMOTE_TL NNCS 3

CNN NNCS 4

ADOMS NNCS 5

Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de

ellas:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 30 4 61 20 0,6000 0,9385 0,8824 0,7531 0,7935

1,3 22 2 63 28 0,4400 0,9692 0,9167 0,6923 0,7546

1,4 22 1 64 28 0,4400 0,9846 0,9565 0,6957 0,7692

1,5 27 6 59 23 0,5400 0,9077 0,8182 0,7195 0,7463

2,3 24 1 64 26 0,4800 0,9846 0,9600 0,7111 0,7839

2,4 23 2 63 27 0,4600 0,9692 0,9200 0,7000 0,7623

2,5 28 9 56 22 0,5600 0,8615 0,7568 0,7179 0,7241

3,4 23 0 65 27 0,4600 1,0000 1,0000 0,7065 0,7916

3,5 21 2 63 29 0,4200 0,9692 0,9130 0,6848 0,7468

4,5 21 2 63 29 0,4200 0,9692 0,9130 0,6848 0,7468

1,2,3 22 1 64 28 0,4400 0,9846 0,9565 0,6957 0,7692

1,2,4 22 1 64 28 0,4400 0,9846 0,9565 0,6957 0,7692

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

52

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2,5 27 4 61 23 0,5400 0,9385 0,8710 0,7262 0,7689

2,3,4 23 0 65 27 0,4600 1,0000 1,0000 0,7065 0,7916

2,3,5 21 1 64 29 0,4200 0,9846 0,9545 0,6882 0,7618

3,4,5 21 0 65 29 0,4200 1,0000 1,0000 0,6915 0,7779

Se seleccionan los ensembles con mejor VPP y mejor promedio general:

Intersección S E VPP VPN GRAL.

Mejor Gral. 1,2 0,6000 0,9385 0,8824 0,7531 0,7935

Mejor VPP 3,4 0,4600 1,0000 1,0000 0,7065 0,7916

5.1.1.3 Mejor clasificador individual

Se comparan los mejores clasificadores simples con los mejores ensembles:

Mejor General S E VPP VPN GRAL.

SMOTE_TL - NNCS 0,4211 0,9655 0,9231 0,6292 0,7347

1,2 0,6000 0,9385 0,8824 0,7531 0,7935

Mejora Ensemble 0,1789 -0,0271 -0,0407 0,1239 0,0588

Mejor VPP S E VPP VPN GRAL.

SMOTE_TL - NNCS 0,4211 0,9655 0,9231 0,6292 0,7347

3,4 0,4600 1,0000 1,0000 0,7065 0,7916

Mejora Ensemble 0,0389 0,0345 0,0769 0,0773 0,0569

El ensemble de los clasificadores 3 y 4 (SMOTE TL - NNCS + CNN - NNCS) mejora en todos los

aspectos al mejor clasificador simple (SMOTE TL - NNCS). Por tanto, para el conjunto de datos Pichilemu

M4, el mejor clasificador que se ha encontrado es el ensemble “SMOTE TL - NNCS + CNN - NNCS”:

Clasificador S E VPP VPN GRAL.

SMOTE TL - NNCS + CNN - NNCS

0,46 1 1 0,7065 0,7916

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

53

5.1.2. Pichilemu M5

5.1.2.1. Clasificadores Simples

En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:

Se observa una gran variabilidad del valor promedio entre algoritmos, destacando el algoritmo de

preprocesado ADASYN, con un valor de 0,63.

Se escogen aquellas combinaciones que mejores resultados presentan:

0,4800

0,5000

0,5200

0,5400

0,5600

0,5800

0,6000

0,6200

0,6400

0,5400

0,5500

0,5600

0,5700

0,5800

0,5900

0,6000

0,6100

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

54

Preprocesado Clasificador AUC

ADASYN C45CS 0,7692

SPIDER BalanceCascade 0,7631

ADOMS NNCS 0,7423

OSS Bagging 0,7215

CPM UnderBagging 0,6954

Se construyen las matrices de confusión:

Preprocesado Clasificador TP FP TN FN

ADASYN C45CS 30 4 61 20

SPIDER BalanceCascade 34 10 55 16

ADOMS NNCS 25 1 64 25

OSS Bagging 26 5 60 24

CPM UnderBagging 28 11 54 22

Y se calculan los indicadores:

Preprocesado Clasificador S E VPP VPN GRAL.

ADASYN C45CS 0,6 0,9385 0,8824 0,7531 0,7935

SPIDER BalanceCascade 0,68 0,8462 0,7727 0,7746 0,7684

ADOMS NNCS 0,5 0,9846 0,9615 0,7191 0,7913

OSS Bagging 0,52 0,9231 0,8387 0,7143 0,7490

CPM UnderBagging 0,56 0,8308 0,7179 0,7105 0,7048

Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general.

Preprocesado Clasificador S E VPP VPN GRAL.

Mejor GRAL. ADASYN C45CS 0,6 0,9385 0,8824 0,7531 0,7935

Mejor VPP ADOMS NNCS 0,5 0,9846 0,9615 0,7191 0,7913

5.1.2.2. Ensembles

Se enumeran los algoritmos que intervienen en los ensembles:

Preprocesado Clasificador Nº

ADASYN C45CS 1

SPIDER BalanceCascade 2

ADOMS NNCS 6

OSS Bagging 5

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

55

Preprocesado Clasificador Nº

CPM UnderBagging 4

Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de

ellas:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 27 0 65 23 0,54 1 1 0,7386 0,8197

1,3 20 0 65 30 0,4 1 1 0,6842 0,7711

1,4 20 0 65 30 0,4 1 1 0,6842 0,7711

1,5 20 1 64 30 0,4 0,9846 0,9524 0,6809 0,7545

1,6 23 0 65 27 0,46 1 1 0,7065 0,7916

2,3 22 7 58 28 0,44 0,8923 0,7586 0,6744 0,6913

2,4 23 7 58 27 0,46 0,8923 0,7667 0,6824 0,7003

2,5 20 3 62 30 0,4 0,9538 0,8696 0,6739 0,7243

2,6 22 0 65 28 0,44 1 1 0,6989 0,7847

3,4 21 7 58 29 0,42 0,8923 0,75 0,6667 0,6822

3,5 18 3 62 32 0,36 0,9538 0,8571 0,6596 0,7076

3,6 19 0 65 31 0,38 1 1 0,6771 0,7643

4,5 19 3 62 31 0,38 0,9538 0,8636 0,6667 0,7160

4,6 19 0 65 31 0,38 1 1 0,6771 0,7643

5,6 18 0 65 32 0,36 1 1 0,6701 0,7575

Se seleccionan los ensembles con mejor VPP y mejor promedio general:

Intersección S E VPP VPN GRAL.

Mejor Ambos 1,2 0,54 1 1 0,7386 0,8197

5.1.2.3. Mejor clasificador individual

Se comparan los mejores clasificadores simples con los mejores ensembles:

Mejor GRAL. S E VPP VPN GRAL.

ADASYN - C45CS 0,6 0,9385 0,8824 0,7531 0,7935

1,2 0,54 1,0000 1,0000 0,7386 0,8197

Mejora Ensemble -0,06 0,0615 0,1176 -0,0145 0,0262

Mejor VPP S E VPP VPN GRAL.

ADOMS - NNCS 0,5 0,9846 0,9615 0,7191 0,7913

1,2 0,54 1,0000 1,0000 0,7386 0,8197

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

56

Mejor VPP S E VPP VPN GRAL.

Mejora Ensemble 0,04 0,0154 0,0385 0,0195 0,0283

El ensemble de los clasificadores 1 y 2 (ADASYN - C45CS + SPIDER - BalanceCascade) mejora, en

general, a los mejores clasificadores simples (ADASYN - C45CS y ADOMS - NNCS). Por tanto, para el

conjunto de datos Pichilemu M5, el mejor clasificador que se ha encontrado es el ensemble “ADASYN -

C45CS + SPIDER - BalanceCascade”:

Clasificador S E VPP VPN GRAL.

ADASYN - C45CS + SPIDER - BalanceCascade

0,54 1 1 0,7386 0,8197

5.1.3. Santiago M4

5.1.3.1. Clasificadores Simples

En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

57

Se observa que, en general, todos los algoritmos están cerca de 0,5, (el peor resultado posible en AUC,

pues evidencia falta de capacidad discriminatoria), destacando el algoritmo de preprocesado OSS, con un

valor de 0,57.

Se escogen aquellas combinaciones que mejores resultados presentan:

Preprocesado Clasificador AUC

SMOTE NNCS 0,8074

OSS OverBagging 0,7556

SMOTE_TL NNCS 0,7444

Safe Level NNCS 0,7320

OSS OverBagging2 0,7218

OSS UnderOverBagging 0,7151

Ninguno NNCS 0,6926

CPM OverBagging2 0,6779

SPIDER2 UnderBagging 0,6734

Ninguno BalanceCascade 0,6588

AHC EasyEnsemble 0,6486

Se construyen las matrices de confusión:

Preprocesado Clasificador TP FP TN FN

SMOTE NNCS 12 57 91 0

OSS OverBagging 8 23 125 4

SMOTE_TL NNCS 10 51 97 2

Safe Level NNCS 11 67 81 1

OSS OverBagging2 8 33 115 4

OSS UnderOverBagging 8 35 113 4

0,4600

0,4700

0,4800

0,4900

0,5000

0,5100

0,5200

0,5300

0,5400

0,5500

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

58

Preprocesado Clasificador TP FP TN FN

Ninguno NNCS 12 91 57 0

CPM OverBagging2 8 46 102 4

SPIDER2 UnderBagging 7 35 113 5

Ninguno BalanceCascade 9 64 84 3

AHC EasyEnsemble 6 30 118 6

Y se calculan los indicadores:

Preprocesado Clasificador S E VPP VPN GRAL.

SMOTE NNCS 1,0000 0,6149 0,1739 1,0000 0,6972

OSS OverBagging 0,6667 0,8446 0,2581 0,9690 0,6846

SMOTE_TL NNCS 0,8333 0,6554 0,1639 0,9798 0,6581

Safe Level NNCS 0,9167 0,5473 0,1410 0,9878 0,6482

OSS OverBagging2 0,6667 0,7770 0,1951 0,9664 0,6513

OSS UnderOverBagging 0,6667 0,7635 0,1860 0,9658 0,6455

Ninguno NNCS 1,0000 0,3851 0,1165 1,0000 0,6254

CPM OverBagging2 0,6667 0,6892 0,1481 0,9623 0,6166

SPIDER2 UnderBagging 0,5833 0,7635 0,1667 0,9576 0,6178

Ninguno BalanceCascade 0,7500 0,5676 0,1233 0,9655 0,6016

AHC EasyEnsemble 0,5000 0,7973 0,1667 0,9516 0,6039

Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:

Preprocesado Clasificador S E VPP VPN GRAL.

Mejor GRAL. SMOTE NNCS 1,0000 0,6149 0,1739 1,0000 0,6972

Mejor VPP OSS OverBagging 0,6667 0,8446 0,2581 0,9690 0,6846

5.1.3.2. Ensembles

Se enumeran los algoritmos que intervienen en los ensembles:

Preprocesado Clasificador Nº

SMOTE NNCS 1

OSS OverBagging 2

SMOTE_TL NNCS 3

Safe Level NNCS 4

OSS OverBagging2 5

OSS UnderOverBagging 6

Ninguno NNCS 7

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

59

Preprocesado Clasificador Nº

CPM OverBagging2 8

SPIDER2 UnderBagging 9

Ninguno BalanceCascade 10

AHC EasyEnsemble 11

Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de

ellas:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,7 12 45 103 0 1,0000 0,6959 0,2105 1,0000 0,6355

1,7,4 11 32 116 1 0,9167 0,7838 0,2558 0,9915 0,6521

1,7,4,10 10 38 110 2 0,8333 0,7432 0,2083 0,9821 0,5950

1,7,3 9 31 117 3 0,7500 0,7905 0,2250 0,9750 0,5885

1,7,4,3 9 15 133 3 0,7500 0,8986 0,3750 0,9779 0,6745

2,5 8 21 127 4 0,6667 0,8581 0,2759 0,9695 0,6002

2,6 8 22 126 4 0,6667 0,8514 0,2667 0,9692 0,5949

2,8 6 18 130 6 0,5000 0,8784 0,2500 0,9559 0,5428

5,6 8 27 121 4 0,6667 0,8176 0,2286 0,9680 0,5709

2,5,6 8 21 127 4 0,6667 0,8581 0,2759 0,9695 0,6002

1,7,4,2,5 8 9 139 4 0,6667 0,9392 0,4706 0,9720 0,6921

1,7,4,10,2,5 7 7 141 5 0,5833 0,9527 0,5000 0,9658 0,6787

1,7,4,10,9 6 6 142 6 0,5000 0,9595 0,5000 0,9595 0,6532

1,7,4,2,5,9 6 4 144 6 0,5000 0,9730 0,6000 0,9600 0,6910

1,7,4,10,2,5,9 5 3 145 7 0,4167 0,9797 0,6250 0,9539 0,6738

9,11 6 5 143 6 0,5000 0,9662 0,5455 0,9597 0,6706

1,7,4,10,11 6 6 142 6 0,5000 0,9595 0,5000 0,9595 0,6532

1,7,4,2,5,11 6 4 144 6 0,5000 0,9730 0,6000 0,9600 0,6910

1,7,4,10,2,5,11 5 3 145 7 0,4167 0,9797 0,6250 0,9539 0,6738

1,7,4,10,9,11 6 2 146 6 0,5000 0,9865 0,7500 0,9605 0,7455

1,7,4,2,5,9,11 5 2 146 7 0,4167 0,9865 0,7143 0,9542 0,7058

1,7,4,10,2,5,9,11 5 2 146 7 0,4167 0,9865 0,7143 0,9542 0,7058

10,2,5 7 14 134 5 0,5833 0,9054 0,3333 0,9640 0,6074

2,5,9,11 5 2 146 7 0,4167 0,9865 0,7143 0,9542 0,7058

10,2,5,9,11 5 2 146 7 0,4167 0,9865 0,7143 0,9542 0,7058

10,9,11 5 3 145 7 0,4167 0,9797 0,6250 0,9539 0,6738

1,7,9,11 6 3 145 6 0,5000 0,9797 0,6667 0,9603 0,7155

1,7,4,9,11 6 3 145 6 0,5000 0,9797 0,6667 0,9603 0,7155

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

60

Se seleccionan los ensembles con mejor VPP y mejor promedio general:

Intersección S E VPP VPN GRAL.

Mejor Ambos 1,7,4,10,9,11 0,5000 0,9865 0,7500 0,9605 0,7455

5.1.3.3. Mejor clasificador individual

Se comparan los mejores clasificadores simples con los mejores ensembles:

Mejor GRAL. S E VPP VPN GRAL.

SMOTE - NNCS 1,0000 0,6149 0,1739 1,0000 0,6972

1,7,4,10,9,11 0,5000 0,9865 0,7500 0,9605 0,7455

Mejora Ensemble -0,5000 0,3716 0,5761 -0,0395 0,0483

Mejor VPP S E VPP VPN GRAL.

OSS - OverBagging 0,6667 0,8446 0,2581 0,9690 0,6846

1,7,4,10,9,11 0,5000 0,9865 0,7500 0,9605 0,7455

Mejora Ensemble -0,1667 0,1419 0,4919 -0,0085 0,0609

El ensemble de los clasificadores 1,4,7,9,10 y 11 (SMOTE - NNCS + Safe Level SMOTE - NNCS + NNCS

+ SPIDER2 - UnderBagging + BalanceCascade + AHC - EasyEnsemble ) llega a triplicar el VPP del mejor

simple, eso sí, a costa de una disminución de la sensibilidad. Aun así, el ensemble presenta un mejor

indicador General. Por tanto, para el conjunto de datos Santiago M4, el mejor clasificador que se ha

encontrado es el ensemble “SMOTE - NNCS + Safe Level SMOTE - NNCS + NNCS + SPIDER2 -

UnderBagging + BalanceCascade + AHC - EasyEnsemble”:

Clasificador S E VPP VPN GRAL.

SMOTE - NNCS + Safe Level SMOTE - NNCS + NNCS + SPIDER2 - UnderBagging + BalanceCascade + AHC - EasyEnsemble

0,5000 0,9865 0,7500 0,9605 0,7455

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

61

5.1.4. Talca M4

5.1.4.1. Clasificadores Simples

En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:

Se observa una gran variabilidad del valor promedio entre algoritmos de preprocesado, no así en los de

clasificación, que se acercan en general a 0,5. No destaca ningún algoritmo en sobremanera.

Se escogen aquellas combinaciones que mejores resultados presentan:

0,4200

0,4400

0,4600

0,4800

0,5000

0,5200

0,5400

0,5600

0,5800

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

62

Preprocesado Clasificador AUC

SMOTE BalanceCascade 0,8333

SMOTE C45CS 0,6635

Se construyen las matrices de confusión:

Preprocesado Clasificador TP FP TN FN

SMOTE BalanceCascade 41 9 18 0

SMOTE C45CS 21 5 22 20

Y se calculan los indicadores:

Preprocesado Clasificador S E VPP VPN AUC

SMOTE BalanceCascade 1,0000 0,6667 0,8200 1,0000 0,8717

SMOTE C45CS 0,5122 0,8148 0,8077 0,5238 0,6646

Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:

Preprocesado Clasificador S E VPP VPN GRAL.

Mejor Ambos SMOTE BalanceCascade 1,0000 0,6667 0,8200 1,0000 0,8717

5.1.4.2. Ensembles

Se enumeran los algoritmos que intervienen en los ensembles:

Preprocesado Clasificador Nº

SMOTE BalanceCascade 1

SMOTE C45CS 2

Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de

ellas:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 21 2 25 20 0,5122 0,9259 0,9130 0,5556 0,7267

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

63

Se seleccionan los ensembles con mejor VPP y mejor promedio general:

Intersección S E VPP VPN GRAL.

Mejor Ambos 1,2 0,5122 0,9259 0,9130 0,5556 0,7267

5.1.4.3. Mejor clasificador individual

Se comparan los mejores clasificadores simples con los mejores ensembles:

Mejor Ambos S E VPP VPN GRAL.

SMOTE - BalanceCascade 1 0,6667 0,82 1 0,8717

1,2 0,5122 0,9259 0,9130 0,5556 0,7267

Mejora Ensemble -0,4878 0,2593 0,0930 -0,4444 -0,1450

El ensemble de los clasificadores 1,2 (SMOTE - BalanceCascade + SMOTE - C45CS), aunque mejora el

VPP del mejor simple, en términos generales es peor que éste. Por tanto, para el conjunto de datos Talca

M4, el mejor clasificador que se ha encontrado es la combinación simple “SMOTE - BalanceCascade”:

Clasificador S E VPP VPN GRAL.

SMOTE - BalanceCascade 1 0,6667 0,82 1 0,8717

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

64

5.1.5. Talca M5

5.1.5.1. Clasificadores Simples

En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:

Se observa una gran variabilidad del valor promedio entre algoritmos de clasificación, no así en los de

preprocesado, que se acercan en general a 0,6. Destaca el algoritmo de preprocesado ADASYN, con un

valor de 0,77.

Se escogen aquellas combinaciones que mejores resultados presentan:

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

65

Preprocesado Clasificador AUC

ADASYN NNCS 0,9646

CPM C45CS 0,9040

ADASYN UnderOverBagging 0,8838

SPIDER2 NNCS 0,8242

CPM NNCS 0,8091

Se construyen las matrices de confusión:

Preprocesado Clasificador TP FP TN FN

ADASYN NNCS 5 7 92 0

CPM C45CS 5 19 80 0

ADASYN UnderOverBagging 5 23 76 0

SPIDER2 NNCS 4 15 84 1

CPM NNCS 4 18 81 1

Y se calculan los indicadores:

Preprocesado Clasificador S E VPP VPN GRAL.

ADASYN NNCS 1 0,9293 0,4167 1,0000 0,8365

CPM C45CS 1 0,8081 0,2083 1,0000 0,7541

ADASYN UnderOverBagging 1 0,7677 0,1786 1,0000 0,7366

SPIDER2 NNCS 0,8 0,8485 0,2105 0,9882 0,7118

CPM NNCS 0,8 0,8182 0,1818 0,9878 0,6970

Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:

Preprocesado Clasificador S E VPP VPN GRAL.

Mejor Ambos ADASYN NNCS 1 0,9293 0,4167 1 0,8365

5.1.5.2. Ensembles

Se enumeran los algoritmos que intervienen en los ensembles:

Preprocesado Clasificador Nº

ADASYN NNCS 1

CPM C45CS 2

ADASYN UnderOverBagging 3

SPIDER2 NNCS 4

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

66

Preprocesado Clasificador Nº

CPM NNCS 5

Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de

ellas:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 5 0 99 0 1 1 1 1 1

1,3 5 7 92 0 1 0,9293 0,4167 1 0,7820

1,4 4 4 95 1 0,8 0,9596 0,5000 0,9896 0,7532

1,5 4 5 94 1 0,8 0,9495 0,4444 0,9895 0,7313

2,3 5 0 99 0 1 1 1 1 1

2,4 4 2 97 1 0,8 0,9798 0,6667 0,9898 0,8155

2,5 4 4 95 1 0,8 0,9596 0,5000 0,9896 0,7532

3,4 4 9 90 1 0,8 0,9091 0,3077 0,9890 0,6723

3,5 4 13 86 1 0,8 0,8687 0,2353 0,9885 0,6347

4,5 3 10 89 2 0,6 0,8990 0,2308 0,9780 0,5766

Se seleccionan los ensembles con mejor VPP y mejor promedio general:

Intersección S E VPP VPN GRAL.

Mejor Ambos 1,2 / 2,3 1 1 1 1 1

5.1.5.3. Mejor clasificador individual

Se comparan los mejores clasificadores simples con los mejores ensembles:

Mejor Ambos S E VPP VPN GRAL.

ADASYN - NNCS 1 0,9293 0,4167 1 0,8365

1,2 / 2,3 1 1 1 1 1

Mejora Ensemble 0 0,0707 0,5833 0 0,1635

El ensemble de los clasificadores 1 y 2 (ADASYN - NNCS + CPM - C45CS) o 3 y 4 (CPM - C45CS +

ADASYN - UnderOverBagging), tienen unos resultados perfectos, por lo que mejora, como es obvio, en

todos los aspectos al mejor clasificador simple. Por tanto el mejor clasificador que se ha encontrado son

los ensembles 1 y 2 (ADASYN - NNCS + CPM - C45CS) y 3 y 4 (CPM - C45CS + ADASYN -

UnderOverBagging):

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

67

Clasificador S E VPP VPN GRAL.

ADASYN - NNCS + CPM - C45CS / CPM - C45CS + ADASYN - UnderOverBagging

1 1 1 1 1

5.1.6. Valparaíso M4

5.1.6.1. Clasificadores Simples

En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:

0,56

0,58

0,6

0,62

0,64

0,66

0,68

0,7

0,72

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

68

Se observa una gran variabilidad del valor promedio entre algoritmos de preprocesado, no así en los de

clasificación, que se están en general entre 0,65 y 0,7. No destaca ningún algoritmo en sobremanera.

Se escogen aquellas combinaciones que mejores resultados presentan:

Preprocesado Clasificador AUC

Borderline RUSBoost 0,7450

TL AdaBoost 0,7450

ROS SMOTEBoost 0,7450

SMOTE_TL UnderBagging 0,7446

TL IIVotes 0,7400

Ninguno AdaBoost 0,7384

SMOTE C45CS 0,7352

SMOTE MSMOTEBoost 0,7346

ADASYN SMOTEBoost 0,7340

Se construyen las matrices de confusión:

Preprocesado Clasificador TP FP TN FN

Borderline RUSBoost 49 0 227 51

TL AdaBoost 49 0 227 51

ROS SMOTEBoost 49 0 227 51

SMOTE_TL UnderBagging 52 7 220 48

TL IIVotes 51 0 227 49

Ninguno AdaBoost 49 3 224 51

SMOTE C45CS 51 9 218 49

SMOTE MSMOTEBoost 50 7 220 50

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

69

Preprocesado Clasificador TP FP TN FN

ADASYN SMOTEBoost 49 5 222 51

Y se calculan los indicadores:

Preprocesado Clasificador S E VPP VPN GRAL.

Borderline RUSBoost 0,4900 1,0000 1,0000 0,8165 0,8266

TL AdaBoost 0,4900 1,0000 1,0000 0,8165 0,8266

ROS SMOTEBoost 0,4900 1,0000 1,0000 0,8165 0,8266

SMOTE_TL UnderBagging 0,5200 0,9692 0,8814 0,8209 0,7979

TL IIVotes 0,5100 1,0000 1,0000 0,8225 0,8331

Ninguno AdaBoost 0,4900 0,9868 0,9423 0,8145 0,8084

SMOTE C45CS 0,5100 0,9604 0,8500 0,8165 0,7842

SMOTE MSMOTEBoost 0,5000 0,9692 0,8772 0,8148 0,7903

ADASYN SMOTEBoost 0,4900 0,9780 0,9074 0,8132 0,7971

Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:

Preprocesado Clasificador S E VPP VPN GRAL.

Mejor Ambos TL IIVotes 0,5100 1,0000 1,0000 0,8225 0,8331

5.1.6.2. Ensembles

Como se observa en los resultados de las combinaciones simples anteriores, la mayoría de ellas tienen

un VPP máximo. El objetivo de los ensembles que se están realizando es el de aumentar dicho indicador.

Por tanto, se considera prescindible la realización de ensembles en este conjunto de datos, pues no hay

margen de mejora.

5.1.6.3. Mejor clasificador individual

Al no haber ensembles, el mejor individual es la mejor combinación simple, esto es, el clasificador “TL -

IIVotes”:

Clasificador S E VPP VPN GRAL.

TL - IIVotes 0,5100 1,0000 1,0000 0,8225 0,8331

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

70

5.1.7. Valparaíso M5

5.1.7.1. Clasificadores Simples

En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:

Se observa una gran variabilidad del valor promedio tanto en algoritmos de preprocesado como

clasificación. Los valores máximos apenas superan el 0,5, por lo que, a priori, se prevén unos malos

resultados.

0,4500

0,4600

0,4700

0,4800

0,4900

0,5000

0,5100

0,5200

0,5300

0,5400

0,4600

0,4700

0,4800

0,4900

0,5000

0,5100

0,5200

0,5300

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

71

Se escogen aquellas combinaciones que mejores resultados presentan:

Preprocesado Clasificador AUC

CNN UnderBagging 0,7025

CNN EasyEnsemble 0,6700

SMOTE NNCS 0,6632

Safe Level NNCS 0,6557

CNNTL BalanceCascade 0,6541

Borderline NNCS 0,6140

TL NNCS 0,6026

Se construyen las matrices de confusión:

Preprocesado Clasificador TP FP TN FN

CNN UnderBagging 27 107 185 8

CNN EasyEnsemble 30 151 141 5

SMOTE NNCS 30 155 137 5

Safe Level NNCS 29 151 141 6

CNNTL BalanceCascade 32 177 115 3

Borderline NNCS 25 142 150 10

TL NNCS 26 157 135 9

Y se calculan los indicadores:

Preprocesado Clasificador S E VPP VPN GRAL.

CNN UnderBagging 0,7714 0,6336 0,2015 0,9585 0,6413

CNN EasyEnsemble 0,8571 0,4829 0,1657 0,9658 0,6179

SMOTE NNCS 0,8571 0,4692 0,1622 0,9648 0,6133

Safe Level NNCS 0,8286 0,4829 0,1611 0,9592 0,6079

CNNTL BalanceCascade 0,9143 0,3938 0,1531 0,9746 0,6090

Borderline NNCS 0,7143 0,5137 0,1497 0,9375 0,5788

TL NNCS 0,7429 0,4623 0,1421 0,9375 0,5712

Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:

Preprocesado Clasificador S E VPP VPN GRAL.

Mejor Ambos CNN UnderBagging 0,7714 0,6336 0,2015 0,9585 0,6413

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

72

5.1.7.2. Ensembles

Se enumeran los algoritmos que intervienen en los ensembles:

Preprocesado Clasificador Nº

CNN UnderBagging 1

CNN EasyEnsemble 2

SMOTE NNCS 3

Safe Level NNCS 4

CNNTL BalanceCascade 5

Borderline NNCS 6

TL NNCS 7

Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de

ellas:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 26 93 199 9 0,7429 0,6815 0,2185 0,9567 0,6499

1,3 24 80 212 11 0,6857 0,7260 0,2308 0,9507 0,6483

1,4 23 72 220 12 0,6571 0,7534 0,2421 0,9483 0,6502

1,5 26 85 207 9 0,7429 0,7089 0,2342 0,9583 0,6611

1,6 21 56 236 14 0,6000 0,8082 0,2727 0,9440 0,6562

1,7 21 78 214 14 0,6000 0,7329 0,2121 0,9386 0,6209

2,3 26 106 186 9 0,7429 0,6370 0,1970 0,9538 0,6327

2,4 25 95 197 10 0,7143 0,6747 0,2083 0,9517 0,6372

2,5 29 100 192 6 0,8286 0,6575 0,2248 0,9697 0,6702

2,6 22 78 214 13 0,6286 0,7329 0,2200 0,9427 0,6310

2,7 22 105 187 13 0,6286 0,6404 0,1732 0,9350 0,5943

3,4 26 118 174 9 0,7429 0,5959 0,1806 0,9508 0,6175

3,5 28 120 172 7 0,8000 0,5890 0,1892 0,9609 0,6348

3,6 24 81 211 11 0,6857 0,7226 0,2286 0,9505 0,6468

3,7 24 120 172 11 0,6857 0,5890 0,1667 0,9399 0,5953

4,5 27 111 181 8 0,7714 0,6199 0,1957 0,9577 0,6362

4,6 20 75 217 15 0,5714 0,7432 0,2105 0,9353 0,6151

4,7 25 117 175 10 0,7143 0,5993 0,1761 0,9459 0,6089

5,6 22 88 204 13 0,6286 0,6986 0,2000 0,9401 0,6168

5,7 25 118 174 10 0,7143 0,5959 0,1748 0,9457 0,6077

6,7 19 74 218 16 0,5429 0,7466 0,2043 0,9316 0,6063

1,4,6 18 35 257 17 0,5143 0,8801 0,3396 0,9380 0,6680

1,5,6 20 44 248 15 0,5714 0,8493 0,3125 0,9430 0,6691

1,3,6 21 40 252 14 0,6000 0,8630 0,3443 0,9474 0,6887

1,2,5,6 19 40 252 16 0,5429 0,8630 0,3220 0,9403 0,6671

1,2,6 20 50 242 15 0,5714 0,8288 0,2857 0,9416 0,6569

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

73

Intersección TP FP TN FN S E VPP VPN GRAL.

1,4,5 22 68 224 13 0,6286 0,7671 0,2444 0,9451 0,6463

1,3,4 21 66 226 14 0,6000 0,7740 0,2414 0,9417 0,6393

1,3,5,6 18 32 260 17 0,5143 0,8904 0,3600 0,9386 0,6758

1,2,4,5 21 63 229 14 0,6000 0,7842 0,2500 0,9424 0,6442

1,2,4,6 17 32 260 18 0,4857 0,8904 0,3469 0,9353 0,6646

1,3,5 23 73 219 12 0,6571 0,7500 0,2396 0,9481 0,6487

1,2,5 25 76 216 10 0,7143 0,7397 0,2475 0,9558 0,6643

1,2,3,5 22 67 225 13 0,6286 0,7705 0,2472 0,9454 0,6479

1,2,3,6 20 37 255 15 0,5714 0,8733 0,3509 0,9444 0,6850

2,3,5,6 21 46 246 14 0,6000 0,8425 0,3134 0,9462 0,6755

2,3,6 22 56 236 13 0,6286 0,8082 0,2821 0,9478 0,6667

2,5,6 21 54 238 14 0,6000 0,8151 0,2800 0,9444 0,6599

1,2,3,5,6 17 29 263 18 0,4857 0,9007 0,3696 0,9359 0,6730

1,2,3,4,5,6 17 29 263 18 0,4857 0,9007 0,3696 0,9359 0,6730

1,3,5,6 18 32 260 17 0,5143 0,8904 0,3600 0,9386 0,6758

1,3,4,5,6 18 32 260 17 0,5143 0,8904 0,3600 0,9386 0,6758

1,2,3,4,6 17 29 263 18 0,4857 0,9007 0,3696 0,9359 0,6730

1,2,3,6 20 37 255 15 0,5714 0,8733 0,3509 0,9444 0,6850

1,2,4,6 17 32 260 18 0,4857 0,8904 0,3469 0,9353 0,6646

1,2,4,5,6 16 31 261 19 0,4571 0,8938 0,3404 0,9321 0,6559

1,3,4,6 18 32 260 17 0,5143 0,8904 0,3600 0,9386 0,6758

Se seleccionan los ensembles con mejor VPP y mejor promedio general:

Intersección S E VPP VPN GRAL.

Mejor GRAL. 1,2,3,6 0,5714 0,8733 0,3509 0,9444 0,6850

Mejor VPP 1,2,3,5,6 0,4857 0,9007 0,3696 0,9359 0,6730

5.1.7.3. Mejor clasificador individual

Se comparan los mejores clasificadores simples con los mejores ensembles:

Mejor GRAL. S E VPP VPN GRAL.

CNN - UnderBagging 0,7714 0,6336 0,2015 0,9585 0,6413

1,2,3,6 0,5714 0,8733 0,3509 0,9444 0,6850

Mejora Ensemble -0,2000 0,2397 0,1494 -0,0141 0,0438

Mejor VPP S E VPP VPN GRAL.

CNN - UnderBagging 0,7714 0,6336 0,2015 0,9585 0,6413

1,2,3,5,6 0,4857 0,9007 0,3696 0,9359 0,6730

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

74

Mejor VPP S E VPP VPN GRAL.

Mejora Ensemble -0,2857 0,2671 0,1681 -0,0226 0,0317

Ambos ensembles mejoran mucho el VPP respecto al mejor simple, aunque empeoran sensiblemente la

sensibilidad. Se considera que el ensemble de los clasificadores 1,2,3 y 6 (CNN - UnderBagging + CNN -

EasyEnsemble + SMOTE - NNCS + Bordeline SMOTE - NNCS) es el mejor clasificador para el conjunto

Valparaíso M5. No obstante, se sigue teniendo un VPP demasiado bajo para considerarlo un buen

clasificador.

Clasificador S E VPP VPN GRAL.

CNN - UnderBagging + CNN - EasyEnsemble + SMOTE - NNCS + Bordeline SMOTE - NNCS

0,5714 0,8733 0,3509 0,9444 0,6850

5.1.8. Tokyo M5

5.1.8.1 Clasificadores Simples

En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:

0,5000

0,5200

0,5400

0,5600

0,5800

0,6000

0,6200

0,6400

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

75

Se observa una gran variabilidad del valor promedio de los algoritmos de preprocesado, no así en los de

clasificación, en el que todos están cerca de 0,6. Destaca algo el algoritmo de preprocesado ROS, con un

valor de 0,63.

Se escogen aquellas combinaciones que mejores resultados presentan:

Preprocesado Clasificador AUC

CPM UnderBagging2 0,7168

Ninguno UnderOverBagging 0,7164

OSS BalanceCascade 0,7047

OSS SMOTEBagging 0,6997

CPM UnderOverBagging 0,6928

ADASYN IIVotes 0,6684

AHC UnderBagging2 0,6636

ROS AdaBoost 0,6607

ROS AdaBoostM1/M2 0,6740

ROS Bagging 0,6920

ROS UnderOverBagging 0,6899

Se construyen las matrices de confusión:

Preprocesado Clasificador TP FP TN FN

CPM UnderBagging2 315 39 189 206

Ninguno UnderOverBagging 341 52 176 175

OSS BalanceCascade 453 176 52 68

OSS SMOTEBagging 428 157 71 93

CPM UnderOverBagging 370 74 154 151

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

0,7000

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

76

Preprocesado Clasificador TP FP TN FN

ADASYN IIVotes 420 107 121 101

AHC UnderBagging2 431 114 114 90

ROS AdaBoost 348 79 149 173

ROS AdaBoostM1/M2 339 69 159 182

ROS Bagging 392 84 144 129

ROS UnderOverBagging 399 88 140 122

Y se calculan los indicadores:

Preprocesado Clasificador S E VPP VPN GRAL.

CPM UnderBagging2 0,6046 0,8289 0,8898 0,4785 0,7005

Ninguno UnderOverBagging 0,6609 0,7719 0,8677 0,5014 0,7005

OSS BalanceCascade 0,8695 0,2281 0,7202 0,4333 0,5628

OSS SMOTEBagging 0,8215 0,3114 0,7316 0,4329 0,5744

CPM UnderOverBagging 0,7102 0,6754 0,8333 0,5049 0,6810

ADASYN IIVotes 0,8061 0,5307 0,7970 0,5450 0,6697

AHC UnderBagging2 0,8273 0,5000 0,7908 0,5588 0,6692

ROS AdaBoost 0,6679 0,6535 0,8150 0,4627 0,6498

ROS AdaBoostM1/M2 0,6507 0,6974 0,8309 0,4663 0,6613

ROS Bagging 0,7524 0,6316 0,8235 0,5275 0,6837

ROS UnderOverBagging 0,7658 0,6140 0,8193 0,5344 0,6834

Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:

Preprocesado Clasificador S E VPP VPN GRAL.

Mejor Ambos CPM UnderBagging2 0,6046 0,8289 0,8898 0,4785 0,7005

5.1.8.2. Ensembles

Se enumeran los algoritmos que intervienen en los ensembles:

Preprocesado Clasificador Nº

OSS BalanceCascade 1

OSS SMOTEBagging 2

ADASYN IIVotes 3

AHC UnderBagging2 4

CPM UnderBagging2 5

Ninguno UnderOverBagging 6

CPM UnderOverBagging 7

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

77

Preprocesado Clasificador Nº

ROS AdaBoostM1/M2 8

ROS AdaBoost 9

ROS Bagging 10

ROS UnderOverBagging 11

Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de

ellas:

Intersección TP FP TN FN S E VPP VPN GRAL.

8,9 339 69 159 182 0,6507 0,6974 0,8309 0,4663 0,6613

10,11 360 53 175 161 0,6910 0,7675 0,8717 0,5208 0,7128

5,7 307 27 201 214 0,5893 0,8816 0,9192 0,4843 0,7186

8,10,11 315 42 186 206 0,6046 0,8158 0,8824 0,4745 0,6943

8,5,7 270 18 210 251 0,5182 0,9211 0,9375 0,4555 0,7081

5,7,10,11 280 13 215 241 0,5374 0,9430 0,9556 0,4715 0,7269

8,5,7,10,11 258 12 216 263 0,4952 0,9474 0,9556 0,4509 0,7123

1,2 314 8 220 207 0,6027 0,9649 0,9752 0,5152 0,7645

1,3 335 27 201 186 0,6430 0,8816 0,9254 0,5194 0,7423

1,4 335 44 184 186 0,6430 0,8070 0,8839 0,4973 0,7078

2,3 338 46 182 183 0,6488 0,7982 0,8802 0,4986 0,7065

2,4 335 39 189 186 0,6430 0,8289 0,8957 0,5040 0,7179

3,4 391 79 149 130 0,7505 0,6535 0,8319 0,5341 0,6925

1,2,3 308 7 221 213 0,5912 0,9693 0,9778 0,5092 0,7619

1,2,4 310 7 221 211 0,5950 0,9693 0,9779 0,5116 0,7634

2,3,4 327 38 190 194 0,6276 0,8333 0,8959 0,4948 0,7129

1,2,3,4 305 7 221 216 0,5854 0,9693 0,9776 0,5057 0,7595

5,7,10,11,1,2 268 3 225 253 0,5144 0,9868 0,9889 0,4707 0,7402

5,7,10,11,1,2,3 268 3 225 253 0,5144 0,9868 0,9889 0,4707 0,7402

5,7,10,11,1,2,4 268 3 225 253 0,5144 0,9868 0,9889 0,4707 0,7402

Se seleccionan los ensembles con mejor VPP y mejor promedio general:

Intersección S E VPP VPN GRAL.

Mejor GRAL. 1,2 0,6027 0,9649 0,9752 0,5152 0,7645

Mejor VPP 5,7,10,11,1,2 0,5144 0,9868 0,9889 0,4707 0,7402

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

78

5.1.8.3. Mejor clasificador individual

Se comparan los mejores clasificadores simples con los mejores ensembles:

Mejor GRAL. S E VPP VPN GRAL.

CPM - UnderBagging2 0,6046 0,8289 0,8898 0,4785 0,7005

1,2 0,6027 0,9649 0,9752 0,5152 0,7645

Mejora Ensemble -0,0019 0,1360 0,0853 0,0367 0,0640

Mejor VPP S E VPP VPN GRAL.

CPM - UnderBagging2 0,6046 0,8289 0,8898 0,4785 0,7005

5,7,10,11,1,2 0,5144 0,9868 0,9889 0,4707 0,7402

Mejora Ensemble -0,0902 0,1579 0,0991 -0,0078 0,0398

Ambos ensembles mejoran notablemente el VPP respecto al mejor simple, aunque el ensemble

1,2,5,7,10,11 empeora bastante la sensibilidad, no así el ensemble 1,2, que la mantiene prácticamente

igual. También existe una mejora generalizada en los demás indicadores con respecto al mejor simple,

aunque la mejora del ensemble 1,2 es mayor. Por tanto, se considera que el ensemble resultante de los

clasificadores 1 y 2 (OSS - BalanceCascade + OSS - SMOTEBagging) es el mejor clasificador encontrado

para el conjunto de datos Tokyo M5.

Clasificador S E VPP VPN GRAL.

OSS - BalanceCascade + OSS - SMOTEBagging

0,6027 0,9649 0,9752 0,5152 0,7645

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

79

5.1.9. Nagoya M5

5.1.9.1. Clasificadores Simples

En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:

La mayoría de los algoritmos, tanto de preprocesado como de clasificación, tienen valores cercanos a 0,5,

pero destacan muy por encima de los demás los algoritmos de preprocesado SMOTE y SMOTE TL, con

valores de 0,69 y 0,66, respectivamente.

Se escogen aquellas combinaciones que mejores resultados presentan:

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0

0,1

0,2

0,3

0,4

0,5

0,6

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

80

Preprocesado Clasificador AUC

SMOTE OverBagging2 0,8035

SMOTE UnderBagging 0,7998

SMOTE_TL OverBagging 0,7998

SMOTE_TL Bagging 0,7886

SMOTE Ada X 4 0,7848

Borderline OverBagging 0,7848

SMOTE_TL UnderBagging 0,7811

ROS NNCS 0,7799

Borderline_SMOTE NNCS 0,7649

Safe_Level_SMOTE NNCS 0,6754

Ninguno EasyEnsemble 0,6642

ADOMS NNCS 0,6269

Se construyen las matrices de confusión:

Preprocesado Clasificador TP FP TN FN

SMOTE OverBagging2 2 8 126 1

SMOTE UnderBagging 2 9 125 1

SMOTE_TL OverBagging 2 9 125 1

SMOTE_TL Bagging 2 12 122 1

SMOTE Ada X 4 2 13 121 1

Borderline OverBagging 2 13 121 1

SMOTE_TL UnderBagging 2 14 120 1

ROS NNCS 3 59 75 0

Borderline_SMOTE NNCS 3 63 71 0

Safe_Level_SMOTE NNCS 3 87 47 0

Ninguno EasyEnsemble 3 90 44 0

ADOMS NNCS 3 100 34 0

Y se calculan los indicadores:

Preprocesado Clasificador S E VPP VPN GRAL.

SMOTE OverBagging2 0,6667 0,9403 0,2000 0,9921 0,6998

SMOTE UnderBagging 0,6667 0,9328 0,1818 0,9921 0,6933

SMOTE_TL OverBagging 0,6667 0,9328 0,1818 0,9921 0,6933

SMOTE_TL Bagging 0,6667 0,9104 0,1429 0,9919 0,6780

SMOTE Ada X 4 0,6667 0,9030 0,1333 0,9918 0,6737

Borderline OverBagging 0,6667 0,9030 0,1333 0,9918 0,6737

SMOTE_TL UnderBagging 0,6667 0,8955 0,1250 0,9917 0,6697

ROS NNCS 1 0,5597 0,0484 1 0,6520

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

81

Preprocesado Clasificador S E VPP VPN GRAL.

Borderline_SMOTE NNCS 1 0,5299 0,0455 1 0,6438

Safe_Level_SMOTE NNCS 1 0,3507 0,0333 1 0,5960

Ninguno EasyEnsemble 1 0,3284 0,0323 1 0,5902

ADOMS NNCS 1 0,2537 0,0291 1 0,5707

Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:

Preprocesado Clasificador S E VPP VPN GRAL.

Mejor Ambos SMOTE OverBagging2 0,6667 0,9403 0,2000 0,9921 0,6998

5.1.9.2. Ensembles

Se enumeran los algoritmos que intervienen en los ensembles:

Preprocesado Clasificador Nº

SMOTE OverBagging2 1

SMOTE UnderBagging 2

SMOTE_TL OverBagging 3

SMOTE_TL Bagging 4

SMOTE Ada X 4 5

Borderline OverBagging 6

SMOTE_TL UnderBagging 7

ROS NNCS 8

Borderline_SMOTE NNCS 9

Safe_Level_SMOTE NNCS 10

Ninguno EasyEnsemble 11

ADOMS NNCS 12

Se realizan las intersecciones y se calculan las matrices de confusión y los indicadores de cada una de

ellas:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2,3,4,5,6,7 2 4 130 1 0,6667 0,9701 0,3333 0,9924 0,7406

8,9,10,11,12 3 35 99 0 1 0,7388 0,0789 1 0,7044

Se seleccionan los ensembles con mejor VPP y mejor promedio general:

Intersección TP FP TN FN S E VPP VPN GRAL.

Mejor Ambos 1,2,3,4,5,6,7 2 4 130 1 0,6667 0,9701 0,3333 0,9924 0,7406

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

82

5.1.9.3. Mejor clasificador individual

Se comparan los mejores clasificadores simples con los mejores ensembles:

Mejor Ambos S E VPP VPN GRAL.

SMOTE - OverBagging2 0,6667 0,9403 0,2000 0,9921 0,6998

1,2,3,4,5,6,7 0,6667 0,9701 0,3333 0,9924 0,7406

Mejora Ensemble 0 0,0299 0,1333 0,0002 0,0409

El ensembles mejora en más de un 50% el VPP del mejor simple, y también mejora en líneas generales

el resto de indicadores. Por tanto, el ensemble de los clasificadores 1,2,3,4,5,6 y 7 (SMOTE -

OverBagging2 + SMOTE - UnderBagging + SMOTE TL - OverBagging + SMOTE TL - Bagging + SMOTE

- AdaBoost + Borderline SMOTE - OverBagging + SMOTE TL - UnderBagging) se considera el mejor

clasificador para el conjunto de datos Nagoya M5. No obstante, el indicador VPP sigue siendo muy bajo y,

aunque los demás indicadores son todos muy buenos, dicho clasificador no puede ser considerado como

apto.

Clasificador S E VPP VPN GRAL.

SMOTE - OverBagging2 + SMOTE - UnderBagging + SMOTE TL - OverBagging + SMOTE TL - Bagging + SMOTE - AdaBoost + Borderline SMOTE - OverBagging + SMOTE TL - UnderBagging

0,6667 0,9701 0,3333 0,9924 0,7406

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

83

5.1.10. Osaka M5

5.1.10.1. Clasificadores Simples

En primer lugar se muestra el AUC promedio de cada algoritmo de preprocesado y de clasificación:

Se observa una gran variabilidad del valor promedio entre algoritmos tanto de preprocesado como de

clasificación. Destacan varios algoritmos de preprocesado por encima de 0,9 (ADASYN, ROS, SPIDER y

SPIDER2) y un algoritmo de clasificación (SMOTEBoost)

Se escogen aquellas combinaciones que mejores resultados presentan:

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

84

Preprocesado Clasificador AUC

Ninguno AdaX3 0,9931

ADOMS MSMOTEBoost 1

AHC SMOTEBoost 0,9965

ROS OverBagging 1

TL IIVotes 1

Se construyen las matrices de confusión:

Preprocesado Clasificador TP FP TN FN

Ninguno AdaX3 2 2 142 0

ADOMS MSMOTEBoost 2 0 144 0

AHC SMOTEBoost 2 1 143 0

ROS OverBagging 2 0 144 0

TL IIVotes 2 0 144 0

Y se calculan los indicadores:

Preprocesado Clasificador S E VPP VPN GRAL.

Ninguno AdaX3 1 0,9861 0,5 1 0,8715

ADOMS MSMOTEBoost 1 1 1 1 1

AHC SMOTEBoost 1 0,9931 0,6667 1 0,9149

ROS OverBagging 1 1 1 1 1

TL IIVotes 1 1 1 1 1

Por último, se seleccionan los clasificadores con mejor VPP y mejor promedio general:

Preprocesado Clasificador S E VPP VPN GRAL.

Mejor Ambos ADOMS MSMOTEBoost 1 1 1 1 1

ROS OverBagging 1 1 1 1 1

TL IIVotes 1 1 1 1 1

5.1.10.2. Ensembles

Como es obvio, no es necesaria la construcción de ensembles, pues los resultados de los mejores

individuales ya son perfectos.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

85

5.1.10.3. Mejor clasificador individual

Al no haber ensembles, el mejor individual es la mejor combinación simple, esto es, los clasificadores

“ADOMS - MSMOTEBoost”, “ROS - OverBagging” y “TL - IIVotes”:

Clasificador TP FP TN FN S E VPP VPN GRAL.

ADOMS - MSMOTEBoost 2 0 144 0 1 1 1 1 1

ROS - OverBagging 2 0 144 0 1 1 1 1 1

TL - IIVotes 2 0 144 0 1 1 1 1 1

5.1.11. Resumen de los mejores resultados

Debido a la extensión de los resultados, se muestra un resumen de los mejores clasificadores de cada

conjunto de datos. Para una mayor comprensión y visión simplificada, se mostrarán dos tablas: en una se

muestran los clasificadores y la matriz de confusión, y en otra, los indicadores.

En primer lugar se muestra la tabla con los clasificadores y la matriz de confusión:

Conjunto Clasificador TP FP TN FN

Pichilemu M4 SMOTE TL - NNCS +

23 0 65 27 CNN - NNCS

Pichilemu M5 ADASYN - C45CS +

27 0 65 23 SPIDER - BalanceCascade

Santiago M4

SMOTE - NNCS +

6 2 146 6

Safe Level SMOTE - NNCS +

NNCS +

SPIDER2 - UnderBagging +

BalanceCascade +

AHC - EasyEnsemble

Talca M4 SMOTE - BalanceCascade 41 9 18 0

Talca M5 ADASYN - NNCS +

5 0 99 0 CPM - C45CS

Valparaíso M4 TL - IIVotes 51 0 227 49

Valparaíso M5

CNN - UnderBagging +

20 37 255 15 CNN - EasyEnsemble +

SMOTE - NNCS +

Bordeline SMOTE - NNCS

Tokyo M5 OSS - BalanceCascade +

314 8 220 207 OSS - SMOTEBagging

Nagoya M5 SMOTE - OverBagging2 +

2 4 130 1 SMOTE - UnderBagging +

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

86

Conjunto Clasificador TP FP TN FN

SMOTE TL - OverBagging +

SMOTE TL - Bagging +

SMOTE - AdaBoost +

Borderline SMOTE -

OverBagging +

SMOTE TL - UnderBagging

Osaka M5 ADOMS - MSMOTEBoost 2 0 144 0

A continuación, se muestran los indicadores de los clasificadores anteriores, distinguiendo los conjuntos

que están desbalanceados (azul) de los que no (naranja):

Conjunto S E VPP VPN GRAL.

Pichilemu M4 0,5 1 1 0,71 0,79

Pichilemu M5 0,5 1 1 0,74 0,82

Santiago M4 0,5 1 0,75 0,96 0,75

Talca M4 1 0,7 0,82 1 0,87

Talca M5 1 1 1 1 1

Valparaíso M4 0,5 1 1 0,82 0,83

Valparaíso M5 0,6 0,9 0,35 0,94 0,69

Tokyo M5 0,6 1 0,98 0,52 0,76

Nagoya M5 0,7 1 0,33 0,99 0,74

Osaka M5 1 1 1 1 1

Tanto Valparaíso M5 como Nagoya M5, a pesar de haber mejorado sus indicadores tras la generación de

los ensembles, no cumplen las expectativas, pues poseen un VPP demasiado bajo. A pesar de eso, en la

mayoría de los conjuntos se han obtenido muy buenos resultados.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

87

5.2. Mejores Clasificadores Globales

Como ya se detalló en la etapa de evaluación, se hace uso del test de Friedman para obtener en cada

iteración los mejores clasificadores globales. Se ha establecido como criterio de selección aquellos

clasificadores cuyo ranking promedio en el test de Friedman se situara por encima de lo denominado

como “mejor tercio”. Es decir, si han intervenido 300 algoritmos en el test, y éste los ordena otorgándole

mayor puntuación a los mejores clasificadores, se escogerían aquellos que tuvieran un valor por encima

de 200 en el ranking promedio. Una vez seleccionados los mejores clasificadores, se generan tantos

ensembles como combinaciones de dos existan.

En el caso que ocupa, ha sido necesaria la ejecución de dos iteraciones hasta la obtención de un

ensemble con resultados aceptables en buena parte de los conjuntos de datos que han intervenido en el

proceso.

En la primera iteración, el test de Friedman se realizó con todos los 10 conjuntos de datos que intervenían

en el estudio y con las 320 combinaciones generadas en la experimentación. Como unidad de medida, se

hizo uso del Área Bajo la Curva ROC de cada combinación. El resultado del test, ordenado de mejor a

peor, es el siguiente:

Clasificador N Media Desviación

estándar Mínimo Máximo

Rango promedio

NCL-AdaBoostM1 10 62,3059 15,3046 45,9459 99,6528 233,85

NCL-AdaBoostM2 10 62,3059 15,3046 45,9459 99,6528 233,85

ADASYN-IIVotes 10 63,0873 13,5493 47,5802 94,7917 231,55

ROS-RUSBoost 10 61,6280 15,8968 44,9788 98,6111 229,55

SPIDER-BalanceCascade 10 61,6856 15,5729 48,4234 99,3056 227,95

ROS-AdaBoost 10 60,6780 17,5698 32,8796 99,3056 226,10

TL-AdaBoostM1 10 62,3835 16,1044 46,6418 99,6528 224,00

ADASYN-SMOTEBoost 10 61,8098 15,4541 47,0149 97,5694 219,95

ROS-AdaC2 10 61,0737 15,3942 45,0847 99,3056 219,30

CPM-SMOTEBoost 10 62,5478 13,1599 49,2117 90,4040 217,35

SPIDER-OverBagging 10 61,4613 15,4237 47,9730 98,6111 216,50

ROS-AdaBoostM1 10 60,6018 17,6139 33,7568 99,3056 214,95

ROS-AdaBoostM2 10 60,6018 17,6139 33,7568 99,3056 214,95

ADASYN-AdaBoost 10 61,3953 15,9102 46,2687 98,9583 212,00

ROS-SMOTEBoost 10 59,7342 16,6723 39,8367 98,9583 211,50

ADOMS-SMOTEBoost 10 59,8442 15,0644 42,3775 96,8750 210,90

ADASYN-OverBagging 10 63,4089 19,0443 42,1642 98,2639 208,35

Ninguno-EasyEnsemble 10 61,1595 9,4269 49,4404 82,2917 207,90

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

88

Clasificador N Media Desviación

estándar Mínimo Máximo

Rango promedio

ADASYN-UnderBagging2 10 62,8719 17,9074 41,4179 97,9167 207,60

OSS-EasyEnsemble 10 59,5478 15,0227 30,8458 86,4583 206,45

TL-AdaBoostM2 10 61,2046 15,0242 46,6418 98,2639 204,90

TL-AdaC2 10 61,2046 15,0242 46,6418 98,2639 204,90

OSS-RUSBoost 10 58,3616 13,8084 29,8507 75,5631 204,65

AHC-SMOTEBoost 10 59,9620 16,3424 45,9165 99,6528 204,55

NCL-AdaBoost 10 60,8510 15,7153 45,9459 99,6528 203,95

Ninguno-AdaBoostM1 10 60,7267 17,2074 35,5868 99,3056 200,90

Ninguno-AdaBoostM2 10 60,7267 17,2074 35,5868 99,3056 200,90

SMOTE_TL-NNCS 10 63,7614 13,6279 46,7181 87,8788 200,30

TL-BalanceCascade 10 56,5538 8,4625 47,5499 70,0947 199,90

AHC-RUSBoost 10 59,2179 16,4875 42,3321 99,6528 199,25

CNNTL-EasyEnsemble 10 60,3309 7,5564 46,7181 70,4040 198,40

CPM-C45CS 10 60,9420 16,4908 31,2189 90,4040 196,45

NCL-IIVotes 10 61,6911 18,2444 42,0045 97,9167 195,95

SPIDER2-C45CS 10 59,8701 16,0847 43,2836 98,2639 195,15

TL-SMOTEBoost 10 59,6811 16,4087 44,9183 99,3056 194,55

Borderline_SMOTE-AdaBoostM1 10 60,1815 15,6593 41,5457 97,9167 193,45

Borderline_SMOTE-AdaBoostM2 10 60,1815 15,6593 41,5457 97,9167 193,45

Ninguno-AdaC2 10 58,7571 11,0905 47,4592 84,0278 193,25

SMOTE_TL-AdaBoost 10 61,1951 15,0609 26,4228 80,7432 192,80

NCL-OverBagging2 10 60,8121 13,6841 42,9104 87,8788 192,25

NCL-OverBagging 10 60,3815 13,1465 45,1493 87,8788 191,50

SPIDER-UnderBagging 10 59,1004 15,1782 46,6727 96,1806 191,35

CNN-BalanceCascade 10 58,2060 10,3633 40,6716 71,2137 191,05

ADASYN-C45CS 10 62,2571 18,5430 39,5522 89,9306 190,45

TL-RUSBoost 10 59,3178 15,8558 46,2687 98,9583 190,05

ROS-OverBagging2 10 59,4063 16,6290 44,2377 99,6528 189,90

SPIDER-Bagging 10 59,3385 15,4654 43,9189 98,2639 189,30

SPIDER-AdaBoostM1 10 59,1063 16,0358 43,9189 98,9583 189,15

AHC-AdaBoostM1 10 59,6577 16,2261 44,4030 99,6528 189,00

AHC-AdaBoostM2 10 59,6577 16,2261 44,4030 99,6528 189,00

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

89

Clasificador N Media Desviación

estándar Mínimo Máximo

Rango promedio

Ninguno-BalanceCascade 10 59,0576 8,3746 47,4462 71,8750 188,70

AHC-AdaBoost 10 59,6356 16,2067 44,4030 99,6528 188,70

NCL-AdaC2 10 57,7543 8,2951 48,1343 72,0000 188,05

SPIDER-OverBagging2 10 60,3540 15,7943 45,1493 98,6111 187,90

Borderline_SMOTE-NNCS 10 58,5684 10,5753 43,7952 76,4925 187,70

NCL-EasyEnsemble 10 58,4608 11,2627 39,6766 82,2917 186,90

ADASYN-AdaBoostM1 10 59,7600 16,9590 33,8324 95,8333 186,40

ADASYN-AdaBoostM2 10 59,7600 16,9590 33,8324 95,8333 186,40

AHC-AdaC2 10 59,2252 16,6804 40,2985 99,6528 185,55

ROS-EasyEnsemble 10 60,0138 15,4878 42,4229 96,5278 185,05

OSS-OverBagging 10 58,8819 9,9122 41,5154 76,7361 184,30

ADASYN-EasyEnsemble 10 59,3211 14,1616 40,2985 87,5000 184,15

Borderline_SMOTE-RUSBoost 10 59,2487 16,6999 44,0563 99,6528 184,05

SPIDER-SMOTEBagging 10 60,4656 14,1820 44,3694 93,0556 183,95

ROS-UnderBagging2 10 58,7978 16,4579 43,3303 99,6528 183,55

SPIDER-AdaBoostM2 10 58,8610 16,0852 43,9189 98,9583 183,25

SPIDER-AdaC2 10 58,8610 16,0852 43,9189 98,9583 183,25

SPIDER-NNCS 10 60,4257 14,9078 41,4414 95,4861 183,10

ADASYN-UnderBagging 10 59,4149 14,1398 42,1642 87,8788 182,55

SMOTE_TL-Bagging 10 58,5162 14,1740 48,0578 94,4444 182,40

ROS-UnderBagging 10 58,8642 16,6141 42,4077 99,3056 182,35

ROS-OverBagging 10 58,2944 17,7575 32,9401 100,0000 182,25

TL-OverBagging 10 60,0883 16,5394 46,5971 100,0000 181,85

AHC-C45CS 10 55,3779 7,3466 47,7477 69,9163 181,80

NCL-UnderBagging2 10 59,8965 14,2121 39,3035 86,4583 181,80

SPIDER2-OverBagging 10 59,7000 15,6595 47,3803 98,6111 181,35

Ninguno-IIVotes 10 58,0164 9,5594 48,1343 74,6528 181,25

Ninguno-UnderBagging 10 58,4547 9,7676 46,7662 75,0000 181,25

TL-Bagging 10 58,8925 13,3259 41,2162 89,2361 181,25

AHC-EasyEnsemble 10 55,5773 8,7986 41,5457 70,4339 180,95

RUS-EasyEnsemble 10 56,7860 13,3726 38,0808 82,6389 180,90

CNNTL-UnderOverBagging 10 56,1100 10,1166 35,4478 68,7907 180,65

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

90

Clasificador N Media Desviación

estándar Mínimo Máximo

Rango promedio

ADASYN-AdaC2 10 59,9276 15,8805 42,4229 95,8333 180,45

SMOTE_TL-UnderBagging2 10 61,8163 15,2514 44,9637 87,8788 180,00

TL-UnderBagging 10 58,9175 15,9573 31,5920 86,8056 179,10

ADASYN-RUSBoost 10 59,4160 15,8100 43,2849 97,2222 178,95

NCL-RUSBoost 10 58,8806 10,8432 49,8874 84,3750 178,25

SMOTE_TL-IIVotes 10 62,0268 14,9836 49,4325 95,8333 178,15

NCL-Bagging 10 56,1650 9,9994 44,9183 75,9596 177,25

Ninguno-AdaBoost 10 59,7288 17,3711 36,4640 99,3056 176,70

ADASYN-Bagging 10 61,1251 18,7819 39,8669 95,1389 176,35

OSS-SMOTEBagging 10 58,0556 11,4334 35,2789 72,1847 175,00

Borderline_SMOTE-SMOTEBoost 10 58,4599 17,0576 38,9443 98,2639 174,65

CNN-C45CS 10 54,9539 9,9711 37,9915 69,8921 173,60

CPM-UnderOverBagging 10 56,2897 11,3387 40,6052 74,3056 173,50

RUS-NNCS 10 53,8911 9,2042 35,1990 68,7907 172,85

SPIDER2-BalanceCascade 10 60,8826 15,2206 46,6425 97,9167 172,70

RUS-SMOTEBoost 10 55,9065 10,1996 35,1990 69,0972 172,65

RUS-BalanceCascade 10 55,1582 9,7283 35,1990 66,6667 172,55

ADASYN-SMOTEBagging 10 61,1260 12,7608 47,6351 87,8788 172,30

AHC-BalanceCascade 10 58,5311 15,9838 43,7811 97,9167 172,25

NCL-C45CS 10 59,4950 13,7616 45,1493 87,8788 172,25

Borderline_SMOTE-UnderBagging2

10 56,9799 9,4660 47,9730 76,4646 171,25

ROS-C45CS 10 57,1114 18,7376 34,6189 99,3056 171,25

Ninguno-C45CS 10 59,1759 16,3215 41,2162 99,3056 171,20

Borderline_SMOTE-AdaBoost 10 58,3867 16,0515 41,5457 98,9583 171,15

Borderline_SMOTE-AdaC2 10 58,3867 16,0515 41,5457 98,9583 171,15

CNN-AdaBoostM1 10 55,0906 7,7973 43,1791 64,8946 170,95

OSS-Bagging 10 58,7281 14,3645 42,0398 93,7500 170,80

SPIDER2-SMOTEBagging 10 59,9096 15,9857 44,5946 97,5694 170,75

ADASYN-OverBagging2 10 60,6451 18,9140 39,8820 96,1806 169,60

TL-EasyEnsemble 10 56,8463 16,3468 24,8756 87,1528 169,60

OSS-UnderBagging2 10 57,1206 13,2016 36,7613 81,9444 169,35

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

91

Clasificador N Media Desviación

estándar Mínimo Máximo

Rango promedio

TL-C45CS 10 60,2148 20,8375 37,9764 99,6528 168,80

CPM-UnderBagging 10 56,7598 10,8647 43,7811 71,8750 168,55

Ninguno-Bagging 10 54,7147 10,1114 40,6987 74,5000 168,35

SPIDER2-NNCS 10 59,1717 14,9185 44,1319 94,7917 168,30

Borderline_SMOTE-IIVotes 10 55,3231 10,9466 36,3581 72,7379 168,25

ADASYN-BalanceCascade 10 58,3842 13,0625 45,7199 91,6667 167,80

CNNTL-OverBagging2 10 54,5065 6,3692 44,0299 65,6476 167,65

CNNTL-OverBagging 10 55,0873 6,2126 48,2910 68,3502 167,60

OSS-UnderOverBagging 10 57,5328 12,5040 38,6816 80,2083 167,20

OSS-BalanceCascade 10 55,0298 12,5380 29,8507 72,1538 167,00

CNNTL-RUSBoost 10 58,0577 12,1196 33,9552 76,3889 166,70

CNNTL-UnderBagging2 10 55,5974 7,4508 42,4129 69,1718 166,50

ADASYN-UnderOverBagging 10 60,9652 18,1612 41,4179 94,7917 166,20

CNNTL-BalanceCascade 10 55,8147 11,5413 29,8507 70,1538 166,10

Ninguno-SMOTEBoost 10 57,9290 15,1150 41,4549 94,7917 165,85

SPIDER2-UnderBagging 10 57,7712 13,4350 48,0126 88,8889 165,80

NCL-NNCS 10 59,7648 19,1182 38,0597 97,5694 165,60

SPIDER-C45CS 10 59,2805 16,4228 42,9104 98,2639 165,40

TL-NNCS 10 49,1454 17,2145 14,7245 75,2525 165,40

CNNTL-C45CS 10 57,1794 8,7892 39,3493 69,4444 165,25

SMOTE-UnderOverBagging 10 59,4061 15,3070 44,3541 96,5278 165,05

Borderline_SMOTE-OverBagging2 10 55,7542 10,6756 33,7417 69,5529 165,00

OSS-OverBagging2 10 57,0536 10,2064 41,4096 76,5319 164,85

SPIDER-UnderBagging2 10 60,8507 18,3417 38,9640 97,2222 164,60

Ninguno-OverBagging2 10 56,4429 10,0772 43,2547 74,3056 164,25

NCL-UnderBagging 10 58,2455 13,9820 46,6418 92,0139 164,20

SMOTE-NNCS 10 59,4781 11,3993 39,8215 74,3781 163,70

CNN-UnderBagging 10 55,7943 16,8691 29,8507 88,8889 163,70

ADASYN-NNCS 10 61,1944 15,8692 47,7477 96,4646 163,05

SMOTE-AdaBoostM2 10 57,5256 9,6443 49,3243 78,4826 162,75

SMOTE-AdaC2 10 57,5256 9,6443 49,3243 78,4826 162,75

SMOTE-UnderBagging2 10 60,4148 16,7749 41,2376 95,1389 162,35

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

92

Clasificador N Media Desviación

estándar Mínimo Máximo

Rango promedio

ADOMS-UnderBagging 10 54,9769 8,2303 47,7612 71,0881 162,00

NCL-SMOTEBoost 10 57,4959 9,3271 46,2838 73,6111 161,90

TL-SMOTEBagging 10 56,0464 12,0381 33,8308 77,0833 161,90

SPIDER2-RUSBoost 10 59,5005 16,4882 43,1791 98,2639 161,85

SPIDER-RUSBoost 10 59,5571 16,7683 44,0411 100,0000 161,80

SMOTE-Bagging 10 59,1863 11,7929 49,3243 79,1667 161,70

CPM-SMOTEBagging 10 55,6800 11,4728 38,1662 72,2222 161,50

RUS-AdaBoost 10 56,9407 15,4554 38,6816 94,0972 161,30

AHC-UnderBagging2 10 54,0212 8,8357 44,4030 70,7555 160,85

ROS-BalanceCascade 10 57,8670 14,1550 39,9254 87,8472 160,65

TL-IIVotes 10 55,8182 10,9112 35,1990 69,2070 160,60

RUS-AdaC2 10 54,6806 9,4939 35,1990 66,6667 160,25

RUS-Bagging 10 54,6806 9,4939 35,1990 66,6667 160,25

CNN-OverBagging 10 56,0254 8,9137 41,5457 68,6123 160,20

AHC-Bagging 10 54,1613 7,7965 45,9014 68,9934 160,15

ADOMS-UnderOverBagging 10 57,1902 9,4070 45,1493 74,6528 160,00

ROS-Bagging 10 56,0612 12,0793 36,3581 74,6528 159,95

SPIDER2-AdaBoostM2 10 58,1341 15,7961 46,7931 97,2222 159,95

SPIDER2-AdaC2 10 58,1341 15,7961 46,7931 97,2222 159,95

TL-OverBagging2 10 58,2447 15,6127 45,5224 97,9167 159,70

Borderline_SMOTE-EasyEnsemble

10 55,2103 8,0749 45,0544 68,8921 159,65

Safe_Level_SMOTE-RUSBoost 10 57,8703 14,0442 47,0149 93,7500 159,50

TL-UnderOverBagging 10 58,9538 14,4023 41,4701 87,8788 159,45

CNN-UnderBagging2 10 59,0897 10,6802 39,6396 73,6111 158,95

ROS-UnderOverBagging 10 57,9507 17,8847 36,2976 99,3056 158,85

OSS-UnderBagging 10 55,5174 13,9072 29,8507 71,8468 158,55

RUS-AdaBoostM2 10 54,6174 9,6046 35,1990 66,6667 158,15

SMOTE_TL-OverBagging2 10 62,5388 16,8019 44,0714 87,8788 158,00

CNN-SMOTEBoost 10 55,7681 12,8981 32,4627 73,1366 157,65

OSS-SMOTEBoost 10 57,6426 9,8146 41,6667 70,1389 157,20

SPIDER2-OverBagging2 10 59,1916 16,4698 44,0411 98,6111 157,15

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

93

Clasificador N Media Desviación

estándar Mínimo Máximo

Rango promedio

ADOMS-RUSBoost 10 58,3850 16,2991 38,0597 94,0972 156,95

Ninguno-RUSBoost 10 57,2760 14,2766 43,5323 92,7083 156,85

Borderline_SMOTE-OverBagging 10 57,6284 11,8392 39,0200 78,4826 156,40

ADOMS-SMOTEBagging 10 54,0984 9,9521 42,4119 69,7137 156,30

SPIDER2-AdaBoostM1 10 58,2367 15,1948 48,8806 97,5694 156,10

Ninguno-UnderOverBagging 10 56,0222 12,3667 36,3430 74,3056 155,90

SPIDER2-EasyEnsemble 10 60,4370 19,6809 34,3284 98,2639 155,90

OSS-NNCS 10 56,0712 11,6357 35,8023 71,5090 155,70

SPIDER-SMOTEBoost 10 59,2839 14,5939 47,5348 95,4861 155,60

ADOMS-OverBagging2 10 54,9315 7,3335 47,5499 67,8084 155,55

OSS-AdaBoostM2 10 56,6998 15,0260 37,6866 95,1389 155,50

OSS-AdaC2 10 56,6998 15,0260 37,6866 95,1389 155,50

OSS-AdaBoostM1 10 56,6874 15,0317 37,6866 95,1389 155,35

AHC-UnderOverBagging 10 53,7941 8,0548 44,4030 69,7137 155,10

ADOMS-UnderBagging2 10 54,7208 7,8196 45,8955 67,6300 154,10

Ninguno-OverBagging 10 55,7724 11,3145 39,9577 75,0000 153,50

SMOTE-AdaBoostM1 10 57,2149 9,6070 48,9865 78,4826 152,55

Safe_Level_SMOTE-SMOTEBoost 10 55,6449 11,2317 47,5348 85,0694 152,10

Borderline_SMOTE-UnderBagging 10 54,7039 9,5197 38,0369 69,2731 151,95

SPIDER2-UnderOverBagging 10 58,8413 21,1553 24,2537 96,5278 151,50

Safe_Level_SMOTE-EasyEnsemble

10 56,4394 14,9654 43,6314 94,4444 151,45

AHC-OverBagging 10 53,5666 8,1566 42,5136 71,8392 150,75

SPIDER2-UnderBagging2 10 61,3081 19,2175 35,0746 96,1806 150,60

SMOTE-EasyEnsemble 10 58,9076 12,9559 44,8679 83,3333 150,50

CPM-BalanceCascade 10 55,2190 12,4324 32,9401 70,8150 149,85

SMOTE-C45CS 10 58,8013 15,2159 46,7030 96,1806 149,70

SPIDER-UnderOverBagging 10 59,9083 18,9933 34,9502 94,7917 149,60

OSS-AdaBoost 10 48,8724 19,6778 16,4860 80,9091 149,55

RUS-UnderBagging 10 54,0472 9,1239 35,1990 64,2308 149,20

CNNTL-SMOTEBoost 10 52,7084 10,6347 34,7015 68,4692 149,15

Safe_Level_SMOTE-Bagging 10 57,6212 13,8469 41,4701 92,0139 149,00

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

94

Clasificador N Media Desviación

estándar Mínimo Máximo

Rango promedio

ROS-SMOTEBagging 10 57,1227 10,6458 39,7762 74,3056 148,95

SMOTE_TL-UnderOverBagging 10 61,1828 16,3473 45,8258 97,2222 148,75

CNNTL-IIVotes 10 54,7208 11,1147 27,2388 66,3194 148,70

CNNTL-SMOTEBagging 10 54,4932 11,2390 26,8657 69,4444 148,25

SMOTE-AdaBoost 10 54,9214 10,9760 39,2361 73,1982 147,80

SMOTE_TL-RUSBoost 10 60,1203 14,4686 41,5003 87,8788 147,55

ADOMS-OverBagging 10 56,3070 11,4354 39,8215 75,0000 147,45

SPIDER-AdaBoost 10 53,6050 12,8426 37,5790 74,4369 147,00

CPM-AdaBoostM2 10 58,6393 13,5727 44,9032 89,5833 146,75

CPM-AdaC2 10 58,6393 13,5727 44,9032 89,5833 146,75

CNN-UnderOverBagging 10 53,8408 11,3728 33,5821 67,2489 146,65

Safe_Level_SMOTE-AdaBoostM1 10 54,8668 8,5843 44,9335 68,7500 146,60

Safe_Level_SMOTE-AdaBoostM2 10 54,8668 8,5843 44,9335 68,7500 146,60

Borderline_SMOTE-BalanceCascade

10 53,2983 7,1766 46,5278 68,6894 146,35

RUS-IIVotes 10 55,8604 14,3167 31,2189 82,6389 146,10

Safe_Level_SMOTE-UnderBagging2

10 57,7049 13,5750 44,7761 92,3611 145,65

SMOTE_TL-C45CS 10 60,9147 14,6926 43,2396 87,8788 144,75

CPM-OverBagging2 10 55,5953 15,2479 33,9552 81,2500 144,70

RUS-RUSBoost 10 52,7070 11,5455 30,0995 67,8084 144,70

Safe_Level_SMOTE-UnderBagging

10 55,1343 7,8644 42,3321 68,0556 144,40

Borderline_SMOTE-Bagging 10 54,8130 8,7374 41,5306 68,3921 143,90

AHC-OverBagging2 10 53,2117 9,2355 39,8215 70,0947 143,85

RUS-OverBagging2 10 52,6278 11,4442 35,1990 69,4097 143,70

AHC-SMOTEBagging 10 54,7800 9,9245 40,6685 69,3326 143,45

RUS-UnderBagging2 10 54,6195 14,6817 31,2189 82,6389 143,30

SPIDER-EasyEnsemble 10 59,6087 21,6362 24,6269 92,7083 143,10

Safe_Level_SMOTE-AdaC2 10 54,3661 8,5877 43,7669 68,0556 142,85

SMOTE-UnderBagging 10 56,3226 15,1790 38,0369 92,0139 142,75

RUS-C45CS 10 51,6235 11,0825 31,2189 70,4097 142,75

CNNTL-UnderBagging 10 56,1043 15,4744 34,9502 88,8889 142,70

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

95

Clasificador N Media Desviación

estándar Mínimo Máximo

Rango promedio

Safe_Level_SMOTE-NNCS 10 53,2582 6,6357 42,3775 65,3303 142,50

CNN-Bagging 10 52,4591 7,3968 35,6965 62,7829 141,95

AHC-NNCS 10 51,4394 9,3540 34,3750 67,0000 141,25

Safe_Level_SMOTE-C45CS 10 56,2387 10,4189 45,8409 81,2500 141,25

CPM-RUSBoost 10 54,6047 10,8692 32,7114 68,6300 141,05

ADOMS-NNCS 10 52,7048 12,8946 36,3144 74,2308 141,00

SMOTE_TL-UnderBagging 10 56,7522 15,9303 42,3624 97,2222 140,35

SMOTE_TL-SMOTEBagging 10 58,3834 15,2475 45,8106 96,1806 139,50

SPIDER2-IIVotes 10 58,1346 14,9690 39,5522 90,6250 139,40

RUS-UnderOverBagging 10 53,7068 12,4310 37,1597 72,2222 139,30

SMOTE-OverBagging2 10 56,5402 13,4186 33,7417 78,4826 139,20

SMOTE_TL-BalanceCascade 10 59,4271 13,8872 44,0865 86,4583 139,20

SMOTE-SMOTEBagging 10 58,1992 14,6658 43,1791 94,0972 139,15

CNN-RUSBoost 10 56,2585 14,1370 30,9701 82,9861 139,00

ADOMS-AdaBoost 10 58,2181 15,1582 44,1016 93,7500 138,80

ADOMS-EasyEnsemble 10 55,5655 10,0947 42,3321 71,1806 138,75

AHC-UnderBagging 10 53,0352 7,7736 43,2547 68,7731 138,45

Borderline_SMOTE-UnderOverBagging

10 55,8202 9,2068 43,2547 69,8326 138,45

CNN-NNCS 10 54,9116 12,9738 37,5622 81,2500 137,80

CNN-EasyEnsemble 10 54,9292 9,9912 33,4577 70,4040 137,70

OSS-C45CS 10 55,2153 10,8005 33,5821 69,0972 137,65

TL-UnderBagging2 10 52,8857 13,9942 24,2537 71,9192 136,80

ADOMS-IIVotes 10 55,4699 8,6421 44,1016 67,7841 135,95

CNN-OverBagging2 10 56,0395 14,5035 37,5622 88,5417 135,95

CNN-AdaBoostM2 10 52,2934 6,5855 43,1791 63,0769 135,40

CNN-AdaC2 10 52,2934 6,5855 43,1791 63,0769 135,40

SMOTE_TL-AdaBoostM1 10 55,3948 9,1731 48,3108 76,9900 135,20

Safe_Level_SMOTE-UnderOverBagging

10 53,9310 6,9798 45,7804 67,0139 135,00

SMOTE_TL-OverBagging 10 57,2983 16,3757 43,1791 98,6111 134,75

SMOTE_TL-AdaBoostM2 10 55,2128 9,3441 48,3108 76,9900 134,70

SMOTE_TL-AdaC2 10 55,2128 9,3441 48,3108 76,9900 134,70

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

96

Clasificador N Media Desviación

estándar Mínimo Máximo

Rango promedio

ROS-NNCS 10 56,4624 9,6325 46,5949 77,9851 134,10

NCL-BalanceCascade 10 54,3337 17,4776 16,0448 84,3750 133,85

RUS-OverBagging 10 52,8203 17,3054 16,4179 82,6389 133,30

CNNTL-Bagging 10 51,6180 6,4457 39,0547 64,9169 132,60

RUS-SMOTEBagging 10 53,8573 10,6425 31,2189 65,9231 132,00

CPM-UnderBagging2 10 54,0856 11,6292 39,8010 71,6777 131,60

SPIDER2-SMOTEBoost 10 58,0633 16,2986 45,7653 98,6111 130,90

AHC-IIVotes 10 54,5136 9,4740 38,9595 75,0000 130,50

SPIDER-IIVotes 10 55,7972 16,2233 30,9701 88,5417 130,40

ADOMS-Bagging 10 52,8317 10,0158 38,0067 69,6300 130,15

CNN-SMOTEBagging 10 55,7284 14,8791 33,7719 80,5556 130,10

Safe_Level_SMOTE-OverBagging 10 56,1225 13,2417 44,1773 89,9306 130,00

CNNTL-NNCS 10 52,6766 6,3172 41,7417 65,4449 129,45

ADOMS-C45CS 10 53,8401 7,5747 44,2377 67,7489 128,50

CNNTL-AdaBoostM1 10 50,9879 7,5670 38,1538 59,8941 128,50

CNNTL-AdaBoostM2 10 51,0275 7,4903 38,9231 59,8941 128,35

CNNTL-AdaC2 10 51,0275 7,4903 38,9231 59,8941 128,35

Borderline_SMOTE-SMOTEBagging

10 55,2832 9,1008 43,2698 68,5529 128,20

NCL-UnderOverBagging 10 53,1205 9,9011 33,8308 68,3502 128,05

Safe_Level_SMOTE-AdaBoost 10 54,0823 8,0054 44,9335 68,7500 127,65

CPM-OverBagging 10 54,1907 17,1390 35,0505 88,5417 126,75

Safe_Level_SMOTE-SMOTEBagging

10 55,8843 12,4831 39,7308 86,4583 126,25

SMOTE-OverBagging 10 58,2599 14,8118 44,9183 96,8750 126,10

Ninguno-SMOTEBagging 10 56,3024 10,9982 38,0218 73,6111 126,00

CNN-IIVotes 10 54,4427 16,0846 22,7612 79,5139 124,95

SMOTE_TL-EasyEnsemble 10 52,6479 10,4442 38,1944 74,5000 124,85

Borderline_SMOTE-C45CS 10 55,0652 11,6525 38,1428 78,4826 123,30

SPIDER2-AdaBoost 10 49,3090 7,2139 35,8943 56,0976 122,85

ADOMS-BalanceCascade 10 51,0262 14,7766 23,3514 71,8750 122,60

CPM-AdaBoostM1 10 56,3010 15,3646 34,7701 89,5833 121,50

SMOTE-RUSBoost 10 55,7017 12,4373 38,8990 80,3483 121,25

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

97

Clasificador N Media Desviación

estándar Mínimo Máximo

Rango promedio

Safe_Level_SMOTE-OverBagging2

10 53,3202 7,6276 43,2547 67,5705 120,85

Ninguno-NNCS 10 48,9717 15,4823 22,0416 69,2568 119,60

Safe_Level_SMOTE-BalanceCascade

10 53,0958 12,7439 34,8238 84,3750 117,70

SMOTE-BalanceCascade 10 56,5283 11,5362 42,3775 79,9751 117,50

Ninguno-UnderBagging2 10 50,9606 14,0688 25,3731 68,0705 115,70

TL-AdaBoost 10 48,7041 11,2394 23,6111 66,3957 115,00

CPM-AdaBoost 10 51,2462 5,3348 41,1692 60,6019 113,40

SPIDER2-Bagging 10 56,4767 15,0985 47,4099 97,5694 113,00

ADOMS-AdaBoostM1 10 56,9009 14,7365 44,1016 93,7500 112,20

ADOMS-AdaBoostM2 10 56,9009 14,7365 44,1016 93,7500 112,20

CNN-AdaBoost 10 50,9505 12,6365 32,2917 82,4242 112,10

SMOTE-SMOTEBoost 10 52,8672 9,3437 45,8106 77,7363 108,85

CPM-Bagging 10 52,6351 10,9966 36,3581 72,5694 102,10

CNNTL-AdaBoost 10 50,7909 11,0892 26,3682 65,8802 101,00

ADOMS-AdaC2 10 52,9952 8,9534 39,7308 67,6300 100,00

CPM-NNCS 10 50,7076 14,1097 31,3063 80,9091 99,40

SMOTE_TL-SMOTEBoost 10 55,7624 20,4685 31,7164 95,4861 94,40

SMOTE-IIVotes 10 52,0996 8,4642 41,2376 67,9692 86,70

CPM-IIVotes 10 51,6919 10,2359 31,2189 67,3084 85,30

CPM-EasyEnsemble 10 49,8249 12,0015 20,5224 64,2361 80,65

RUS-AdaBoostM1 10 49,0897 11,0889 29,3919 69,5100 79,90

Según el criterio de selección establecido, como intervienen 320 clasificadores, el tercio mejor se

encuentra por encima de 213 en el ranking promedio. Por tanto, se seleccionan aquellos que superan ese

valor:

Clasificador N Media Desviación estándar

Mínimo Máximo Rango

promedio

NCL-AdaBoostM1 10 62,3059 15,3046 45,9459 99,6528 233,85

NCL-AdaBoostM2 10 62,3059 15,3046 45,9459 99,6528 233,85

ADASYN-IIVotes 10 63,0873 13,5493 47,5802 94,7917 231,55

ROS-RUSBoost 10 61,6280 15,8968 44,9788 98,6111 229,55

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

98

Clasificador N Media Desviación estándar

Mínimo Máximo Rango

promedio

SPIDER-BalanceCascade 10 61,6856 15,5729 48,4234 99,3056 227,95

ROS-AdaBoost 10 60,6780 17,5698 32,8796 99,3056 226,10

TL-AdaBoostM1 10 62,3835 16,1044 46,6418 99,6528 224,00

ADASYN-SMOTEBoost 10 61,8098 15,4541 47,0149 97,5694 219,95

ROS-AdaC2 10 61,0737 15,3942 45,0847 99,3056 219,30

CPM-SMOTEBoost 10 62,5478 13,1599 49,2117 90,4040 217,35

SPIDER-OverBagging 10 61,4613 15,4237 47,9730 98,6111 216,50

ROS-AdaBoostM1 10 60,6018 17,6139 33,7568 99,3056 214,95

ROS-AdaBoostM2 10 60,6018 17,6139 33,7568 99,3056 214,95

Existen varias combinaciones que son idénticas (NCL-AdaBoostM1 con NCL-AdaBoostM2 y ROS-

AdaBoostM1 con ROS-AdaBoostM2), por lo que se elimina una de cada una de ellas para evitar realizar

trabajo redundante e innecesario. Acto seguido, se construyen las matrices de confusión y se calculan los

indicadores, en cada conjunto de datos, de los clasificadores seleccionados, para así observar de qué

resultados se parten. En este primera observación, se descarta el conjunto Talca M4, cuyos clasificadores

daban un resultado idéntico en prácticamente todos los casos, por lo que carece capacidad de mejora

con los ensembles. Aun así, los resultados se consideran aceptables y dicho conjunto se incluirá en el

resultado final, pues sea cual sea la combinación que se genere en las iteraciones, el resultado de este

conjunto de datos no va a variar.

Una vez hecho esto, se enumeran los algoritmos que van a intervenir en la generación de ensembles de

la primera iteración:

Clasificador Nº Rango promedio

NCL-AdaBoostM1 1 233,85

ADASYN-IIVotes 2 231,55

ROS-RUSBoost 3 229,55

SPIDER-BalanceCascade 4 227,95

ROS-AdaBoost 5 226,10

TL-AdaBoostM1 6 224,00

ADASYN-SMOTEBoost 7 219,95

ROS-AdaC2 8 219,30

CPM-SMOTEBoost 9 217,35

SPIDER-OverBagging 10 216,50

ROS-AdaBoostM1 11 214,95

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

99

Tras seleccionarlos, se generan tantos ensembles como combinaciones de dos existan, lo que hace un

total de 55 ensembles por conjunto de datos. Después se evalúan los resultados y se descartan aquellos

conjuntos cuyos resultados sean muy malos y/o que carezcan de capacidad de mejora con el paso de las

iteraciones. Por último, se busca un algoritmo que tenga unos resultados aceptables en el mayor conjunto

de datos posible.

Aunque en el siguiente apartado se comentarán los resultados conjunto a conjunto, el resultado principal

de esta iteración fue el descarte de los conjuntos Santiago M4, Valparaíso M5 y Nagoya M5 debido a sus

malos resultados y la falta de capacidad de mejora con el paso de las iteraciones. En la siguiente

iteración, el test de Friedman hace uso del indicador General de cada uno de los ensembles generados y

evaluados. En esta iteración se cuenta con un total de 6 conjuntos de datos, tras los descartes realizados

anteriormente, y con 55 clasificadores a evaluar, resultado de todas las combinaciones posibles a dos

entre los 11 clasificadores seleccionados en la primera iteración. El resultado del test, ordenado de mejor

a peor, es el siguiente:

Ensemble N Media Desviación estándar Mínimo Máximo Rango promedio

@19 6 75,6894 11,6544 60,6687 91,4931 41,75

@13 6 75,3174 17,2444 50,1569 100,0000 40,33

@12 6 74,8787 16,7193 50,1569 100,0000 39,92

@15 6 71,6954 17,5133 46,5491 100,0000 37,33

@27 6 72,9768 13,2473 50,2072 84,4792 36,00

@24 6 75,7119 8,0587 67,8576 87,1528 35,75

@26 6 73,9225 12,7209 55,9824 91,4931 35,75

@111 6 71,5476 17,5060 46,5491 100,0000 35,50

@29 6 74,1055 9,2237 60,6687 84,2647 35,33

@17 6 70,7966 14,6924 50,1667 91,4931 33,83

@310 6 73,3644 13,3046 52,4785 87,1528 33,17

@14 6 70,8750 16,9932 51,6906 100,0000 32,92

@18 6 71,4698 16,0363 51,8532 100,0000 32,50

@211 6 71,8542 18,1167 39,4481 91,4931 32,42

@210 6 72,7701 14,2719 48,2103 87,1528 32,25

@110 6 71,6794 16,8090 50,1471 100,0000 31,50

@311 6 71,9694 18,6836 39,1958 91,4931 31,50

@36 6 72,1859 15,8902 46,0023 91,4931 31,00

@23 6 72,1821 15,9518 44,3710 87,1528 30,92

@37 6 72,4251 15,3065 47,5021 87,1528 30,83

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

100

Ensemble N Media Desviación estándar Mínimo Máximo Rango promedio

@79 6 72,2046 12,7071 51,8532 84,2647 30,83

@38 6 72,0054 16,2645 45,1644 91,4931 29,75

@28 6 72,0030 16,1054 45,1644 91,4931 29,50

@35 6 71,7677 18,7800 39,1958 91,4931 29,50

@39 6 72,6602 12,3700 53,7646 84,2647 29,50

@34 6 71,6530 18,4887 40,1954 91,4931 28,92

@69 6 71,6986 11,9372 51,8532 84,2647 28,42

@911 6 71,3899 16,7034 42,9414 87,1528 27,92

@67 6 70,5526 12,0363 57,7493 91,4931 27,67

@16 6 72,5909 14,2756 62,8319 100,0000 27,50

@25 6 68,5957 17,1569 39,4481 91,4931 27,50

@1011 6 68,9933 16,0187 43,1334 91,4931 27,42

@910 6 71,1658 10,6938 57,4726 84,4792 26,42

@611 6 67,9801 16,9044 39,4481 91,4931 25,42

@59 6 70,7874 16,9720 42,9414 87,1528 25,25

@89 6 71,6331 12,9190 54,3753 87,1528 25,25

@510 6 68,2434 16,1233 43,1334 91,4931 25,08

@47 6 68,8498 15,2196 44,4153 87,1528 24,50

@49 6 72,0907 18,1876 47,2738 100,0000 24,50

@56 6 67,8983 16,9135 39,4481 91,4931 24,25

@610 6 70,6833 11,4361 59,2779 91,4931 24,17

@711 6 67,4056 17,7703 35,7387 87,1528 23,83

@68 6 69,5176 12,9819 52,5900 91,4931 23,75

@57 6 67,4031 17,8191 35,7387 87,1528 23,42

@710 6 69,0505 13,5541 48,2103 87,1528 22,83

@411 6 66,0558 20,6678 28,7987 91,4931 22,33

@46 6 68,5823 12,7504 49,1597 87,1528 21,75

@78 6 67,9825 14,2354 44,8649 87,1528 21,58

@45 6 65,8097 20,6513 28,7987 91,4931 21,08

@410 6 68,0864 14,6010 48,2103 91,4931 19,92

@810 6 68,0505 14,2475 48,2103 91,4931 18,17

@511 6 65,4856 18,5865 31,4890 87,1528 17,17

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

101

Ensemble N Media Desviación estándar Mínimo Máximo Rango promedio

@48 6 67,0095 16,7781 39,6507 91,4931 16,08

@811 6 65,7649 17,5582 34,1278 87,1528 14,92

@58 6 65,4384 17,5357 34,1278 87,1528 13,42

En este caso, como han participado 55 ensembles, el tercio mejor se encuentra en 36,67. Por tanto, se

seleccionan los ensembles que se encuentran por encima de ese valor:

Ensemble N Media Desviación estándar Mínimo Máximo Rango promedio

@19 6 75,6894 11,6544 60,6687 91,4931 41,75

@13 6 75,3174 17,2444 50,1569 100,0000 40,33

@12 6 74,8787 16,7193 50,1569 100,0000 39,92

@15 6 71,6954 17,5133 46,5491 100,0000 37,33

Tras esto, se realizan todos los ensembles posibles a dos y se evalúan los resultados. En esta iteración,

se tiene que el ensemble resultante de la combinación de los ensembles 1-9 y 1-2, es decir, la

combinación de los clasificadores iniciales 1,2 y 9 (NCL-AdaBoostM1 + ADASYN-IIVotes + CPM-

SMOTEBoost) presenta unos resultados aceptables en los 6 conjuntos de datos que no habían sido

descartados, más el conjunto Talca M4, que fue descartado inicialmente porque ya no podía mejorar más,

pero que presentaba resultados aceptables también.

Tras comentar los resultados a nivel general, ahora se procede a detallar los resultados de los mejores

clasificadores globales de cada conjunto de datos.

5.2.1. Pichilemu M4

5.2.1.1. Iteración 1

En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera

iteración:

Clasificador AUC

NCL-AdaBoostM1 0,5186

ADASYN-IIVotes 0,4758

ROS-RUSBoost 0,4498

SPIDER-BalanceCascade 0,4003

ROS-AdaBoost 0,3288

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

102

Clasificador AUC

TL-AdaBoostM1 0,5461

ADASYN-SMOTEBoost 0,5032

ROS-AdaC2 0,4508

CPM-SMOTEBoost 0,5012

SPIDER-OverBagging 0,4920

ROS-AdaBoostM1 0,3376

Se construyen las matrices de confusión y se calculan los indicadores:

Clasificador TP FP TN FN S E VPP VPN GRAL.

NCL-AdaBoostM1 9 7 51 48 0,1579 0,8793 0,5625 0,5152 0,5287

ADASYN-IIVotes 11 14 44 46 0,1930 0,7586 0,4400 0,4889 0,4701

ROS-RUSBoost 10 16 42 47 0,1754 0,7241 0,3846 0,4719 0,4390

SPIDER-BalanceCascade 25 37 21 32 0,4386 0,3621 0,4032 0,3962 0,4000

ROS-AdaBoost 8 28 30 49 0,1404 0,5172 0,2222 0,3797 0,3149

TL-AdaBoostM1 20 15 43 37 0,3509 0,7414 0,5714 0,5375 0,5503

ADASYN-SMOTEBoost 21 21 37 36 0,3684 0,6379 0,5000 0,5068 0,5033

ROS-AdaC2 17 23 35 40 0,2982 0,6034 0,4250 0,4667 0,4483

CPM-SMOTEBoost 8 8 50 49 0,1404 0,8621 0,5000 0,5051 0,5019

SPIDER-OverBagging 4 5 53 53 0,0702 0,9138 0,4444 0,5000 0,4821

ROS-AdaBoostM1 9 28 30 48 0,1579 0,5172 0,2432 0,3846 0,3257

Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 5 5 53 52 0,0877 0,9138 0,5000 0,5048 0,5016

1,3 5 5 53 52 0,0877 0,9138 0,5000 0,5048 0,5016

1,4 7 6 52 50 0,1228 0,8966 0,5385 0,5098 0,5169

1,5 4 6 52 53 0,0702 0,8966 0,4000 0,4952 0,4655

1,6 7 1 57 50 0,1228 0,9828 0,8750 0,5327 0,6283

1,7 6 6 52 51 0,1053 0,8966 0,5000 0,5049 0,5017

1,8 6 5 53 51 0,1053 0,9138 0,5455 0,5096 0,5185

1,9 5 1 57 52 0,0877 0,9828 0,8333 0,5229 0,6067

1,10 4 4 54 53 0,0702 0,9310 0,5000 0,5047 0,5015

1,11 4 6 52 53 0,0702 0,8966 0,4000 0,4952 0,4655

2,3 5 9 49 52 0,0877 0,8448 0,3571 0,4851 0,4437

2,4 20 3 55 37 0,3509 0,9483 0,8696 0,5978 0,6916

2,5 4 12 46 53 0,0702 0,7931 0,2500 0,4646 0,3945

2,6 9 5 53 48 0,1579 0,9138 0,6429 0,5248 0,5598

2,7 10 10 48 47 0,1754 0,8276 0,5000 0,5053 0,5021

2,8 7 11 47 50 0,1228 0,8103 0,3889 0,4845 0,4516

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

103

Intersección TP FP TN FN S E VPP VPN GRAL.

2,9 5 1 57 52 0,0877 0,9828 0,8333 0,5229 0,6067

2,10 4 5 53 53 0,0702 0,9138 0,4444 0,5000 0,4821

2,11 4 12 46 53 0,0702 0,7931 0,2500 0,4646 0,3945

3,4 7 16 42 50 0,1228 0,7241 0,3043 0,4565 0,4020

3,5 5 14 44 52 0,0877 0,7586 0,2632 0,4583 0,3920

3,6 6 9 49 51 0,1053 0,8448 0,4000 0,4900 0,4600

3,7 7 9 49 50 0,1228 0,8448 0,4375 0,4949 0,4750

3,8 7 11 47 50 0,1228 0,8103 0,3889 0,4845 0,4516

3,9 6 4 54 51 0,1053 0,9310 0,6000 0,5143 0,5376

3,10 4 3 55 53 0,0702 0,9483 0,5714 0,5093 0,5248

3,11 5 14 44 52 0,0877 0,7586 0,2632 0,4583 0,3920

4,5 5 27 31 52 0,0877 0,5345 0,1563 0,3735 0,2880

4,6 12 13 45 45 0,2105 0,7759 0,4800 0,5000 0,4916

4,7 13 19 39 44 0,2281 0,6724 0,4063 0,4699 0,4442

4,8 11 22 36 46 0,1930 0,6207 0,3333 0,4390 0,3965

4,9 6 8 50 51 0,1053 0,8621 0,4286 0,4950 0,4727

4,10 4 5 53 53 0,0702 0,9138 0,4444 0,5000 0,4821

4,11 5 27 31 52 0,0877 0,5345 0,1563 0,3735 0,2880

5,6 4 12 46 53 0,0702 0,7931 0,2500 0,4646 0,3945

5,7 5 18 40 52 0,0877 0,6897 0,2174 0,4348 0,3574

5,8 5 20 38 52 0,0877 0,6552 0,2000 0,4222 0,3413

5,9 3 7 51 54 0,0526 0,8793 0,3000 0,4857 0,4294

5,10 2 5 53 55 0,0351 0,9138 0,2857 0,4907 0,4313

5,11 8 28 30 49 0,1404 0,5172 0,2222 0,3797 0,3149

6,7 16 9 49 41 0,2807 0,8448 0,6400 0,5444 0,5775

6,8 11 9 49 46 0,1930 0,8448 0,5500 0,5158 0,5259

6,9 6 5 53 51 0,1053 0,9138 0,5455 0,5096 0,5185

6,10 4 1 57 53 0,0702 0,9828 0,8000 0,5182 0,5928

6,11 4 12 46 53 0,0702 0,7931 0,2500 0,4646 0,3945

7,8 10 15 43 47 0,1754 0,7414 0,4000 0,4778 0,4486

7,9 6 5 53 51 0,1053 0,9138 0,5455 0,5096 0,5185

7,10 4 5 53 53 0,0702 0,9138 0,4444 0,5000 0,4821

7,11 5 18 40 52 0,0877 0,6897 0,2174 0,4348 0,3574

8,9 5 3 55 52 0,0877 0,9483 0,6250 0,5140 0,5438

8,10 4 5 53 53 0,0702 0,9138 0,4444 0,5000 0,4821

8,11 5 20 38 52 0,0877 0,6552 0,2000 0,4222 0,3413

9,10 3 1 57 54 0,0526 0,9828 0,7500 0,5135 0,5747

9,11 3 7 51 54 0,0526 0,8793 0,3000 0,4857 0,4294

10,11 2 5 53 55 0,0351 0,9138 0,2857 0,4907 0,4313

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

104

Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

TL-AdaBoostM1 0,3509 0,7414 0,5714 0,5375 0,5503

2,4 0,3509 0,9483 0,8696 0,5978 0,6916

Mejora Ensemble 0,0000 0,2069 0,2981 0,0603 0,1413

5.2.1.2. Iteración 2

En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la

segunda iteración:

Ensemble TP FP TN FN S E VPP VPN GRAL.

1,9 5 1 57 52 0,0877 0,9828 0,8333 0,5229 0,6067

1,3 5 5 53 52 0,0877 0,9138 0,5000 0,5048 0,5016

1,2 5 5 53 52 0,0877 0,9138 0,5000 0,5048 0,5016

1,5 4 6 52 53 0,0702 0,8966 0,4000 0,4952 0,4655

Tras esto, se generan los ensembles de la segunda iteración y se muestran los resultados:

Intersección TP FP TN FN S E VPP VPN GRAL.

1-9,1-3 5 1 57 52 0,0877 0,9828 0,8333 0,5229 0,6067

1-9,1-2 4 0 58 53 0,0702 1,0000 1,0000 0,5225 0,6482

1-9,1-5 3 1 57 54 0,0526 0,9828 0,7500 0,5135 0,5747

1-3,1-2 4 4 54 53 0,0702 0,9310 0,5000 0,5047 0,5015

1-3,1-5 3 5 53 54 0,0526 0,9138 0,3750 0,4953 0,4592

1-2,1-5 3 5 53 54 0,0526 0,9138 0,3750 0,4953 0,4592

Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la

primera iteración y con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

TL-AdaBoostM1 0,3509 0,7414 0,5714 0,5375 0,5503

1-9,1-2 0,0702 1,0000 1,0000 0,5225 0,6482

Mejora Ensemble -0,2807 0,2586 0,4286 -0,0150 0,0979

Clasificador S E VPP VPN GRAL.

2,4 0,3509 0,9483 0,8696 0,5978 0,6916

1-9,1-2 0,0702 1,0000 1,0000 0,5225 0,6482

Mejora Ensemble -0,2807 0,0517 0,1304 -0,0753 -0,0435

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

105

5.2.2. Pichilemu M5

5.2.2.1. Iteración 1

En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera

iteración:

Clasificador AUC

NCL-AdaBoostM1 0,6500

ADASYN-IIVotes 0,6323

ROS-RUSBoost 0,6100

SPIDER-BalanceCascade 0,7631

ROS-AdaBoost 0,6069

TL-AdaBoostM1 0,6400

ADASYN-SMOTEBoost 0,6700

ROS-AdaC2 0,6069

CPM-SMOTEBoost 0,5808

SPIDER-OverBagging 0,5746

ROS-AdaBoostM1 0,6023

Se construyen las matrices de confusión y se calculan los indicadores:

Clasificador TP FP TN FN S E VPP VPN GRAL.

NCL-AdaBoostM1 15 0 65 35 0,3000 1,0000 1,0000 0,6500 0,7375

ADASYN-IIVotes 14 1 64 36 0,2800 0,9846 0,9333 0,6400 0,7095

ROS-RUSBoost 11 0 65 39 0,2200 1,0000 1,0000 0,6250 0,7113

SPIDER-BalanceCascade 34 10 55 16 0,6800 0,8462 0,7727 0,7746 0,7684

ROS-AdaBoost 13 3 62 37 0,2600 0,9538 0,8125 0,6263 0,6632

TL-AdaBoostM1 14 0 65 36 0,2800 1,0000 1,0000 0,6436 0,7309

ADASYN-SMOTEBoost 17 0 65 33 0,3400 1,0000 1,0000 0,6633 0,7508

ROS-AdaC2 13 3 62 37 0,2600 0,9538 0,8125 0,6263 0,6632

CPM-SMOTEBoost 15 9 56 35 0,3000 0,8615 0,6250 0,6154 0,6005

SPIDER-OverBagging 9 2 63 41 0,1800 0,9692 0,8182 0,6058 0,6433

ROS-AdaBoostM1 11 1 64 39 0,2200 0,9846 0,9167 0,6214 0,6857

Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 10 0 65 40 0,2 1 1 0,6190 0,7048

1,3 10 0 65 40 0,2 1 1 0,6190 0,7048

1,4 15 0 65 35 0,3 1 1 0,6500 0,7375

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

106

Intersección TP FP TN FN S E VPP VPN GRAL.

1,5 12 0 65 38 0,24 1 1 0,6311 0,7178

1,6 10 0 65 40 0,2 1 1 0,6190 0,7048

1,7 13 0 65 37 0,26 1 1 0,6373 0,7243

1,8 12 0 65 38 0,24 1 1 0,6311 0,7178

1,9 10 0 65 40 0,2 1 1 0,6190 0,7048

1,10 8 0 65 42 0,16 1 1 0,6075 0,6919

1,11 10 0 65 40 0,2 1 1 0,6190 0,7048

2,3 9 0 65 41 0,18 1 1 0,6132 0,6983

2,4 13 0 65 37 0,26 1 1 0,6373 0,7243

2,5 9 0 65 41 0,18 1 1 0,6132 0,6983

2,6 10 0 65 40 0,2 1 1 0,6190 0,7048

2,7 13 0 65 37 0,26 1 1 0,6373 0,7243

2,8 9 0 65 41 0,18 1 1 0,6132 0,6983

2,9 9 0 65 41 0,18 1 1 0,6132 0,6983

2,10 7 0 65 43 0,14 1 1 0,6019 0,6855

2,11 9 0 65 41 0,18 1 1 0,6132 0,6983

3,4 10 0 65 40 0,2 1 1 0,6190 0,7048

3,5 10 0 65 40 0,2 1 1 0,6190 0,7048

3,6 11 0 65 39 0,22 1 1 0,6250 0,7113

3,7 11 0 65 39 0,22 1 1 0,6250 0,7113

3,8 10 0 65 40 0,2 1 1 0,6190 0,7048

3,9 8 0 65 42 0,16 1 1 0,6075 0,6919

3,10 8 0 65 42 0,16 1 1 0,6075 0,6919

3,11 10 0 65 40 0,2 1 1 0,6190 0,7048

4,5 12 2 63 38 0,24 0,9692 0,8571 0,6238 0,6725

4,6 12 0 65 38 0,24 1 1 0,6311 0,7178

4,7 15 0 65 35 0,3 1 1 0,6500 0,7375

4,8 12 2 63 38 0,24 0,9692 0,8571 0,6238 0,6725

4,9 15 7 58 35 0,3 0,8923 0,6818 0,6237 0,6244

4,10 9 2 63 41 0,18 0,9692 0,8182 0,6058 0,6433

4,11 10 1 64 40 0,2 0,9846 0,9091 0,6154 0,6773

5,6 10 0 65 40 0,2 1 1 0,6190 0,7048

5,7 12 0 65 38 0,24 1 1 0,6311 0,7178

5,8 13 3 62 37 0,26 0,9538 0,8125 0,6263 0,6632

5,9 8 2 63 42 0,16 0,9692 0,8 0,6000 0,6323

5,10 7 1 64 43 0,14 0,9846 0,875 0,5981 0,6494

5,11 10 1 64 40 0,2 0,9846 0,9091 0,6154 0,6773

6,7 12 0 65 38 0,24 1 1 0,6311 0,7178

6,8 10 0 65 40 0,2 1 1 0,6190 0,7048

6,9 9 0 65 41 0,18 1 1 0,6132 0,6983

6,10 9 0 65 41 0,18 1 1 0,6132 0,6983

6,11 10 0 65 40 0,2 1 1 0,6190 0,7048

7,8 12 0 65 38 0,24 1 1 0,6311 0,7178

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

107

Intersección TP FP TN FN S E VPP VPN GRAL.

7,9 10 0 65 40 0,2 1 1 0,6190 0,7048

7,10 8 0 65 42 0,16 1 1 0,6075 0,6919

7,11 11 0 65 39 0,22 1 1 0,6250 0,7113

8,9 8 2 63 42 0,16 0,9692 0,8 0,6000 0,6323

8,10 7 1 64 43 0,14 0,9846 0,875 0,5981 0,6494

8,11 10 1 64 40 0,2 0,9846 0,9091 0,6154 0,6773

9,10 8 2 63 42 0,16 0,9692 0,8 0,6000 0,6323

9,11 8 1 64 42 0,16 0,9846 0,8889 0,6038 0,6593

10,11 7 0 65 43 0,14 1 1 0,6019 0,6855

Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

SPIDER-BalanceCascade 0,6800 0,8462 0,7727 0,7746 0,7684

1,4 0,3 1 1 0,6500 0,7375

Mejora Ensemble -0,3800 0,1538 0,2273 -0,1246 -0,0309

5.2.2.2. Iteración 2

En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la

segunda iteración:

Ensembles TP FP TN FN S E VPP VPN GRAL.

1,2 10 0 65 40 0,2 1 1 0,6190 0,7048

1,3 10 0 65 40 0,2 1 1 0,6190 0,7048

1,5 12 0 65 38 0,24 1 1 0,6311 0,7178

1,9 10 0 65 40 0,2 1 1 0,6190 0,7048

Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:

Ensembles TP FP TN FN S E VPP VPN GRAL.

1-9,1-3 8 0 65 42 0,16 1 1 0,6075 0,6919

1-9,1-2 9 0 65 41 0,18 1 1 0,6132 0,6983

1-9,1-5 8 0 65 42 0,16 1 1 0,6075 0,6919

1-3,1-2 8 0 65 42 0,16 1 1 0,6075 0,6919

1-3,1-5 9 0 65 41 0,18 1 1 0,6132 0,6983

1-2,1-5 8 0 65 42 0,16 1 1 0,6075 0,6919

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

108

Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la

primera iteración y con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

SPIDER-BalanceCascade 0,6800 0,8462 0,7727 0,7746 0,7684

1-9,1-2 0,18 1 1 0,6132 0,6983

Mejora Ensemble -0,5000 0,1538 0,2273 -0,1614 -0,0701

Clasificador S E VPP VPN GRAL.

1,4 0,3 1 1 0,6500 0,7375

1-9,1-2 0,18 1 1 0,6132 0,6983

Mejora Ensemble -0,1200 0,0000 0,0000 -0,0368 -0,0392

5.2.3. Santiago M4

5.2.3.1. Iteración 1

En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera

iteración:

Clasificador AUC

NCL-AdaBoostM1 0,4595

ADASYN-IIVotes 0,5608

ROS-RUSBoost 0,5000

SPIDER-BalanceCascade 0,4662

ROS-AdaBoost 0,5056

TL-AdaBoostM1 0,4696

ADASYN-SMOTEBoost 0,4899

ROS-AdaC2 0,5056

CPM-SMOTEBoost 0,4921

SPIDER-OverBagging 0,4831

ROS-AdaBoostM1 0,5056

Se construyen las matrices de confusión y se calculan los indicadores:

Clasificador TP FP TN FN S E VPP VPN GRAL.

NCL-AdaBoostM1 0 12 136 12 0,0000 0,9189 0,0000 0,9189 0,4595

ADASYN-IIVotes 3 19 129 9 0,2500 0,8716 0,1364 0,9348 0,5482

ROS-RUSBoost 0 0 148 12 0,0000 1,0000 - 0,9250 -

SPIDER-BalanceCascade 3 47 101 9 0,2500 0,6824 0,0600 0,9182 0,4777

ROS-AdaBoost 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

109

Clasificador TP FP TN FN S E VPP VPN GRAL.

TL-AdaBoostM1 0 9 139 12 0,0000 0,9392 0,0000 0,9205 0,4649

ADASYN-SMOTEBoost 0 3 145 12 0,0000 0,9797 0,0000 0,9236 0,4758

ROS-AdaC2 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043

CPM-SMOTEBoost 2 27 121 10 0,1667 0,8176 0,0690 0,9237 0,4942

SPIDER-OverBagging 0 5 143 12 0,0000 0,9662 0,0000 0,9226 0,4722

ROS-AdaBoostM1 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043

Tras observar que los clasificadores iniciales no dan lugar al optimismo, se generan sólo los ensembles

de la primera iteración que mayores expectativas generan:

Intersección TP FP TN FN S E VPP VPN GRAL.

2,4 2 7 141 10 0,1667 0,9527 0,2222 0,9338 0,5688

2,5 1 6 142 11 0,0833 0,9595 0,1429 0,9281 0,5284

2,8 1 6 142 11 0,0833 0,9595 0,1429 0,9281 0,5284

2,9 1 4 144 11 0,0833 0,9730 0,2000 0,9290 0,5463

2,11 1 6 142 11 0,0833 0,9595 0,1429 0,9281 0,5284

4,5 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667

4,8 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667

4,9 1 10 138 11 0,0833 0,9324 0,0909 0,9262 0,5082

4,11 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667

5,8 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043

5,9 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667

5,11 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043

8,9 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667

8,11 2 23 125 10 0,1667 0,8446 0,0800 0,9259 0,5043

9,11 0 8 140 12 0,0000 0,9459 0,0000 0,9211 0,4667

Ante la falta de expectativas de este conjunto, se decide excluirlo del proceso iterativo.

5.2.4. Talca M4

5.2.4.1. Iteración 1

En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera

iteración:

Clasificador AUC

NCL-AdaBoostM1 0,5610

ADASYN-IIVotes 0,5610

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

110

Clasificador AUC

ROS-RUSBoost 0,5610

SPIDER-BalanceCascade 0,5610

ROS-AdaBoost 0,5610

TL-AdaBoostM1 0,5610

ADASYN-SMOTEBoost 0,5610

ROS-AdaC2 0,5610

CPM-SMOTEBoost 0,5488

SPIDER-OverBagging 0,5610

ROS-AdaBoostM1 0,5610

Se construyen las matrices de confusión y se calculan los indicadores:

Clasificador TP FP TN FN S E VPP VPN GRAL.

NCL-AdaBoostM1 5 0 27 36 0,1220 1 1 0,4286 0,6376

ADASYN-IIVotes 5 0 27 36 0,1220 1 1 0,4286 0,6376

ROS-RUSBoost 5 0 27 36 0,1220 1 1 0,4286 0,6376

SPIDER-BalanceCascade 5 0 27 36 0,1220 1 1 0,4286 0,6376

ROS-AdaBoost 5 0 27 36 0,1220 1 1 0,4286 0,6376

TL-AdaBoostM1 5 0 27 36 0,1220 1 1 0,4286 0,6376

ADASYN-SMOTEBoost 5 0 27 36 0,1220 1 1 0,4286 0,6376

ROS-AdaC2 5 0 27 36 0,1220 1 1 0,4286 0,6376

CPM-SMOTEBoost 4 0 27 37 0,0976 1 1 0,4219 0,6299

SPIDER-OverBagging 5 0 27 36 0,1220 1 1 0,4286 0,6376

ROS-AdaBoostM1 5 0 27 36 0,1220 1 1 0,4286 0,6376

Como se observa, todos los clasificadores, excepto uno (CPM-SMOTEBoost), son idénticos, por lo que

resulta innecesaria la generación de ensembles, pues el resultado va a ser el mismo, excepto si en el

ensemble interviene el clasificador que no es igual a los demás, como es el caso del mejor clasificador

global seleccionado. En ese caso, el resultado del ensemble será el mismo que el de dicho clasificador

(CPM-SMOTEBoost).

Clasificador TP FP TN FN S E VPP VPN GRAL.

1-9,1-2 4 0 27 37 0,0976 1 1 0,4219 0,6299

Debido a lo expuesto, este conjunto de datos se excluye de la siguiente iteración. No obstante, el

resultado se considera aceptable y se incluirá en el resultado final.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

111

5.2.5. Talca M5

5.2.5.1. Iteración 1

En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera

iteración:

Clasificador AUC

NCL-AdaBoostM1 0,6242

ADASYN-IIVotes 0,7000

ROS-RUSBoost 0,7000

SPIDER-BalanceCascade 0,8788

ROS-AdaBoost 0,6747

TL-AdaBoostM1 0,6697

ADASYN-SMOTEBoost 0,6646

ROS-AdaC2 0,6747

CPM-SMOTEBoost 0,9040

SPIDER-OverBagging 0,6646

ROS-AdaBoostM1 0,6747

Se construyen las matrices de confusión y se calculan los indicadores:

Clasificador TP FP TN FN S E VPP VPN GRAL.

NCL-AdaBoostM1 2 15 84 3 0,4 0,8485 0,1176 0,9655 0,5829

ADASYN-IIVotes 2 0 99 3 0,4 1 1 0,9706 0,8426

ROS-RUSBoost 2 0 99 3 0,4 1 1 0,9706 0,8426

SPIDER-BalanceCascade 5 24 75 0 1,0 0,7576 0,1724 1,0000 0,7325

ROS-AdaBoost 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

TL-AdaBoostM1 2 6 93 3 0,4 0,9394 0,2500 0,9688 0,6395

ADASYN-SMOTEBoost 2 7 92 3 0,4 0,9293 0,2222 0,9684 0,6300

ROS-AdaC2 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

CPM-SMOTEBoost 5 19 80 0 1,0 0,8081 0,2083 1,0000 0,7541

SPIDER-OverBagging 2 7 92 3 0,4 0,9293 0,2222 0,9684 0,6300

ROS-AdaBoostM1 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:

Intersección TP FP TN FN Sensibilidad Especificidad VPP VPN GRAL.

1,2 2 0 99 3 0,4 1 1 0,9706 0,8426

1,3 2 0 99 3 0,4 1 1 0,9706 0,8426

1,4 2 15 84 3 0,4 0,8485 0,1176 0,9655 0,5829

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

112

Intersección TP FP TN FN Sensibilidad Especificidad VPP VPN GRAL.

1,5 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

1,6 2 6 93 3 0,4 0,9394 0,2500 0,9688 0,6395

1,7 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

1,8 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

1,9 2 0 99 3 0,4 1 1 0,9706 0,8426

1,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

1,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

2,3 2 0 99 3 0,4 1 1 0,9706 0,8426

2,4 2 0 99 3 0,4 1 1 0,9706 0,8426

2,5 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

2,6 2 0 99 3 0,4 1 1 0,9706 0,8426

2,7 2 0 99 3 0,4 1 1 0,9706 0,8426

2,8 2 0 99 3 0,4 1 1 0,9706 0,8426

2,9 2 0 99 3 0,4 1 1 0,9706 0,8426

2,10 2 0 99 3 0,4 1 1 0,9706 0,8426

2,11 2 0 99 3 0,4 1 1 0,9706 0,8426

3,4 2 0 99 3 0,4 1 1 0,9706 0,8426

3,5 2 0 99 3 0,4 1 1 0,9706 0,8426

3,6 2 0 99 3 0,4 1 1 0,9706 0,8426

3,7 2 0 99 3 0,4 1 1 0,9706 0,8426

3,8 2 0 99 3 0,4 1 1 0,9706 0,8426

3,9 2 0 99 3 0,4 1 1 0,9706 0,8426

3,10 2 0 99 3 0,4 1 1 0,9706 0,8426

3,11 2 0 99 3 0,4 1 1 0,9706 0,8426

4,5 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

4,6 2 6 93 3 0,4 0,9394 0,2500 0,9688 0,6395

4,7 2 7 92 3 0,4 0,9293 0,2222 0,9684 0,6300

4,8 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

4,9 5 0 99 0 1 1 1 1,0000 1,0000

4,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

4,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

5,6 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

5,7 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

5,8 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

5,9 2 0 99 3 0,4 1 1 0,9706 0,8426

5,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

5,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

6,7 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

6,8 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

6,9 2 0 99 3 0,4 1 1 0,9706 0,8426

6,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

6,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

7,8 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

113

Intersección TP FP TN FN Sensibilidad Especificidad VPP VPN GRAL.

7,9 2 0 99 3 0,4 1 1 0,9706 0,8426

7,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

7,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

8,9 2 0 99 3 0,4 1 1 0,9706 0,8426

8,10 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

8,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

9,10 2 1 98 3 0,4 0,9899 0,6667 0,9703 0,7567

9,11 2 0 99 3 0,4 1 1 0,9706 0,8426

10,11 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

ADASYN-IIVotes 0,4 1 1 0,9706 0,8426

4,9 1 1 1 1 1

Mejora Ensemble 0,6000 0,0000 0,0000 0,0294 0,1574

5.2.5.2. Iteración 2

En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la

segunda iteración:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 2 0 99 3 0,4 1 1 0,9706 0,8426

1,3 2 0 99 3 0,4 1 1 0,9706 0,8426

1,5 2 5 94 3 0,4 0,9495 0,2857 0,9691 0,6511

1,9 2 0 99 3 0,4 1 1 0,9706 0,8426

Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:

Ensembles TP FP TN FN S E VPP VPN GRAL.

1-9,1-3 2 0 99 3 0,4 1 1 0,9706 0,8426

1-9,1-2 2 0 99 3 0,4 1 1 0,9706 0,8426

1-9,1-5 2 0 99 3 0,4 1 1 0,9706 0,8426

1-3,1-2 2 0 99 3 0,4 1 1 0,9706 0,8426

1-3,1-5 2 0 99 3 0,4 1 1 0,9706 0,8426

1-2,1-5 2 0 99 3 0,4 1 1 0,9706 0,8426

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

114

Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la

primera iteración y con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

ADASYN-IIVotes 0,4 1 1 0,9706 0,8426

1-9,1-2 0,4 1 1 0,9706 0,8426

Mejora Ensemble 0,0000 0,0000 0,0000 0,0000 0,0000

Clasificador S E VPP VPN GRAL.

4,9 1 1 1 1 1

1-9,1-2 0,4 1 1 0,9706 0,8426

Mejora Ensemble -0,6000 0,0000 0,0000 -0,0294 -0,1574

5.2.6. Valparaíso M4

5.2.6.1. Iteración 1

En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera

iteración:

Clasificador AUC

NCL-AdaBoostM1 0,7114

ADASYN-IIVotes 0,6865

ROS-RUSBoost 0,7384

SPIDER-BalanceCascade 0,6821

ROS-AdaBoost 0,7170

TL-AdaBoostM1 0,6250

ADASYN-SMOTEBoost 0,7340

ROS-AdaC2 0,6356

CPM-SMOTEBoost 0,7183

SPIDER-OverBagging 0,7030

ROS-AdaBoostM1 0,7170

Se construyen las matrices de confusión y se calculan los indicadores:

Clasificador TP FP TN FN S E VPP VPN GRAL.

NCL-AdaBoostM1 48 13 214 52 0,48 0,9427 0,7869 0,8045 0,7535

ADASYN-IIVotes 58 47 180 42 0,58 0,7930 0,5524 0,8108 0,6840

ROS-RUSBoost 49 3 224 51 0,49 0,9868 0,9423 0,8145 0,8084

SPIDER-BalanceCascade 58 49 178 42 0,58 0,7841 0,5421 0,8091 0,6788

ROS-AdaBoost 50 15 212 50 0,50 0,9339 0,7692 0,8092 0,7531

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

115

Clasificador TP FP TN FN S E VPP VPN GRAL.

TL-AdaBoostM1 25 0 227 75 0,25 1,0000 1,0000 0,7517 0,7504

ADASYN-SMOTEBoost 49 5 222 51 0,49 0,9780 0,9074 0,8132 0,7971

ROS-AdaC2 28 2 225 72 0,28 0,9912 0,9333 0,7576 0,7405

CPM-SMOTEBoost 56 28 199 44 0,56 0,8767 0,6667 0,8189 0,7306

SPIDER-OverBagging 45 10 217 55 0,45 0,9559 0,8182 0,7978 0,7555

ROS-AdaBoostM1 50 15 212 50 0,50 0,9339 0,7692 0,8092 0,7531

Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 48 11 216 52 0,48 0,9515 0,8136 0,8060 0,7628

1,3 48 1 226 52 0,48 0,9956 0,9796 0,8129 0,8170

1,4 48 11 216 52 0,48 0,9515 0,8136 0,8060 0,7628

1,5 47 6 221 53 0,47 0,9736 0,8868 0,8066 0,7842

1,6 25 0 227 75 0,25 1 1 0,7517 0,7504

1,7 48 0 227 52 0,48 1 1 0,8136 0,8234

1,8 27 1 226 73 0,27 0,9956 0,9643 0,7559 0,7464

1,9 48 3 224 52 0,48 0,9868 0,9412 0,8116 0,8049

1,10 44 2 225 56 0,44 0,9912 0,9565 0,8007 0,7971

1,11 47 6 221 53 0,47 0,9736 0,8868 0,8066 0,7842

2,3 49 2 225 51 0,49 0,9912 0,9608 0,8152 0,8143

2,4 52 22 205 48 0,52 0,9031 0,7027 0,8103 0,7340

2,5 48 8 219 52 0,48 0,9648 0,8571 0,8081 0,7775

2,6 25 0 227 75 0,25 1 1 0,7517 0,7504

2,7 49 4 223 51 0,49 0,9824 0,9245 0,8139 0,8027

2,8 28 1 226 72 0,28 0,9956 0,9655 0,7584 0,7499

2,9 52 6 221 48 0,52 0,9736 0,8966 0,8216 0,8029

2,10 45 3 224 55 0,45 0,9868 0,9375 0,8029 0,7943

2,11 48 8 219 52 0,48 0,9648 0,8571 0,8081 0,7775

3,4 49 3 224 51 0,49 0,9868 0,9423 0,8145 0,8084

3,5 47 1 226 53 0,47 0,9956 0,9792 0,8100 0,8137

3,6 25 0 227 75 0,25 1 1 0,7517 0,7504

3,7 49 1 226 51 0,49 0,9956 0,9800 0,8159 0,8204

3,8 28 0 227 72 0,28 1 1 0,7592 0,7598

3,9 49 1 226 51 0,49 0,9956 0,9800 0,8159 0,8204

3,10 45 0 227 55 0,45 1 1 0,8050 0,8137

3,11 47 1 226 53 0,47 0,9956 0,9792 0,8100 0,8137

4,5 48 12 215 52 0,48 0,9471 0,8 0,8052 0,7581

4,6 25 0 227 75 0,25 1 1 0,7517 0,7504

4,7 49 3 224 51 0,49 0,9868 0,9423 0,8145 0,8084

4,8 28 2 225 72 0,28 0,9912 0,9333 0,7576 0,7405

4,9 52 4 223 48 0,52 0,9824 0,9286 0,8229 0,8135

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

116

Intersección TP FP TN FN S E VPP VPN GRAL.

410 45 8 219 55 0,45 0,9648 0,8491 0,7993 0,7658

4,11 48 12 215 52 0,48 0,9471 0,8 0,8052 0,7581

5,6 24 0 227 76 0,24 1 1 0,7492 0,7473

5,7 47 3 224 53 0,47 0,9868 0,94 0,8087 0,8014

5,8 27 1 226 73 0,27 0,9956 0,9643 0,7559 0,7464

5,9 47 0 227 53 0,47 1 1 0,8107 0,8202

5,10 44 4 223 56 0,44 0,9824 0,9167 0,7993 0,7846

5,11 50 15 212 50 0,5 0,9339 0,7692 0,8092 0,7531

6,7 25 0 227 75 0,25 1 1 0,7517 0,7504

6,8 21 0 227 79 0,21 1 1 0,7418 0,7380

6,9 25 0 227 75 0,25 1 1 0,7517 0,7504

6,10 23 0 227 77 0,23 1 1 0,7467 0,7442

6,11 24 0 227 76 0,24 1 1 0,7492 0,7473

7,8 28 0 227 72 0,28 1 1 0,7592 0,7598

7,9 49 0 227 51 0,49 1 1 0,8165 0,8266

7,10 45 2 225 55 0,45 0,9912 0,9574 0,8036 0,8006

7,11 47 3 224 53 0,47 0,9868 0,94 0,8087 0,8014

8,9 28 0 227 72 0,28 1 1 0,7592 0,7598

8,10 26 1 226 74 0,26 0,9956 0,9630 0,7533 0,7430

8,11 27 1 226 73 0,27 0,9956 0,9643 0,7559 0,7464

9,10 45 1 226 55 0,45 0,9956 0,9783 0,8043 0,8070

9,11 47 0 227 53 0,47 1 1 0,8107 0,8202

10,11 44 4 223 56 0,44 0,9824 0,9167 0,7993 0,7846

Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

ROS-RUSBoost 0,49 0,9868 0,9423 0,8145 0,8084

7,9 0,49 1 1 0,8165 0,8266

Mejora Ensemble 0,0000 0,0132 0,0577 0,0020 0,0182

5.2.6.2. Iteración 2

En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la

segunda iteración:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 48 11 216 52 0,48 0,9515 0,8136 0,8060 0,7628

1,3 48 1 226 52 0,48 0,9956 0,9796 0,8129 0,8170

1,5 47 6 221 53 0,47 0,9736 0,8868 0,8066 0,7842

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

117

Intersección TP FP TN FN S E VPP VPN GRAL.

1,9 48 3 224 52 0,48 0,9868 0,9412 0,8116 0,8049

Tras esto, se generan los ensembles de la segunda iteración y se muestran los resultados:

Intersección TP FP TN FN S E VPP VPN GRAL.

1-9,1-3 48 1 226 52 0,48 0,9956 0,9796 0,8129 0,8170

1-9,1-2 48 2 225 52 0,48 0,9912 0,9600 0,8123 0,8109

1-9,1-5 47 0 227 53 0,47 1 1 0,8107 0,8202

1-3,1-2 48 1 226 52 0,48 0,9956 0,9796 0,8129 0,8170

1-3,1-5 47 0 227 53 0,47 1 1 0,8107 0,8202

1-2,1-5 47 6 221 53 0,47 0,9736 0,8868 0,8066 0,7842

Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la

primera iteración y con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

ROS-RUSBoost 0,49 0,9868 0,9423 0,8145 0,8084

1-9,1-2 0,48 0,9912 0,9600 0,8123 0,8109

Mejora Ensemble -0,0100 0,0044 0,0177 -0,0023 0,0025

Clasificador S E VPP VPN GRAL.

7,9 0,49 1 1 0,8165 0,8266

1-9,1-2 0,48 0,9912 0,9600 0,8123 0,8109

Mejora Ensemble -0,0100 -0,0088 -0,0400 -0,0043 -0,0158

5.2.7. Valparaíso M5

5.2.7.1. Iteración 1

En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera

iteración:

Clasificador AUC

NCL-AdaBoostM1 0,5721

ADASYN-IIVotes 0,4914

ROS-RUSBoost 0,5126

SPIDER-BalanceCascade 0,4652

ROS-AdaBoost 0,5274

TL-AdaBoostM1 0,5057

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

118

Clasificador AUC

ADASYN-SMOTEBoost 0,5000

ROS-AdaC2 0,5274

CPM-SMOTEBoost 0,5480

SPIDER-OverBagging 0,4966

ROS-AdaBoostM1 0,4949

Se construyen las matrices de confusión y se calculan los indicadores:

Clasificador TP FP TN FN S E VPP VPN GRAL.

NCL-AdaBoostM1 9 33 259 26 0,2571 0,8870 0,2143 0,9088 0,5668

ADASYN-IIVotes 0 5 287 35 0,0000 0,9829 0,0000 0,8913 0,4685

ROS-RUSBoost 1 1 291 34 0,0286 0,9966 0,5000 0,8954 0,6051

SPIDER-BalanceCascade 2 37 255 33 0,0571 0,8733 0,0513 0,8854 0,4668

ROS-AdaBoost 3 9 283 32 0,0857 0,9692 0,2500 0,8984 0,5508

TL-AdaBoostM1 1 5 287 34 0,0286 0,9829 0,1667 0,8941 0,5180

ADASYN-SMOTEBoost 0 0 292 35 0,0000 1,0000 - 0,8930 -

ROS-AdaC2 3 9 283 32 0,0857 0,9692 0,2500 0,8984 0,5508

CPM-SMOTEBoost 6 22 270 29 0,1714 0,9247 0,2143 0,9030 0,5533

SPIDER-OverBagging 0 2 290 35 0,0000 0,9932 0,0000 0,8923 0,4714

ROS-AdaBoostM1 3 28 264 32 0,0857 0,9041 0,0968 0,8919 0,4946

Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209

1,3 1 1 226 99 0,01 0,9956 0,5000 0,6954 0,5502

1,4 0 6 221 100 0 0,9736 0,0000 0,6885 0,4155

1,5 3 5 222 97 0,03 0,9780 0,3750 0,6959 0,5197

1,6 1 5 222 99 0,01 0,9780 0,1667 0,6916 0,4616

1,7 0 0 227 100 0 1,0000 - 0,6942 -

1,8 3 5 222 97 0,03 0,9780 0,3750 0,6959 0,5197

1,9 5 11 216 95 0,05 0,9515 0,3125 0,6945 0,5021

1,10 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222

1,11 3 11 216 97 0,03 0,9515 0,2143 0,6901 0,4715

2,3 0 0 227 100 0 1,0000 - 0,6942 -

2,4 0 3 224 100 0 0,9868 0,0000 0,6914 0,4195

2,5 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222

2,6 0 0 227 100 0 1,0000 - 0,6942 -

2,7 0 0 227 100 0 1,0000 - 0,6942 -

2,8 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222

2,9 0 3 224 100 0 0,9868 0,0000 0,6914 0,4195

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

119

Intersección TP FP TN FN S E VPP VPN GRAL.

2,10 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222

2,11 0 4 223 100 0 0,9824 0,0000 0,6904 0,4182

3,4 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222

3,5 1 0 227 99 0,01 1,0000 1,0000 0,6963 0,6766

3,6 0 0 227 100 0 1,0000 - 0,6942 -

3,7 0 0 227 100 0 1,0000 - 0,6942 -

3,8 1 0 227 99 0,01 1,0000 1,0000 0,6963 0,6766

3,9 1 0 227 99 0,01 1,0000 1,0000 0,6963 0,6766

3,10 0 0 227 100 0 1,0000 - 0,6942 -

3,11 1 1 226 99 0,01 0,9956 0,5000 0,6954 0,5502

4,5 0 3 224 100 0 0,9868 0,0000 0,6914 0,4195

4,6 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209

4,7 0 0 227 100 0 1,0000 - 0,6942 -

4,8 0 3 224 100 0 0,9868 0,0000 0,6914 0,4195

4,9 0 8 219 100 0 0,9648 0,0000 0,6865 0,4128

4,10 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209

4,11 0 14 213 100 0 0,9383 0,0000 0,6805 0,4047

5,6 1 1 226 99 0,01 0,9956 0,5000 0,6954 0,5502

5,7 0 0 227 100 0 1,0000 - 0,6942 -

5,8 3 9 218 97 0,03 0,9604 0,2500 0,6921 0,4831

5,9 2 2 225 98 0,02 0,9912 0,5000 0,6966 0,5519

5,10 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209

5,11 3 6 221 97 0,03 0,9736 0,3333 0,6950 0,5080

6,7 0 0 227 100 0 1,0000 - 0,6942 -

6,8 1 1 226 99 0,01 0,9956 0,5000 0,6954 0,5502

6,9 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209

6,10 0 0 227 100 0 1,0000 - 0,6942 -

6,11 1 3 224 99 0,01 0,9868 0,2500 0,6935 0,4851

7,8 0 0 227 100 0 1,0000 - 0,6942 -

7,9 0 0 227 100 0 1,0000 - 0,6942 -

7,10 0 0 227 100 0 1,0000 - 0,6942 -

7,11 0 0 227 100 0 1,0000 - 0,6942 -

8,9 2 2 225 98 0,02 0,9912 0,5000 0,6966 0,5519

8,10 0 2 225 100 0 0,9912 0,0000 0,6923 0,4209

8,11 3 6 221 97 0,03 0,9736 0,3333 0,6950 0,5080

9,10 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222

9,11 2 12 215 98 0,02 0,9471 0,1429 0,6869 0,4492

10,11 0 1 226 100 0 0,9956 0,0000 0,6933 0,4222

Al observar los resultados de los ensembles, se evidencia una falta de capacidad de mejora del conjunto,

por lo que se decide excluirlo del proceso iterativo.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

120

5.2.8. Tokyo M5

5.2.8.1. Iteración 1

En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera

iteración:

Clasificador AUC

NCL-AdaBoostM1 0,6485

ADASYN-IIVotes 0,6684

ROS-RUSBoost 0,6050

SPIDER-BalanceCascade 0,5708

ROS-AdaBoost 0,6607

TL-AdaBoostM1 0,6543

ADASYN-SMOTEBoost 0,6125

ROS-AdaC2 0,6596

CPM-SMOTEBoost 0,6170

SPIDER-OverBagging 0,6229

ROS-AdaBoostM1 0,6740

Se construyen las matrices de confusión y se calculan los indicadores:

Clasificador TP FP TN FN S E VPP VPN GRAL.

NCL-AdaBoostM1 397 106 122 124 0,7620 0,5351 0,7893 0,4959 0,6456

ADASYN-IIVotes 420 107 121 101 0,8061 0,5307 0,7970 0,5450 0,6697

ROS-RUSBoost 411 132 96 110 0,7889 0,4211 0,7569 0,4660 0,6082

SPIDER-BalanceCascade 444 162 66 77 0,8522 0,2895 0,7327 0,4615 0,5840

ROS-AdaBoost 348 79 149 173 0,6679 0,6535 0,8150 0,4627 0,6498

TL-AdaBoostM1 339 78 150 182 0,6507 0,6579 0,8129 0,4518 0,6433

ADASYN-SMOTEBoost 380 115 113 141 0,7294 0,4956 0,7677 0,4449 0,6094

ROS-AdaC2 276 48 180 245 0,5298 0,7895 0,8519 0,4235 0,6487

CPM-SMOTEBoost 403 123 105 118 0,7735 0,4605 0,7662 0,4709 0,6178

SPIDER-OverBagging 416 126 102 105 0,7985 0,4474 0,7675 0,4928 0,6265

ROS-AdaBoostM1 339 69 159 182 0,6507 0,6974 0,8309 0,4663 0,6613

Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 372 75 153 149 0,7140 0,6711 0,8322 0,5066 0,6810

1,3 330 69 159 191 0,6334 0,6974 0,8271 0,4543 0,6530

1,4 377 92 136 144 0,7236 0,5965 0,8038 0,4857 0,6524

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

121

Intersección TP FP TN FN S E VPP VPN GRAL.

1,5 330 54 174 191 0,6334 0,7632 0,8594 0,4767 0,6832

1,6 325 77 151 196 0,6238 0,6623 0,8085 0,4352 0,6324

1,7 338 83 145 183 0,6488 0,6360 0,8029 0,4421 0,6324

1,8 260 39 189 261 0,4990 0,8289 0,8696 0,4200 0,6544

1,9 337 65 163 184 0,6468 0,7149 0,8383 0,4697 0,6674

1,10 364 82 146 157 0,6987 0,6404 0,8161 0,4818 0,6592

1,11 321 48 180 200 0,6161 0,7895 0,8699 0,4737 0,6873

2,3 355 77 151 166 0,6814 0,6623 0,8218 0,4763 0,6604

2,4 400 91 137 121 0,7678 0,6009 0,8147 0,5310 0,6786

2,5 337 59 169 184 0,6468 0,7412 0,8510 0,4788 0,6795

2,6 323 61 167 198 0,6200 0,7325 0,8411 0,4575 0,6628

2,7 342 70 158 179 0,6564 0,6930 0,8301 0,4688 0,6621

2,8 265 37 191 256 0,5086 0,8377 0,8775 0,4273 0,6628

2,9 362 69 159 159 0,6948 0,6974 0,8399 0,5000 0,6830

2,10 385 77 151 136 0,7390 0,6623 0,8333 0,5261 0,6902

2,11 328 53 175 193 0,6296 0,7675 0,8609 0,4755 0,6834

3,4 377 105 123 144 0,7236 0,5395 0,7822 0,4607 0,6265

3,5 295 61 167 226 0,5662 0,7325 0,8287 0,4249 0,6381

3,6 292 53 175 229 0,5605 0,7675 0,8464 0,4332 0,6519

3,7 312 75 153 209 0,5988 0,6711 0,8062 0,4227 0,6247

3,8 237 34 194 284 0,4549 0,8509 0,8745 0,4059 0,6465

3,9 334 77 151 187 0,6411 0,6623 0,8127 0,4467 0,6407

3,10 362 82 146 159 0,6948 0,6404 0,8153 0,4787 0,6573

3,11 290 53 175 231 0,5566 0,7675 0,8455 0,4310 0,6502

4,5 331 64 164 190 0,6353 0,7193 0,8380 0,4633 0,6640

4,6 329 73 155 192 0,6315 0,6798 0,8184 0,4467 0,6441

4,7 362 91 137 159 0,6948 0,6009 0,7991 0,4628 0,6394

4,8 259 43 185 262 0,4971 0,8114 0,8576 0,4139 0,6450

4,9 376 95 133 145 0,7217 0,5833 0,7983 0,4784 0,6454

4,10 412 123 105 109 0,7908 0,4605 0,7701 0,4907 0,6280

4,11 322 55 173 199 0,6180 0,7588 0,8541 0,4651 0,6740

5,6 291 48 180 230 0,5585 0,7895 0,8584 0,4390 0,6614

5,7 296 58 170 225 0,5681 0,7456 0,8362 0,4304 0,6451

5,8 276 46 182 245 0,5298 0,7982 0,8571 0,4262 0,6528

5,9 303 58 170 218 0,5816 0,7456 0,8393 0,4381 0,6512

5,10 328 63 165 193 0,6296 0,7237 0,8389 0,4609 0,6633

5,11 339 69 159 182 0,6507 0,6974 0,8309 0,4663 0,6613

6,7 297 70 158 224 0,5701 0,6930 0,8093 0,4136 0,6215

6,8 230 36 192 291 0,4415 0,8421 0,8647 0,3975 0,6364

6,9 296 48 180 225 0,5681 0,7895 0,8605 0,4444 0,6656

6,10 322 72 156 199 0,6180 0,6842 0,8173 0,4394 0,6397

6,11 282 42 186 239 0,5413 0,8158 0,8704 0,4376 0,6663

7,8 225 37 191 296 0,4319 0,8377 0,8588 0,3922 0,6301

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

122

Intersección TP FP TN FN S E VPP VPN GRAL.

7,9 335 79 149 186 0,6430 0,6535 0,8092 0,4448 0,6376

7,10 346 80 148 175 0,6641 0,6491 0,8122 0,4582 0,6459

7,11 287 51 177 234 0,5509 0,7763 0,8491 0,4307 0,6517

8,9 236 33 195 285 0,4530 0,8553 0,8773 0,4063 0,6480

8,10 256 43 185 265 0,4914 0,8114 0,8562 0,4111 0,6425

8,11 275 43 185 246 0,5278 0,8114 0,8648 0,4292 0,6583

9,10 359 82 146 162 0,6891 0,6404 0,8141 0,4740 0,6544

9,11 297 51 177 224 0,5701 0,7763 0,8534 0,4414 0,6603

10,11 320 55 173 201 0,6142 0,7588 0,8533 0,4626 0,6722

Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

ADASYN-IIVotes 0,8061 0,5307 0,7970 0,5450 0,6697

2,,10 0,7390 0,6623 0,8333 0,5261 0,6902

Mejora Ensemble -0,0672 0,1316 0,0364 -0,0189 0,0205

5.2.8.2. Iteración 2

En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la

segunda iteración:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 372 75 153 149 0,7140 0,6711 0,8322 0,5066 0,6810

1,3 330 69 159 191 0,6334 0,6974 0,8271 0,4543 0,6530

1,5 330 54 174 191 0,6334 0,7632 0,8594 0,4767 0,6832

1,9 337 65 163 184 0,6468 0,7149 0,8383 0,4697 0,6674

Tras esto, se generan los ensembles de la segunda iteración y se muestran los resultados:

Intersección TP FP TN FN S E VPP VPN GRAL.

1-9,1-3 286 46 182 235 0,5489 0,7982 0,8614 0,4365 0,6613

1-9,1-2 329 53 175 192 0,6315 0,7675 0,8613 0,4768 0,6843

1-9,1-5 293 43 185 228 0,5624 0,8114 0,8720 0,4479 0,6734

1-3,1-2 318 56 172 203 0,6104 0,7544 0,8503 0,4587 0,6684

1-3,1-5 284 45 183 237 0,5451 0,8026 0,8632 0,4357 0,6617

1-2,1-5 328 51 177 193 0,6296 0,7763 0,8654 0,4784 0,6874

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

123

Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la

primera iteración y con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

ADASYN-IIVotes 0,8061 0,5307 0,7970 0,5450 0,6697

1-9,1-2 0,6315 0,7675 0,8613 0,4768 0,6843

Mejora Ensemble -0,1747 0,2368 0,0643 -0,0682 0,0146

Clasificador S E VPP VPN GRAL.

2,,10 0,7390 0,6623 0,8333 0,5261 0,6902

1-9,1-2 0,6315 0,7675 0,8613 0,4768 0,6843

Mejora Ensemble -0,1075 0,1053 0,0279 -0,0493 -0,0059

5.2.9. Nagoya M5

5.2.9.1. Iteración 1

En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera

iteración:

Clasificador AUC

NCL-AdaBoostM1 0,4888

ADASYN-IIVotes 0,5846

ROS-RUSBoost 1

SPIDER-BalanceCascade 0,2463

ROS-AdaBoost 0,4925

TL-AdaBoostM1 0,4664

ADASYN-SMOTEBoost 0,4701

ROS-AdaC2 0,4925

CPM-SMOTEBoost 0,5771

SPIDER-OverBagging 0,4515

ROS-AdaBoostM1 1

Se construyen las matrices de confusión y se calculan los indicadores:

Clasificador TP FP TN FN Total S E VPP VPN GRAL.

NCL-AdaBoostM1 0 3 131 3 137 0 0,9776 0 0,9776 0,4888

ADASYN-IIVotes 1 22 112 2 137 0 0,8358 0,0435 0,9825 0,5488

ROS-RUSBoost 0 0 134 3 137 0 1 - 0,9781 -

SPIDER-BalanceCascade 0 68 66 3 137 0 0,4925 0 0,9565 0,3623

ROS-AdaBoost 0 2 132 3 137 0 0,9851 0 0,9778 0,4907

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

124

Clasificador TP FP TN FN Total S E VPP VPN GRAL.

TL-AdaBoostM1 0 9 125 3 137 0 0,9328 0 0,9766 0,4773

ADASYN-SMOTEBoost 0 8 126 3 137 0 0,9403 0 0,9767 0,4793

ROS-AdaC2 0 2 132 3 137 0 0,9851 0 0,9778 0,4907

CPM-SMOTEBoost 1 24 110 2 137 0 0,8209 0 0,9821 0,5441

SPIDER-OverBagging 0 13 121 3 137 0 0,9030 0 0,9758 0,4697

ROS-AdaBoostM1 0 0 134 3 137 0 1 - 0,9781 -

Tras observar que los clasificadores iniciales no dan lugar al optimismo, se generan sólo los ensembles

de la primera iteración que mayores expectativas generan (en este caso, solo es posible realizar un

ensemble):

Intersección TP FP TN FN S E VPP VPN GRAL.

1,11 1 10 124 2 0,3333 0,9254 0,0909 0,9841 0,5834

Aunque se ha conseguido duplicar el VPP, la falta de expectativas del conjunto es evidente, por lo que se

decide excluirlo del proceso iterativo.

5.2.10. Osaka M5

5.2.10.1. Iteración 1

En primer lugar, se muestran los clasificadores seleccionados en el test de Friedman de la primera

iteración:

Clasificador AUC

NCL-AdaBoostM1 0,9965

ADASYN-IIVotes 0,9479

ROS-RUSBoost 0,9861

SPIDER-BalanceCascade 0,9271

ROS-AdaBoost 0,9931

TL-AdaBoostM1 0,9826

ADASYN-SMOTEBoost 0,9757

ROS-AdaC2 0,9931

CPM-SMOTEBoost 0,7674

SPIDER-OverBagging 0,9861

ROS-AdaBoostM1 0,9931

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

125

Se construyen las matrices de confusión y se calculan los indicadores:

Clasificador TP FP TN FN S E VPP VPN GRAL.

NCL-AdaBoostM1 2 1 143 0 1 0,9931 0,6667 1 0,9149

ADASYN-IIVotes 2 15 129 0 1 0,8958 0,1176 1 0,7534

ROS-RUSBoost 2 4 140 0 1 0,9722 0,3333 1 0,8264

SPIDER-BalanceCascade 2 21 123 0 1 0,8542 0,0870 1 0,7353

ROS-AdaBoost 2 2 142 0 1 0,9861 0,5 1 0,8715

TL-AdaBoostM1 2 5 139 0 1 0,9653 0,2857 1 0,8127

ADASYN-SMOTEBoost 2 7 137 0 1 0,9514 0,2222 1 0,7934

ROS-AdaC2 2 2 142 0 1 0,9861 0,5 1 0,8715

CPM-SMOTEBoost 2 67 77 0 1 0,5347 0,0290 1 0,6409

SPIDER-OverBagging 2 4 140 0 1 0,9722 0,3333 1 0,8264

ROS-AdaBoostM1 2 2 142 0 1 0,9861 0,5 1 0,8715

Tras esto, se generan los ensembles de la primera iteración y se muestran los resultados:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 2 0 144 0 1 1 1 1 1

1,3 2 0 144 0 1 1 1 1 1

1,4 2 0 144 0 1 1 1 1 1

1,5 2 0 144 0 1 1 1 1 1

1,6 2 0 144 0 1 1 1 1 1

1,7 2 1 143 0 1 0,9931 0,6667 1 0,9149

1,8 2 0 144 0 1 1 1 1 1

1,9 2 1 143 0 1 0,9931 0,6667 1 0,9149

1,10 2 0 144 0 1 1 1 1 1

1,11 2 0 144 0 1 1 1 1 1

2,3 2 2 142 0 1 0,9861 0,5 1 0,8715

2,4 2 2 142 0 1 0,9861 0,5 1 0,8715

2,5 2 1 143 0 1 0,9931 0,6667 1 0,9149

2,6 2 1 143 0 1 0,9931 0,6667 1 0,9149

2,7 2 3 141 0 1 0,9792 0,4 1 0,8448

2,8 2 1 143 0 1 0,9931 0,6667 1 0,9149

2,9 2 5 139 0 1 0,9653 0,2857 1 0,8127

2,10 2 2 142 0 1 0,9861 0,5 1 0,8715

2,11 2 1 143 0 1 0,9931 0,6667 1 0,9149

3,4 2 1 143 0 1 0,9931 0,6667 1 0,9149

3,5 2 1 143 0 1 0,9931 0,6667 1 0,9149

3,6 2 1 143 0 1 0,9931 0,6667 1 0,9149

3,7 2 2 142 0 1 0,9861 0,5 1 0,8715

3,8 2 1 143 0 1 0,9931 0,6667 1 0,9149

3,9 2 4 140 0 1 0,9722 0,3333 1 0,8264

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

126

Intersección TP FP TN FN S E VPP VPN GRAL.

3,10 2 2 142 0 1 0,9861 0,5 1 0,8715

3,11 2 1 143 0 1 0,9931 0,6667 1 0,9149

4,5 2 1 143 0 1 0,9931 0,6667 1 0,9149

4,6 2 2 142 0 1 0,9861 0,5 1 0,8715

4,7 2 2 142 0 1 0,9861 0,5 1 0,8715

4,8 2 1 143 0 1 0,9931 0,6667 1 0,9149

4,9 2 11 133 0 1 0,9236 0,1538 1 0,7694

4,10 2 1 143 0 1 0,9931 0,6667 1 0,9149

4,11 2 1 143 0 1 0,9931 0,6667 1 0,9149

5,6 2 1 143 0 1 0,9931 0,6667 1 0,9149

5,7 2 2 142 0 1 0,9861 0,5 1 0,8715

5,8 2 2 142 0 1 0,9861 0,5 1 0,8715

5,9 2 2 142 0 1 0,9861 0,5 1 0,8715

5,10 2 1 143 0 1 0,9931 0,6667 1 0,9149

5,11 2 2 142 0 1 0,9861 0,5 1 0,8715

6,7 2 1 143 0 1 0,9931 0,6667 1 0,9149

6,8 2 1 143 0 1 0,9931 0,6667 1 0,9149

6,9 2 4 140 0 1 0,9722 0,3333 1 0,8264

6,10 2 1 143 0 1 0,9931 0,6667 1 0,9149

6,11 2 1 143 0 1 0,9931 0,6667 1 0,9149

7,8 2 2 142 0 1 0,9861 0,5 1 0,8715

7,9 2 6 138 0 1 0,9583 0,25 1 0,8021

7,10 2 2 142 0 1 0,9861 0,5 1 0,8715

7,11 2 2 142 0 1 0,9861 0,5 1 0,8715

8,9 2 2 142 0 1 0,9861 0,5 1 0,8715

8,10 2 1 143 0 1 0,9931 0,6667 1 0,9149

8,11 2 2 142 0 1 0,9861 0,5 1 0,8715

9,10 2 3 141 0 1 0,9792 0,4 1 0,8448

9,11 2 2 142 0 1 0,9861 0,5 1 0,8715

10,11 2 1 143 0 1 0,9931 0,6667 1 0,9149

Se selecciona el mejor ensemble de la primera iteración y se compara con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

NCL-AdaBoostM1 1 0,9931 0,6667 1 0,9149

1,2 1 1 1 1 1

Mejora Ensemble 0,0000 0,0069 0,3333 0,0000 0,0851

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

127

5.2.10.2. Iteración 2

En primer lugar, se muestran en detalle los clasificadores seleccionados en el test de Friedman de la

segunda iteración:

Intersección TP FP TN FN S E VPP VPN GRAL.

1,2 2 0 144 0 1 1 1 1 1

1,3 2 0 144 0 1 1 1 1 1

1,5 2 0 144 0 1 1 1 1 1

1,9 2 1 143 0 1 0,9931 0,6667 1 0,9149

Tras esto, se generan los ensembles de la segunda iteración y se muestran los resultados:

Intersección TP FP TN FN S E VPP VPN GRAL.

1-9,1-3 2 0 144 0 1 1 1 1 1

1-9,1-2 2 0 144 0 1 1 1 1 1

1-9,1-5 2 0 144 0 1 1 1 1 1

1-3,1-2 2 0 144 0 1 1 1 1 1

1-3,1-5 2 0 144 0 1 1 1 1 1

1-2,1-5 2 0 144 0 1 1 1 1 1

Como se comentó inicialmente, se selecciona el ensemble 1-9,1-2 y se compara con el mejor de la

primera iteración y con el mejor clasificador simple:

Clasificador S E VPP VPN GRAL.

NCL-AdaBoostM1 1 0,9931 0,6667 1 0,9149

1-9,1-2 1 1 1 1 1

Mejora Ensemble 0,0000 0,0069 0,3333 0,0000 0,0851

Clasificador S E VPP VPN GRAL.

1,2 1 1 1 1 1

1-9,1-2 1 1 1 1 1

Mejora Ensemble 0,0000 0,0000 0,0000 0,0000 0,0000

5.2.11. Resumen de los mejores resultados

Debido a la extensión de los resultados, se muestra un resumen de los resultados del clasificador global

seleccionado (NCL-AdaBoostM1 + ADASYN-IIVotes + CPM-SMOTEBoost) de cada conjunto de datos.

Para una mayor comprensión y visión simplificada, se mostrarán dos tablas: en una se muestra la matriz

de confusión de cada conjunto, y en otra, los indicadores.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

128

En primer lugar se muestra la tabla con la matriz de confusión de cada conjunto:

Clasificador TP FP TN FN

Pichilemu M4 4 0 58 53

Pichilemu M5 9 0 65 41

Talca M4 4 0 27 37

Talca M5 2 0 99 3

Valparaíso M4 48 2 225 52

Tokyo M5 329 53 175 192

Osaka M5 2 0 144 0

A continuación, se muestran los indicadores de los clasificadores anteriores, distinguiendo los conjuntos

que están desbalanceados (azul) de los que no (naranja):

Clasificador S E VPP VPN GRAL.

Pichilemu M4 0,07 1 1 0,52 0,65

Pichilemu M5 0,18 1 1 0,61 0,70

Talca M4 0,10 1 1 0,42 0,63

Talca M5 0,4 1 1 0,97 0,84

Valparaíso M4 0,48 0,99 0,96 0,81 0,81

Tokyo M5 0,63 0,77 0,86 0,48 0,68

Osaka M5 1 1 1 1 1

Como se observa, aunque se consigue mantener un VPP tan elevado como los mejores indicadores

individuales, la Sensibilidad y el VPN y, por tanto, el indicador General, se han visto afectados. En

algunos conjuntos, tales como Pichilemu M4, Pichilemu M5 y Talca M4, la Sensibilidad alcanza valores

realmente bajos. La bajada de rendimiento se debe al carácter global del clasificador usado. El hecho de

construir un clasificador que posea resultados aceptables en el mayor número de conjuntos de datos

posible, hace que dicho clasificador no sea el mejor clasificador en ninguno de estos conjuntos. Es, en

definitiva, una consecuencia de la generalización del clasificador. En otras palabras, es un coste que se

debe asumir a cambio de poseer un clasificador global.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

129

6. Conclusiones

El estudio realizado ha permitido el análisis de los algoritmos basados en aprendizaje desbalanceado en

el arte de la predicción de seísmos de gran magnitud. Se ha logrado desarrollar una metaheurística que

metodiza el proceso de análisis de estos algoritmos de aprendizaje desbalanceado. Haciendo uso de esta

metaheurística, se ha podido aplicar el análisis sobre datos reales en distintas zonas de Chile y Japón.

La metaheurística desarrollada se basa en una primera etapa de experimentación y evaluación de los

modelos predictivos generados, y una segunda etapa iterativa de combinación de los modelos anteriores

y evaluación de las combinaciones generadas. El criterio de parada del proceso iterativo se basa en la

obtención de un modelo que cumpla las expectativas del usuario. El proceso de combinación se ha

basado en la intersección entre los modelos que intervienen en él, con el objetivo de obtener

clasificadores con una alta credibilidad.

Los resultados obtenidos arrojan optimismo y abren una nueva vía de investigación en la disciplina de la

predicción de terremotos. Se plantean las siguientes líneas de investigación a seguir en el futuro:

1. Experimentación de los algoritmos desbalanceados realizando modificaciones de sus

parámetros de ajuste.

2. Combinación de los modelos predictivos usando vías alternativas a la intersección tales como la

mezcla de expertos ponderada.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

130

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

131

7. Referencias

[1] B. Raskutti and A. Kowalczyk. Extreme rebalancing for svms: a case study. SIGKDD Explorations, 6(1):60-69, 2004.

[2] Barandela, R., Sánchez, J.S., García, V., Rangel, E.: Strategies for learning in class imbalance problems, Pattern Recognition 36(3) (2003) 849-851.

[3] Bradley. The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition, 30(7): 1145-1159, 1997.

[4] R. Hickey. Learning rare class footprints: the reflex algorithm. In Proceedings of the ICML'03 Workshop on Learning from Imbalanced Data Sets, 2003.

[5] R. Yan, Y. Liu, R. Jin, and A. Hauptmann. On predicting rare classes with SVM ensembles in scene classification. In IEEE International Conference on Acoustics, Speech and Signal Processing, 2003.

[6] W. W. Cohen. Fast effective rule induction. In Proceedings of the Twelfth International Conference on Machine Learning, pages 115-123, 1995.

[7] Andrew Estabrooks, Taeho Jo and Nathalie Japkowicz: A Multiple Resampling Method for Learning from Imbalanced Data Sets. Computational Intelligence 20 (1) (2004) 18-36.

[8] Kaizhu Huang, Haiqin Yang, Irwin King, Michael R. Lyu. Learning Classifiers from Imbalanced Data Based on Biased Minimax Probability Machine. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (2004)

[9] M. Kubat and S. Matwin. Addressing the curse of imbalanced training sets: One sided selection. In Proceedings of the Fourteenth International Conference on Machine Learning, pages 179-186, Nashville, Tennesse, 1997. Morgan Kaufmann.

[10] G. Weiss. Mining with rarity: A unifying framework.SIGKDD Explorations, 6(1):7-19, 2004.

[11] Prati, R. C., Batista, G. E. A. P. A., and Monard, M. C. Class Imbalances versus Class Overlapping: an Analysis of a Learning System Behavior. In MICAI (2004), pp. 312–321. LNAI 2972.

[12] P. K. Chan, and S. J. Stolfo. Toward scalable learning with non-uniform class and cost distributions: a case study in credit card fraud detection. In Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining, pages 164-168, 2001.

[13] N. V. Chawla, L. O. Hall, K. W. Bowyer, and W. P. Kegelmeyer. SMOTE: Synthetic Minority Oversampling TEchnique. Journal of Artificial Intelligence Research, 16:321-357, 2002.

[14] W. Fan, S. J. Stolfo, J. Zhang, and P. K. Chan. AdaCost: misclassification cost-sensitive boosting. In Proceedings of the Sixteenth International Conference on Machine Learning, pages 99-105, 1999.

[15] N. Japkowicz and S. Stephen. The class imbalance problem: A systematic study. Intelligent Data Analysis, 6(5):203-231, 2002.

[16] S. Visa and A. Ralescu. Learning imbalanced and overlapping classes using fuzzy sets. In Proceedings of the ICML'03 Workshop on Learning from Imbalanced Data Sets, 2003.

[17] J.W. Grzymala-Busse, L. K. Goodwin, and X. Zhang. Increasing sensitivity of preterm birth by changing rule strengths. Pattern Recognition Letters, (24):903–910, 2003.

[18] Kolez, A. Chowdhury, and J. Alspector. Data duplication: An imbalance problem? In Proceedings of the ICML'2003 Workshop on Learning from Imbalanced Datasets, 2003.

[19] Domingos, P. (1999). “MetaCost: A general method for making classifiers cost-sensitive.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

132

Proceedings of the Fifth International Conference on Knowledge Discovery and Data Mining, pp. 155-164. ACM Press.

[20] Provost, F., & Fawcett, T. (2001). Robust classification for imprecise environments. Machine Learning, 42, 203-231.

[21] G. M. Weiss, and F. Provost. Learning when training data are costly: the effect of class distribution on tree induction. Journal of Artificial Intelligence Research, 19:315-354, 2003.

[22] Wu, G. & Chang, E. (2003). Class-Boundary Alignment for Imbalanced Dataset Learning. In ICML 2003 Workshop on Learning from Imbalanced Data Sets II, Washington, DC.

[23] N. V. Chawla, A. Lazarevic, L. O. Hall, and K. W. Bowyer. Smoteboost: Improving prediction of the minority class in boosting. In Proceedings of the Seventh European Conference on Principles and Practice of Knowledge Discovery in Databases, pages 107-119, Dubrovnik, Croatia, 2003.

[24] Estabrooks, and N. Japkowicz. A mixture-of-experts framework for learning from unbalanced data sets. In Proceedings of the 2001 Intelligent Data Analysis Conference, pages 34-43, 2001.

[25] Veropoulos, K., Campbell, C., & Cristianini, N. (1999). Controlling the sensitivity of support vector machines. Proceedings of the International Joint Conference on AI, 55–60.

[26] M. V. Joshi, V. Kumar, and R. C. Agarwal. Evaluating boosting algorithms to classify rare cases: comparison and improvements. In First IEEE International Conference on Data Mining, pages 257-264, November 2001.

[27] B. Zadrozny and C. Elkan. Learning and making decisions when costs and probabilities are both unknown. In Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 204-213, 2001.

[28] N. Japkowicz. Class imbalance: Are we focusing on the right issue? In Proceedings of the ICML'03 Workshop on Learning from Imbalanced Data Sets, 2003.

[29] H. Guo and H. L. Viktor. Learning from imbalanced data sets with boosting and data generation: The DataBoost-IM approach. SIGKDD Explorations, 6(1):30-39, 2004.

[30] Taeho Jo and N. Japkowicz (2004), Class Imbalances versus Small Disjuncts, Sigkdd Explorations. Volume 6, Issue 1 - Page 40-49.

[31] N. Japkowicz. Concept-learning in the presence of between-class and within-class imbalances. In Proceedings of the Fourteenth Conference of the Canadian Society for Computational Studies of Intelligence, pages 67-77, 2001.

[32] G. E. A. P. A. Batista, R. C. Prati, and M. C. Monard. A study of the behavior of several methods for balancing machine learning training data. SIGKDD Explorations, 6(1):20-29, 2004.

[33] G. Asencio Cortés, F. Martínez Álvarez, A. Morales Esteban, J. Reyes, A sensitivity study of seismicity indicators in supervised learning to improve earthquake prediction.

[34] S. Kotsiantis, P. Pintelas, Mixture of Expert Agents for Handling Imbalanced Data Sets, Annals of Mathematics, Computing & TeleInformatics, Vol 1, No 1 (46-55), 2003.

[35] Laurikkala, J.: Improving identification of difficult small classes by balancing class distribution. Report A 2001-2 (2001)

[36] Han, H., Wang, W.-Y., Mao, B.-H.: Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning. Springer-Verlag (2005) 878-887

[37] Cohen, G., Hilario, M., Sax, H., Hogonnet, S., Geissbuhler, A.: Learning from imbalanced data in surveillance of nosocomial infection. Articial Intelligence in Medicine (2006) 7-18

[38] Z. Zheng, X. Wu, and R. Srihari. Feature selection for text categorization on imbalanced data. SIGKDD Explorations, 6(1):80-89, 2004.

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

133

[39] Drummond, C., and Holte, R. C. C4.5, Class Imbalance, and Cost Sensitivity: Why Under-sampling beats Over-sampling. In Workshop on Learning from Imbalanced Data Sets II (2003).

[40] He, H., Garcia, E. (2009). Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering. 21 (9): 1263-1284.

[41] Fernández, A., García, S., Herrera, F. (2011). Addressing the Classification with Imbalanced Data: Open Problems and New Challenges on Class Distribution. E. Corchado, M. Kurzyński, M. Woźniak (Eds.): HAIS 2011, Part I, LNAI 6678, pp. 1–10, 2011. Springer-Verlag.

[42] Garcia, V., Sánchez, J.S., Mollineda, R.A., Alejo, R., Sotoca, J.M. (2007). The class imbalanced problem in pattern classification and learning. II Congreso Español de Informática. 283-291. Thomson.

[43] López, V., Fernández, A., Moreno-Torres, J., Herrera, F. (2012). Analysis of preprocessing vs. cost-sensitive learning for imbalanced classification. Open problems on intrinsic data characteristics. Expert Systems with Applications 39(7):6585-6608.

[44] J. Reyes, A. Morales-Esteban, F. Martínez-Álvarez, Neural networks to predict earthquakes in Chile, Applied Soft Computing 13 (2) (2013) 1314–1328.

[45] A. Morales-Esteban, F. Martínez-Álvarez, J. Reyes, Earthquake prediction in seismogenic areas of the Iberian Peninsula based on computational intelligence, Tectonophysics 593 (2013) 121–134.

[46] A. Panakkat, H. Adeli, Neural network models for earthquake magnitude prediction using multiple seismicity indicators, International Journal of Neural Systems 17 (1) (2007) 13–33.

[47] Lee, K., & Yang, W. S. (2006). Historical seismicity of Korea. Bulletin of the Seismological Society of America, 71(3), 846–855.

[48] Zollo, A., Marzocchi, W., Capuano, P., Lomaz, A., & Iannaccone, G. (2002). Space and time behavior of seismic activity at Mt. Vesuvius volcano, Southern Italy.Bulletin of the Seismological Society of America, 92 (2), 625–640.

[49] Nuannin, P., Kulhanek, O., & Persson, L. (2005). Spatial and temporal b –value anomalies preceding the devastating off coast of NW Sumatra earthquake of December 26, 2004.Geophysical Research Letters, 32.

[50] Gibowitz, S. J. (1974). Frequency–magnitude depth and time relations for earthquakes in Island Arc: North Island, New Zealand. Tectonophysics, 23(3),283–297

[51] Wiemer, S., Gerstenberger, M., & Hauksson, E. (2002). Properties of the aftershock sequence of the 1999 7.1 hector mine earthquake: Implications for aftershock hazard. Bulletin of the Seismological Society of America, 92(4), 1227–1240.

[52] Sammonds, P. R., Meredith, P. G., & Main, I. G. (1992). Role of pore fluid in the generation of seismic precursors to shear fracture. Nature, 359, 228–230

[53] B. Gutenberg and C. F. Richter, Earthquake magnitude, intensity, energy and acceleration, Bulletin of the Seismological Society of America 46(1) (1956) 105–146.

[54] Y. Y. Kagan and Jackson, D. Long-term earthquake clustering, Geophysical Journal International 104 (1991) 117–133.

[55] D. Boore, Comparisons of ground motions from the 1999 Chi-Chi earthquake with empirical predictions largely based on data from California, Bulletin of Seismological Society of America 91(5) (2001) 1212–1217.

[56] I. Zaliapin, V. Kelis-Borok and M. Ghil, A Boolean delay equation model of colliding cascades; Part II: Prediction of critical transitions, Journal of Statistical Physics 111(3) (2003) 839–861.

[57] C. Bufe and D. Varnes, Predictive modeling of seismic cycle in the greater San-Fransisco bay

Desarrollo de una metaheurística basada en aprendizaje de datos no balanceados para la predicción de terremotos de gran magnitud

Manuel Jesús Fernández Gómez

134

region, Journal of Geophysical Research 98 (1993) 9871–9983.

[58] S. Jaume, D. Weatherley and P. Mora, Accelerating moment release and the evolution of event time and size statistics, results from two cellular automation models, Pure and Applied Geophysics 157(11) (2000) 2209–2226.

[59] D. Vere-Jones, R. Robinson and W. Wang, Remarks on the accelerated release moment model: Problems of model formulation, simulation and estimation, Geophysics Journal International 144(3) (2001) 517–531.

[60] V. I. Kelis-Borok, and V. G. Kossobokov, Premonitory activation of earthquake flow: Algorithm M8, Physics of the Earth and Planetary Interiors 61 (1990) 73–83.

[61] E. Roeloffs, The Parkfield, California earthquake experiment, An update in 2000, Current Science 79(9) (2000) 1226–1236.

[62] K. Tiampo, J. Rundle, S. McGinnis, S. Gross and W. Klein, Mean-field threshold systems and phase dynamics: An application to earthquake fault systems, Europhysics Letters 60 (2002) 481–487.

[63] H. Reid, The mechanism of the earthquake; The California earthquake of April, 18, 1906, Report of the State Earthquake Investigation Commission, Carnegie Institute of Washington, Washington D.C. 2 (1910) 16–28.