Universidad Autónoma de Ciudad Juárez Instituto de Ingeniería y Tecnología
Departamento de Ingeniería Eléctrica y Computación
Técnicas de Preprocesamiento para la Clasificación de Grandes Volúmenes de
Datos no Balanceados
Dr. Vicente García Jiménez Responsable Técnico
Febrero de 2015
1
Índice de Contenido
Resumen .............................................................................................................................. 2
Introducción y Antecedentes ............................................................................................ 2
Problema .............................................................................................................................. 5
Justificación ........................................................................................................................ 6
Hipótesis .............................................................................................................................. 7
Objetivos .............................................................................................................................. 7 Objetivo General .............................................................................................................................. 7 Objetivos Específicos ........................................................................................................................ 7
Metas ..................................................................................................................................... 8 Académicas ...................................................................................................................................... 8 Recursos Humanos ........................................................................................................................... 8 Científica o Investigación .................................................................................................................. 8
Metodología ......................................................................................................................... 9
Programación de Actividades .......................................................................................... 11
Infraestructura Disponible ................................................................................................ 12
Incidencia del Proyecto en el Programa Integral de Fortalecimiento Institucional (PIFI) ..................................................................................................................................... 13
Desglose Financiero .......................................................................................................... 14
Referencias ......................................................................................................................... 15
2
Técnicas de Preprocesamiento para la Clasificación de Grandes Volúmenes de Datos no Balanceados
Resumen
Este proyecto de investigación se enmarca principalmente dentro de las áreas de
aprendizaje automático y reconocimiento de patrones. Nuestro enfoque está orientado
al desarrollo y adaptación de metodologías y modelos de preprocesamiento y
clasificación en situaciones y casos de un enorme interés práctico donde el
denominador común es el elevado volumen de los datos. Más concretamente, se
propone centrar la investigación en el análisis y tratamiento de una complejidad que se
presenta en los datos llamada clases no balanceadas, la cual afecta al rendimiento del
sistema de clasificación. Aunque este problema ya ha sido ya estudiado, en mayor o
menor profundidad, dentro de los paradigmas clásicos de aprendizaje automático y
reconocimiento de patrones, hasta ahora existen pocos conocimientos sólidos que
permitan tratarlos en un contexto de grandes volúmenes de datos o Big Data. Para este
fin, se analizarán cuestiones relativas a la escalabilidad de algoritmos de
preprocesamiento en un entorno Hadoop, así como la posibilidad de adaptarse a estos
entornos.
Introducción y Antecedentes
Los avances y progresos en informática y tecnologías relacionadas, así como la gran
revolución digital han hecho posible que la información que generan organizaciones y
diversas fuentes autónomas (dispositivos móviles, cámaras de vídeo, sistemas GPS,
sensores, medidores inteligentes, micrófonos, etc.) sea fácil de capturar, almacenar,
distribuir y transmitir. Esto ha ocasionado que las organizaciones cuenten con una
vasta cantidad de información disponible, la cual ha ido creciendo de forma exponencial
y espectacular. En este sentido, IBM reporta que el 90% de los datos que existen
actualmente a nivel mundial han sido creados en los últimos dos años y que,
diariamente, se generan alrededor de 2’5 quintillones de bytes de datos. Esta
3
acumulación masiva de datos la podemos encontrar en aplicaciones de muy distintas
áreas científicas, empresariales e industriales: redes sociales (en Twitter son cerca de
12 Terabytes de mensajes creados diariamente y Facebook almacena alrededor de 100
Petabytes de fotos y vídeos), transacciones financieras (unos 50 billones de
transacciones al año), telecomunicaciones, imágenes satelitales y médicas de alta
resolución, búsquedas en Internet (se estima que Google recibe algo más de 2 millones
de peticiones/minuto), registros sanitarios electrónicos, sistemas de recomendación,
subastas y compras en línea, análisis de datos, biológicos y bioquímicos, sistemas de
geo-localización, monitorización de datos atmosféricos y medioambientales, sistemas
de control y vídeo-vigilancia, etc. Bajo este nuevo escenario, el término en inglés Big
Data (grandes volúmenes de datos o macrodatos) hace referencia al continuo
incremento global de datos y cuyos rasgos definitorios vienen determinados por su
volumen, su velocidad y su variedad (las tres “v” que hay que tener en cuenta en la
gestión del Big data [Laney2001]), modificando de este modo cualquier concepción
anterior sobre las bases de datos. Hoy en día, muchos investigadores introducen dos
nuevas dimensiones a este fenómeno: la veracidad, que hace referencia a las posibles
ambigüedades, inconsistencias y latencias que puedan contener los datos, y el valor,
que se refiere a la necesidad de transformar los datos en información fiable que
proporcione una importante ventaja competitiva a las organizaciones [Fan2012].
Aunque procesar y analizar diferentes tipos de datos información es una tarea
comúnmente abordada en diferentes campos científicos, el gran reto actual reside en la
escala en la que estos datos son generados [Jacobs2009] y, en última instancia, el
objetivo es aumentar y mejorar la capacidad de extraer conocimiento, patrones y
relaciones a partir de las grandes cantidades de datos que se producen y almacenan
diariamente. Sin embargo, las propias características inherentes de Big Data hacen
imposible el uso efectivo de las tecnologías, las herramientas y los métodos
tradicionales utilizados para el análisis, tratamiento y procesado de los datos
[Dumbill2013, Suthaharan2014]. En consecuencia, la investigación en este campo va
generalmente dirigida al desarrollo de nuevas arquitecturas y tecnologías y la
adaptación de algoritmos y métodos convencionales que permitan recopilar, almacenar,
4
procesar, modelar, indexar, consultar y visualizar datos a gran escala con el fin de
extraer conocimiento e interpretarlo. Centrándonos en el aprendizaje automático y el
reconocimiento de patrones como herramientas para el análisis de los datos y la
clasificación, la predicción y la detección de patrones frecuentes o de anomalías, a
menudo no resulta trivial cómo escalar y/o paralelizar determinados algoritmos
convencionales que permita el tratamiento de grandes volúmenes de datos
[Oberlin2012]. A pesar de esto, los diversos esfuerzos existentes están siendo dirigidos
a rediseñar y adaptar los algoritmos tradicionales, teniendo en cuenta las soluciones
que se están empleando en Big Data, de modo que estos sean capaces de ser
utilizados bajo las características inherentes del Big Data, mantenimiento su capacidad
predictiva [Ma2014]. Estas soluciones se han centrado en el procesamiento de los
mismos de forma distribuida, escalable y confiable. Una de las plataformas más
populares es Apache Hadoop (http://hadoop.apache.org/), basado en el modelo de
programación MapReduce y en el sistema distribuido de ficheros HDFS, que permite
implementar aplicaciones para el procesamiento de grandes cantidades de datos en
paralelo sobre clusters de nodos. Estas soluciones, se han convertido en el estándar
para Big Data. Otras arquitecturas menos extendidas incluyen Apache Pig
(http://www.pig.apache.org/), Cascading (http://www.cascading.org/), Apache S4
[Neumeyer2010] para el procesamiento de flujos de datos en tiempo real, Facebook
Scribe (https://github.com/facebook/scribe), o Storm (http://storm-project.net). De igual
modo, también nos encontramos con diversas iniciativas de código abierto, como
pueden ser Apache Mahout (http://mahout.apache.org), MOA [Bifet2010], GraphLab
[Low2010] o PEGASUS [Kang2012], que proporcionan implementaciones escalables
para algunos de los algoritmos clásicos de minería de datos y/o minería de grafos.
Si bien, el enorme volumen de los datos es un reto para los algoritmos de aprendizaje
automático y reconocimiento de patrones, este no es la única dificultad que puede
presentarse en Big Data. Otro aspecto que pueden presentar los datos son las
diferencias significativas en los tamaños de las clases [Bacardit2013], esto es, una o
más clases están representadas por un gran número de ejemplos, mientras que el resto
se representan por unos cuantos. Esta situación es conocida como el problema de las
5
clases no balanceadas y su importancia radica en que se ha observado que esta
complejidad puede conducir, en métodos tradicionales de clasificación, a aprendizajes
sesgados en perjuicio de la clase menos representada que, usualmente, es de vital
importancia ya que es el foco de interés de la aplicación, y su costo por clasificar
errónameamente un ejemplo de esta clase es muy elevado [Lopez2013]. Este
fenómeno ha sido ampliamente estudiado durante mucho tiempo por las comunidades
de minería de datos y aprendizaje automático. Las soluciones propuestas han estado
caminadas a desarrollar algoritmos a nivel de datos que preprocesan el conjunto a
través del balanceo de las distribuciones de las clases, ya sea, reduciendo la clase
predominante (mayoritaria) o incrementando el tamaño de la clase o las clases menos
representadas. Una segunda solución está dirigida a adaptar los algoritmos de
clasificación a las distribuciones no balanceadas [Garcia2012]. De estos dos
estrategias, los soluciones a nivel de datos son las más populares por ser fáciles de
adaptar a cualquier aplicación de la vida real.
Problema
La complejidad computacional de muchos algoritmos tradicionales de aprendizaje
automático y reconocimiento de patrones depende del número de ejemplos y de la
dimensionalidad que presentan los datos, por tanto, en un contexto de Big Data, donde
ambas complejidades crecen de manera espectacular, sugiere que una adaptación de
caulquiera de estos algoritmos requiera algo más que sólo optimizar el código. En este
sentido, las propuestas están dirigidas a la parelización masiva y a el rediseño de
nuevos algoritmos teniendo en cuenta los nuevos paradigmas en la administración de
grandes volúmenes de datos, por lo que, es posible encontrar en la literatura diversos
algoritmos de clasificación diseñados siguiendo entornos de programación enfocados
en el procesamiento de grandes volúmenes de datos de forma distribuida, escalable y
confiable. Un ejemplo de ello, es el paradigma MapReduce, el cual, se está convirtiendo
en el estándar de Big Data [Hsu2014, Zhang2015].
A pesar de los éxitos que se han tenido adaptando las técnicas tradicionales para
problemas de clasificación en Big Data. Estás soluciones solo han enfocado a la
6
complejidad que presenta el enorme volumen de los datos, ignorando por completo que
el incremento de los datos puede conducir a problemas con clases no balanceadas, el
cual es un fenómeno recurrente en muchas aplicaciones de la vida real. En la literatura
se pueden encontrar trabajos iniciales que exploran el problema del Big Data
combinado con las clases no balanceadas [Lopez2015, Rio2014], lo cual sugiere que
existe un gran campo por explorar y explotar.
Justificación
En los últimos años, se está prestando especial atención a todas las iniciativas
relacionadas con el Big Data por su enorme impacto social, económico, tecnológico y
científico, derivando todo ello en el desarrollo de innovadoras plataformas y tecnologías
orientadas al análisis, tratamiento y procesado de grandes volúmenes de datos
estructurados, semi-estructurados y no estructurados. Su relevancia queda ya patente
por las referencias académicas en diversos congresos internacionales y en bases de
datos científicas, así como por el nombramiento por empresas enfocadas a la
tecnología como Gartner enlista al Big Data como una de las 10 tecnologías
estratégicas de vital importancia en el 2013 y para los próximos cinco años.
Actualmente, muchos grupos nacionales e internacionales (usualmente
multidisciplinares) están investigando en el marco del Big Data y su aplicación a una
gran variedad de tecnologías y problemas. Sin embargo, sorprendentemente, en un
artículo publicado por Fernández et al. en el 2014, titulado, “Pattern Recognition in Latin
America in the Era of Big Data”, reporta que la contribución a nivel mundial de América
Latina al tema de Big Data, es de aproximadamente 1.5%. De este porcentaje Brasil
aporta aproximadamente el 70% de trabajos, mientras que el 30% restante se divide, en
orden descente, entre México, Chile, Argentina, Colombia y Cuba.
Se adivina, por tanto, que la investigación en Big Data constituye un área emergente y
en expansión que brinda grandes oportunidades científicas y tecnológicas para avanzar
en el conocimiento de otras muchas y muy variadas disciplinas. Las posibilidades de
7
desarrollo de nuevas técnicas y adaptación de ciertas metodologías para dar cabida a
las características y exigencias de la mayoría de las actuales aplicaciones del mundo
real conforman un importante nicho de investigación y transferencia a nivel
internacional, donde además se abren grandes perspectivas de trabajo interdisciplinar.
Hipótesis
Adaptar la tecnología existente y desarrollar nuevas metodologías de procesado para
datos no balanceados, aplicables a problemas que se caracterizan por un enorme
volumen de datos y por su variedad tipológica y de formatos, permitirá extraer
conocimiento para, posteriormente, interpretarlo, tomar decisiones o realizar
predicciones, clasificaciones o asociaciones en el momento adecuado.
Objetivos
Objetivo General Desarollar un cuerpo experimental y de conocimiento de técnicas de preprocesamiento
basado en MapReduce, para el tratamiento y clasificación de datos no balanceados
dentro de un contexto de Big Data.
Objetivos Específicos 1. Resumir el estado del arte y las tendencias de aprendizaje automático y
reconocimiento de patrones con MapReduce.
2. Identificar las técnicas escalables y adaptativas para el tratamiento de
distribuciones de clases no balanceadas.
3. Analizar y diseñar un algoritmo o estrategia de preprocesamiento.
4. Evaluar el software en bases de datos enormes no balanceadas.
5. Realizar comparaciones desempeño con otros métodos de preprocesamiento y
existentes en la literatura.
6. Analizar y evaluar los resultados.
8
Metas
Académicas
• Establecimiento de colaboraciones y sinergias con universidades extranjeras y
diversos cuerpos académicos internos.
• Fortalecimiento y consolidación de la carrera de Ingeniería en Sistemas
Computacionales en la División Multidisciplinaria de la Universidad Autónoma de
Ciudad Juárez.
• Creación de una línea de investigación enmarcada en aprendizaje automático en
Big data.
• Conformación de un equipo multidisciplinar.
Recursos Humanos
• Dirigir y formar por lo menos un estudiante de pregrado.
Científica o Investigación
• Desarrollar e implementar algoritmos de preprocesamiento para problemas de
Big Data no balanceados.
• Lograr un conocimiento profundo sobre el tema de Big Data, para desarrollar a
futuro otras técnicas de solución.
• Aplicación de las técnicas en áreas vitales y de gran relevancia internacional
como la medicina y la economía.
• Difusión y publicación de resultados en una revista indizada y en un congreso
internacional.
9
Metodología
La metodología que hemos diseñado se compone de 4 etapas principales: la primera de
éstas (etapa 1) estará destinada a la instalación, configuración y preparación de una
plataforma para Big Data al objeto de poder llevar a cabo las siguientes tareas; por su
parte, la etapa 2 estará orientada a la búsqueda de material bibliográfico en bases de
datos científicas. Las etapa 2 y 3 estará orientada a la adecuación de algunas técnicas
existentes y al diseño y desarrollo de las nuevas metodologías para abordar los
objetivos especificos planteados anteriormente y, por tanto, esta tareas se
corresponderán con cada uno de esos objetivos. Por último, la etapa 3 se centrará en la
evaluación del rendimiento y las prestaciones de las técnicas mediante un extenso
benchmarking sobre datos de diversa tipología y, en consecuencia, básicamente se
refiere al último de los objetivos que ya hemos descrito en la correspondiente sección
de esta memoria.
Etapa 1 - Instalación y configuración de la plataforma Apache Hadoop y las librerías
Apache Mahout. Hitos: puesta en funcionamiento de la plataforma para la ejecución de
las posteriores tareas en un entorno de Big Data.
Tarea 1.1. Estudio de la documentación sobre su instalación y configuración.
Tarea 1.2. Instalación preliminar sobre ordenador de cáculo.
Tarea 1.3. Configuración final e instalación de las librerías.
Tarea 1.4. Pruebas de test sobre funcionalidades básicas de la plataforma.
Etapa 2 – Búsqueda de bibliografía en divesas bases de datos científicas tales como
Scopus, Google Académico, IEEE Xplore, entre otras. Hitos: identificación de lineas de
investigación, ventajas, desventajas y oportunidades.
Etapa 3 - Estudio y definición de técnicas para el tratamiento de distribuciones de
clases desbalanceadas. Se estudiará el efecto de la distribución de muestras por clases
sobre la eficacia de un sistema de clasificación o predicción en un problema de Big
Data. Asimismo, el problema del filtrado de los datos sobre entornos con distribuciones
10
desbalanceadas será también uno de los objetivos centrales a cubrir durante esta tarea.
Hitos: obtención de métodos para el tratamiento del desbalance; obtención de técnicas
escalables de edición y condensado para problemas con distribuciones de clases no
balanceadas; obtención de una base teórica sobre los benficios y las desventajas del
uso de las diferentes estrategias existentes para el tratamiento del desbalance.
Tarea 3.1. Análisis del efecto de la distribución de muestras por clases en problemas de
Big Data. Estudio de diferentes métodos de evaluación de los resultados (curvas ROC,
media geométrica de precisiones, índice de precisión balanceada, etc.).
Tarea 3.2. Análisis de las posibles implicaciones del uso de cada una de las estrategias
más comunes: over-sampling y under-sampling.
Tarea 3.3. Desarrollo de técnicas escalables de filtrado y condensado sobre problemas
con distribuciones de clases no balanceadas.
Etapa 4 - Desarrollo de conjuntos de datos, diseño de experimentos y evaluación de
prestaciones. Definición, caracterización y diseño de problemas, conjuntos de datos y
experimentos relevantes. Asimismo, se llevará a cabo la generación de “benchmarks”
que incluirán conjuntos de datos, metodologías de preprocesado, y especificación de
formatos para obtener resultados contrastables y comparables. Éste es un aspecto
cada vez más valorado en las publicaciones y resultados de proyectos en el área, de
modo que se considera una parte fundamental del presente proyecto. Hitos: definición
de los elementos básicos para el diseño de experimentos; obtención de datos;
realización de un banco de experimentos y evaluación de resultados finales.
Tarea 4.1. Definición de las características que deberán tener las bases de datos con
las que se realizarán los experimentos.
Tarea 4.2. Definición de las técnicas de muestreo a utilizar durante la experimentación.
Tarea 4.3. Selección de las métricas de evaluación de las prestaciones más apropiadas
para cada uno de los problemas tratados en las tareas anteriores.
Tarea 4.4. Preparación de los tests estadísticos que se aplicarán para analizar la
significancia de los resultados.
11
Tarea 4.5. Integración de todos los elementos necesarios para poder llevar a cabo una
experimentación completa y realista.
Programación de Actividades
Las actividades se organizaron por trimestre. A continuación la descripción de las
actividades principales, el responsable y los participantes.
1. Instalación y configuración de la plataforma Apache Hadoop y las librerías Apache Mahout. Responsable: Dr. Israel Hernández Hernández Participantes: Estudiante Nicolás Rodríguez Almazán, Dr. Vicente García Jiménez Periodo de ejecución: Trimestre 1 2: Búsqueda de bibliografía en divesas bases de datos científicas. Responsable: Vicente García Jiménez Participantes: Dr. J. Salvador Sánchez Garreta; Estudiante Nicolás Rodríguez Almazán, Dr. Humberto de Jesús Ochoa Domínguez Periodo de ejecución: Trimestre 1-2 3: Estudio y definición de técnicas para el tratamiento de distribuciones de clases desbalanceadas. Responsable: Dr.Vicente García Jiménez Participantes: Dr. J. Salvador Sánchez Garreta; Estudiante Nicolás Rodríguez Almazán, Dr. Humberto de Jesús Ochoa Domínguez Periodo de ejecución: Trimestre 1-2 4: Desarrollo de conjuntos de datos, diseño de experimentos y evaluación de prestaciones. Responsable: Dr. Vicente García Jiménez Participantes: Dr. Vicente García Jiménez; Dr. J. Salvador, Dr. Humberto de Jesús Ochoa Domínguez, Estudiante de Licenciatura Nicolás Rodríguez Almazán Periodo de ejecución: Trimestre 2-4 5: Escritura de artículo para revista y/o congreso
12
Responsable: Dr. Vicente García Jiménez Participantes: Dr. Vicente García Jiménez; Dr. J. Salvador, Dr. Humberto de Jesús Ochoa Domínguez, Dr. Israel Hernández Hernández Periodo de ejecución: Trimestre 2-4.
Infraestructura Disponible
La Universidad Autónoma de Ciudad Juárez ecuenta con acervo bibliográfico, acceso a
revistas electrónicas IEEE, un laboratorio de 50m2 en Campus Norte y diversos equipos
electrónicos. Asimismo, en la División Multidisciplinaría de Ciudad Universitaria de la
Universidad Autónoma de Ciudad Juárez se cuenta con un espacio físico equipado con
una computadora de escritorio, acceso a internet y a revistas eléctronicas. Otros
espacios se encuentran también disponibles para la instalación de equipo adiciona.
Dentro de esta infraestructura se cuenta con un servidor que brinda servicios de
diferentes tipos, el cual se encuentra conectado a la red de la UACJ.
Como recurso humano disponible se trabajará con los siguientes profesores
investigadores y alumnos:
• Prof. José Sánchez Garreta, Institute of New Imaging Technologies,
Universitat Jaume I. Jefe del grupo de investigación Pattern Analysis and
Learning. Cuenta con más 40 artículos publicados en revistas JCR en temas
de clasficación supervisada y no supervisada. Ha dirigido 9 tesis doctorales y
actualmente es catedrático de la Universitat Jaume I, Castellón de la Plana.
• Dr. Jesus Israel Hernández Hernández, Departamento de Ingeniería Eléctrica
y Computación, Universidad Autónoma de Ciudad Juárez, Cuerpo Académico
de Cómputo Avanzado. Experiencia en cómputo paralelo e impartiendo
docencia a nivel pregrado y posgrado.
13
• Dr. Humberto de Jesús Ochoa Domínguez, Departamento de Ingeniería
Eléctrica y Computación, Universidad Autónoma de Ciudad Juárez, Cuerpo
Académico de Procesamiento de Señales, SNI-1. Cuenta con más de 10
artículos JCR y diversas patentes dentro del campo de procesamiento de
señales. Asimismo, ha impartido clases a nivel posgrado y ha dirigido una
tesis doctoral y tres de maestría.
• Dr. Vicente García Jiménez, Departamento de Ingeniería Eléctrica y
Computación, División Multidisciplinaria de Ciudad Universitaria de la
Universidad Autónoma de Ciudad Juárez, Cuerpo Académico de
Procesamiento de Señales, SNI-1. Ha dirigido 2 tesis de posgrado y cuenta
con 13 artículos JCR relacionados con el tema de la clasificación supervisada
en datos no balanceados.
• Estudiante de pregrado Nicolás Rodríguez Almazán de la carrera de
Ingeniería en Sistemas Computacionales de División Multidisciplinaria de
Ciudad Universitaria de la Universidad Autónoma de Ciudad Juárez.
Actualmente se encuentra en los últimos semestres de la carrera y
desarrollará su tema de tesis dentro del tema de clasificación supervisada en
Big Data.
Cremos que estos números ofrecen garantías reales sobre la capacidad del equipo de
concluir de manera satisfactoria todas las actividades dentro del marco de este
proyecto. También merece la pena destacar que los tres doctores del equipo
investigador vinculados a la entidad solicitante poseen experiencia docente tanto en
asignaturas de pregrado como de postgrado.
Por otra parte, nuestro equipo mantiene contactos estables, a distintos niveles, con
grupos de prestigio internacional pertenecientes a diferentes universidades extranjeras
y nacionales, lo que facilitaría la importante formación complementaria que supone la
realización de estancias en otros centros de investigación
14
Incidencia del Proyecto en el Programa Integral de Fortalecimiento Institucional (PIFI)
• Dar apoyo al cuerpo académico de procesamiento de señales y de cómputo
avanzado generando producto intelectual y académico.
• Apoyar al fortalecimiento de la carrera de Ingeniería en Sistemas
computacionales en Ciudad Universitaria, incorporando una línea de
investigación orientada a la aplicación de aprendizaje automático en enormes
bases de datos.
• Fortalecimiento de la infraestructura para que estudiantes y profesores puedan
llevar a cabo actividades científicas y de transferencia de tecnología.
• Promover y contribuir al Dr. Jesús Israel Hernández Hernández alcanzar el perfil
deseable y el SNI.
• Mantener los estatus de los dos cuerpos académicos.
• Colaboración y acercamiento a universidades extranjeras.
• Ayudar a mantener o impulsar el nivel dentro del SNI de los Doctores Vicente
García Jiménez y Humberto de Jesús Ochoa Domínguez.
• Colaboración interna entre cuerpos académicos: Procesamiento de Señales y
Cómputo Avanzado.
Desglose Financiero
A continuación se detalla el presupuesto solicitado (estimado) por el año de duración
del proyecto.
• Adquisición de materiales y consumibles ($26,499.00 M.N.): Los consumibles
de oficina necesarios incluyen 3 cajas de papel bond para impresora láser
($1,700.00 M.N.), impresión de póster para eventos de difusión ($500.00), 3
cartuchos de tóner Brother TN720 ($3,600.00 M.N.). Los materiales que se
solicitan son $15,000 para la compra de bibliografía especializada en temas de
aprendizaje automático, Big Data y MapReduce. Finalmente se solicitan un
centro de trabajo en L con porta teclados ($3,800.00) y un escritorio de trabajo
15
con compartimento y repisa para los estudiantes que se incorporarán al proyecto
($1,899.00).
• Equipo de Cómputo ($133,497.00 M.N.). Impresora Láser todo en uno en
blanco y negro Marca Brother DCP-8155DN ($6,000. 00 M.N.), Equipo Portátil
Macbook Pro 13 pulgadas, 2,6 Ghz, Intel Core I5 ($26,999.00 M.N.), proyector
Epson 730 HD ($9,999.00 M.N.), Servidor Multiprocesador MacPro Procesador
Intel Xeon E5 6 Core de 3.5 Ghz, 16 GB de memoria ECC DDR3 de 1866 Mhz
AMD Fire Pro D500 Doble con 3Gb de RAM ($72,999.00) para experimentos con
computación paralela y para compartir recursos de servidor entre los
investigadores y estudiantes. Para estudiantes se solicita una computadora Mac
Mini de 2.6 Ghz Intel Core I5 de 2.5 Ghz, 8 Gb de Memoria, Disco Duro de 1 TB
($11, 999.00 M.N.), Teclado Mac ($1,300.00 M.N.), ratón Mac ($1,300.00 M.N.),
Monitor Samsung 22” FD ($3,000.00 M.N.).
• Estancia de Investigación y Congresos ($50,000.00). Pago de viáticos,
inscripción, avión y hotel para congresos nacionales o internacionales de
reconocido prestigio ($25,000 M.N.), así como para una estancia corta en la
Universitat Jaume I ($25,000.00 M.N.) en el periodo de diciembre de 2016, fecha
en la que la UACJ está de vacaciones pero que en la Universitat Jaume todavía
es periodo lectivo. El objetivo es establecer nuevas líneas de investigación y
colaboraciones con otros miembros de la Universidad, así como el lanzamiento
de cálculos en sus servidores de gran capacidad.
• Beca de estudiante de licenciatura ($25,000). Apoyo económico para el
estudiante de tesis Nicolás Rodríguez Almazán.
Referencias
• [Bacardit2013] Bacardit, J.; Llorà, X. “Large-Scale Data Mining Using Genetics-Based Machine Learning”, WIREs Data Mining Knowledge Discovery, vol. 3, pp. 37-61, 2013.
16
• [Bifet2010] Bifet, A.; Holmes, G.; Kirkby, R.; Pfahringer, B. “MOA: Massive online analysis”, Journal of Machine Learning Research, Vol. 11, pp. 1601-1604, 2010.
• [Dumbill2013] Dumbill, E. “Making sense of big data”, Big Data, Vol. 1(1), pp. 1-2, 2013.
• [Fan2012] Fan, W.; Bifet, A. “Mining big data: Current status, and forecast to the future”, ACM SIGKDD Explorations Newsletter, Vol. 14(2), pp. 1-5, 2012.
• [Garcia2012] García, V., Sánchez, J.S., Mollineda, R. A. “On the Effectiveness of Preprocessing Methods when Dealing with Different Levels of Class Imbalance”, Knowledge-Based Systems, vol. 25(1), pp.13-21, 2012.
• [Hsu2014] Hsu, C.-H. “Intelligent Big Data Processing”, Future Generation Computer Systems, cvol. 36, pp. 16-18, 2014.
• [Jacobs2009] Jacobs, A.. “The pathologies of big data”, ACM Queue, Vol. 7(6), pp. 1-12, 2009.
• [Kang2012] Kang, U.; Chau, D. H.; Faloutsos, C. “PEGASUS: Mining billion-scale graphs in the cloud”, Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 5341-5344, 2012.
• [Laney2001] Laney, D.. “3-D data management: Controlling data volume, velocity and variety”, META Group Research Note, 2001.
• [Lopez2013] López, V.; Fernández, A.; García, S.; Palade, V.; Herrera, F. “An Insight into Classification with Imbalanced Data: Empirical Results and Current Trends on Using Data Instrinsic Characteristics”, Information Sciences, vol. 250, pp. 113-141,2013.
• [Lopez2015] López, V.; Río, S.; Benítez, J. M.; Herrera, F. “Cost-Sensitive Linguistic Fuzzy Rule Based Classification Systems Under the MapReduce Framework for Imbalanced Big Data”, Fuzzy Sets and Systems , vol. 258, pp. 5-38,2015.
• [Ma2014] Ma, C.; Zhang, H. H.; Wang, X. “Machine Learning for Big Data Analytics in Plants”, Trends in Plant Science, Vol. 19(12), pp. 798-808,2014
• [Oberlin2012] Oberlin, S.. "Machine Learning, Cognition, and Big Data", 2012. Recogido el 24/02/2015, desde http://www.ca.com/us/~/media/files/articles/ca-technology-exchange/machine-learning-cognition-and-big-data-oberlin.aspx.
• [Rio2014] Río, S.; López, V.; Benítez, J. M.; Herrera, F. “On the use of MapReduce for Imbalanced Big Data using Random Forest.”, Information Sciences , vol. 285, pp. 112-137, 2014.
17
• [Suthaharan2014] Suthaharan, S. “Big data classification: problems and challenges in
network instrusion predictions with machine learning”. ACM SIGMETRICS Performance Evaluation Review, vol. 41(4), pp. 70-73, 2014.
• [Zhang2015] Zhang, H.-J.; Xlao, N.-F. “Parallel Implementation of Multilayered Neural Networks Based on Map Reduce on Cloud Computing Clusters”, Soft Computing, vol. (0), pp.1-13, 2015.