53
UNED (Departamento de Inteligencia Artificial) Cuantificación de muestras de micro-plancton usando técnicas de Aprendizaje Automático TRABAJO FIN DE MÁSTER Máster Universitario en I.A. Avanzada: Fundamentos, Métodos Y Aplicaciones Pablo González González Tutor Dr. Luis Manuel Sarro Baro (UNED) Codirectores Dr. Juan José del Coz Velasco (Universidad de Oviedo) Dr. Jorge Díez Peláez (Universidad de Oviedo) Madrid, Junio de 2014

Cuantificación de muestras de micro-plancton utilizando técnicas de aprendizaje automático

Embed Size (px)

DESCRIPTION

En algunas aplicaciones de aprendizaje automático, predecir la clase de los ejemplos de unconjunto de datos no es lo realmente importante, sino que el objetivo real es predecir el porcentajede ejemplos de cada clase. El nombre de este tipo de problemas es cuantificación y está siendo uncampo del aprendizaje automático que está empezando a recibir relevancia recientemente.En este trabajo fin de máster, trabajamos con un conjunto de 17.027 imágenes de plancton, conejemplos pertenecientes a 10 clases diferentes y distribuidas en 39 muestras, tomadas endiferentes puntos del mar, en diferentes temporadas y a diferentes profundidades.El objetivo que se persigue en este trabajo fin de máster es desarrollar un sistema automático quesea capaz de predecir, con la mínima tasa de error posible, la distribución de ejemplos por clase deuna nueva muestra de plancton. Para ello, se emplearán técnicas propuestas por autoresrelevantes en el campo de la cuantificación, adaptándolas a este problema concreto y, además, seexplorarán otras nuevas alternativas con el objetivo de mejorar los resultados obtenidos.

Citation preview

  • UNED (Departamento de Inteligencia Artificial)

    Cuantificacin de muestras de micro-planctonusando tcnicas de Aprendizaje Automtico

    TRABAJO FIN DE MSTERMster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Pablo Gonzlez Gonzlez

    TutorDr. Luis Manuel Sarro Baro (UNED)

    CodirectoresDr. Juan Jos del Coz Velasco (Universidad de Oviedo)

    Dr. Jorge Dez Pelez (Universidad de Oviedo)

    Madrid, Junio de 2014

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    AgradecimientosMe gustara mostrar mi ms sincero agradecimiento a mis codirectores de este trabajo fin de

    mster, Juan Jos y Jorge, de la Universidad de Oviedo, por el apoyo y la confianza que han

    puesto en mi todos estos aos, y por darme la oportunidad de trabajar y aprender con ellos.

    Agradecer tambin al Centro de Inteligencia Artificial de Gijn, por haberme permitido utilizar su

    infraestructura para la realizacin de los experimentos de este trabajo.

    Quiero dar las gracias a mi tutor de trabajo fin de mster, Luis Manuel Sarro, de la UNED, por su

    buen hacer en la labor de coordinacin de este mster de inteligencia artificial y en especial, por

    tutorizar este trabajo.

    Este proyecto no hubiera sido posible sin el valioso conjunto de datos ya etiquetado y clasificado.

    Quiero agradecer por esta tarea, y adems por su amabilidad y atencin, a Eva lvarez del Instituto

    Oceanogrfico de Gijn.

    Por ltimo y no menos importante, me gustara dar las gracias a toda la gente que en algn

    momento se ha interesado y me ha preguntado por este trabajo de investigacin, especialmente a

    mi novia Laura, mi familia y amigos cercanos.

    Pablo Gonzlez Gonzlez Pgina 2 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    ResumenEn algunas aplicaciones de aprendizaje automtico, predecir la clase de los ejemplos de un

    conjunto de datos no es lo realmente importante, sino que el objetivo real es predecir el porcentaje

    de ejemplos de cada clase. El nombre de este tipo de problemas es cuantificacin y est siendo un

    campo del aprendizaje automtico que est empezando a recibir relevancia recientemente.

    En este trabajo fin de mster, trabajamos con un conjunto de 17.027 imgenes de plancton, con

    ejemplos pertenecientes a 10 clases diferentes y distribuidas en 39 muestras, tomadas en

    diferentes puntos del mar, en diferentes temporadas y a diferentes profundidades.

    El objetivo que se persigue en este trabajo fin de mster es desarrollar un sistema automtico que

    sea capaz de predecir, con la mnima tasa de error posible, la distribucin de ejemplos por clase de

    una nueva muestra de plancton. Para ello, se emplearn tcnicas propuestas por autores

    relevantes en el campo de la cuantificacin, adaptndolas a este problema concreto y, adems, se

    explorarn otras nuevas alternativas con el objetivo de mejorar los resultados obtenidos.

    Pablo Gonzlez Gonzlez Pgina 3 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    AbstractIn certain machine learning applications, the prediction of the class of each example in a set of data

    is not necessarily the most important task, and the real aim is to predict the underlying data

    distribution, regardless of each individual classification. These kinds of tasks are referred to as

    quantification problems and they have been subject of study recently.

    In this thesis, the dataset used is comprised of 17.027 plankton images belonging to 10 different

    classes and distributed in 39 different samples, taken at sea in different places, during different

    seasons and at different depths.

    The aim of the present project is to build an automatic system capable of predicting, with the lowest

    possible error rate, the data distribution of a new plankton sample. In order to fulfil this task,

    techniques proposed by relevant authors in the quantification area will be tested, adapting them to

    this particular problem. Furthermore, new approaches will be explored so as to improve the results

    obtained.

    Pablo Gonzlez Gonzlez Pgina 4 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    ndice de contenido1 Introduccin...................................................................................................................................7

    2 Estado de la cuestin.....................................................................................................................9

    2.1 Clasificacin de plancton........................................................................................................9

    2.2 Cuantificacin.........................................................................................................................9

    3 Conjunto de datos........................................................................................................................11

    4 Clculo de caractersticas............................................................................................................14

    4.1 Caractersticas calculadas por la FlowCam..........................................................................14

    4.2 Clculo de contornos............................................................................................................14

    4.3 Descriptores de Fourier........................................................................................................15

    4.4 Matrices de co-ocurrencia....................................................................................................17

    4.5 Momentos de Hu..................................................................................................................18

    4.6 Momentos de Zernike...........................................................................................................19

    4.7 Transformada de Wavelet.....................................................................................................20

    5 Cuantificacin..............................................................................................................................22

    5.1 Notacin...............................................................................................................................22

    5.2 La cuantificacin como un problema de dataset-shift............................................................22

    5.2.1 Covariate-shift...............................................................................................................23

    5.2.2 Prior-shift......................................................................................................................23

    5.2.3 Concept-shift................................................................................................................25

    5.3 Mtodos de cuantificacin binaria........................................................................................25

    Pablo Gonzlez Gonzlez Pgina 5 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    5.3.1 Clasificar y contar (CC).................................................................................................25

    5.3.2 Adjusted Count (AC).....................................................................................................26

    5.4 Cuantificacin multiclase......................................................................................................28

    5.4.1 Funciones de prdida...................................................................................................29

    5.4.2 Clasificar y contar (CC).................................................................................................30

    5.4.3 Adjusted Count (AC).....................................................................................................30

    5.4.4 Ajuste propuesto para problemas multiclase.................................................................32

    6 Experimentacin y resultados......................................................................................................34

    6.1 Mtodo de experimentacin.................................................................................................34

    6.1.1 Clasificador LibSVM multiclase.....................................................................................35

    6.1.2 Cuantificador clasificar y contar (CC)............................................................................36

    6.1.3 Adjusted-Count (AC).....................................................................................................41

    6.1.4 Ajuste para problemas multiclase.................................................................................43

    7 Conclusiones...............................................................................................................................45

    7.1 Trabajo futuro.......................................................................................................................47

    8 Anexo I........................................................................................................................................ 49

    9 Bibliografa...................................................................................................................................51

    Pablo Gonzlez Gonzlez Pgina 6 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    1 IntroduccinCuando se realizan estudios biolgicos sobre el plancton marino, resulta muy importante analizar la

    distribucin de las diferentes especies de plancton presentes en el medio. Hoy en da existen

    dispositivos capaces de obtener de manera automtica, a partir de muestras de agua, fotografas o

    vdeo del plancton presente. Algunos ejemplos son el Video Plankton Recorder [1], el sistema

    SIPPER [2], o la FlowCam [3]. Con la existencia de dispositivos de recogida automtica, resulta

    imposible que todos los datos obtenidos sean analizados solamente por personal humano, ya que

    cada una de las muestras tendra que ser estudiada y clasificada por un taxnomo especialmente

    entrenado para ello.

    Debido a lo anterior, surge una necesidad de obtener un sistema automtico que, con suficiente

    precisin, sea capaz de clasificar las muestras de plancton y separarlas en cada una de las

    diferentes clases taxonmicas. Varios trabajos [4] [5] [6] [7] han sido realizados en este campo. De

    manera muy simplificada, todos ellos utilizan un mismo procedimiento: a partir de cada una de las

    imgenes provenientes de un sistema automtico de captura, se calcula un vector de

    caractersticas representativo y, posteriormente, se utiliza un clasificador para entrenar un modelo

    que servir para predecir la clase de nuevas fotografas.

    Uno de los principales problemas a los que se enfrenta la estrategia aplicada por los anteriores

    trabajos es que obtienen buenos resultados actuando sobre conjuntos cerrados de plancton, donde

    la distribucin de los ejemplos en las diferentes clases de plancton se mantiene. Esto sucede

    porque la asuncin general hecha por los mtodos de clasificacin es que la distribucin de los

    ejemplos usados para la fase de entrenamiento es representativa [8]. En este tipo de problemas la

    realidad generalmente no es as [9], y segn las estaciones o las zonas donde se hagan los

    estudios, los cambios en la distribucin de las especies de plancton pueden llegar a ser dramticos.

    En este Trabajo Fin de Mster (en adelante TFM) se intentar resolver este problema utilizando un

    enfoque diferente: fijaremos como nuestra prioridad ser capaces de cuantificar la cantidad de

    plancton de cada clase (en lugar de intentar optimizar el error de clasificacin por cada ejemplo). La

    Pablo Gonzlez Gonzlez Pgina 7 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    cuantificacin se aplica en problemas en los que es irrelevante conocer la clase de cada individuo,

    sino que interesan los datos a nivel agregado, como es el caso del problema del reconocimiento de

    plancton que nos ocupa. Un ejemplo de otro mbito podra ser una compaa de seguros, cuyo

    deseo sera conocer el nmero de accidentes que van a tener sus clientes. En realidad para los

    nmeros de la compaa, no les interesa saber qu clientes van a tener un accidente y cules no,

    sino el nmero total de accidentes que van a sufrir sus asegurados.

    Por tanto, trabajaremos con la asuncin previa de que la distribucin de las especies de plancton

    puede cambiar y ser diferente en el conjunto de entrenamiento y en el conjunto de prueba.

    El problema de la cuantificacin fue definido por Forman [10] [11], trabajando con estas

    consideraciones previas en un problema binario, perteneciente a un mbito muy diferente al del

    plancton. El reto de este TFM, ser aplicar este enfoque a este conjunto de datos, con el reto

    adicional de extenderlo a un problema multiclase.

    Para la realizacin del trabajo se cuenta con un conjunto de datos adecuado, obtenido gracias al

    uso del sistema automtico FlowCam. El conjunto est formado por 17.027 fotografas, tomadas en

    39 muestreos diferentes. Uno de los aspectos importantes de este conjunto de datos es que la

    distribucin de las especies es diferente en cada uno de los muestreos, reflejando las

    caractersticas reales del problema.

    La estructura de este trabajo es la siguiente: en el Captulo 2 analizaremos el estado de la cuestin,

    revisando de manera detallada los trabajos ya realizados en este campo. A continuacin, en el

    Captulo 3, daremos una descripcin detallada del conjunto de datos utilizado. En el Captulo 4

    abordaremos el problema del clculo del vector de caractersticas para cada una de las imgenes,

    utilizando tcnicas de visin artificial. Posteriormente, en el Captulo 5, haremos un estudio de las

    estrategias utilizadas para la resolucin del problema de cuantificacin. En el Captulo 6, se

    aplicarn las tcnicas de cuantificacin al problema en cuestin y se compararn los resultados con

    los obtenidos por los enfoques tradicionales utilizando un algoritmo de clasificacin. Por ltimo, en

    el Captulo 7 analizaremos los resultados obtenidos e intentaremos extraer conclusiones tiles

    sobre el trabajo realizado.

    Pablo Gonzlez Gonzlez Pgina 8 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    2 Estado de la cuestin

    2.1 Clasificacin de planctonCon la aparicin de dispositivos de captura de imgenes de plancton automticos han sido muchos

    los trabajos realizados por los investigadores en esta materia. Uno de los primeros artculos [5] de

    clasificacin automtica de varias especies de plancton utiliza Sipper II [2] como fuente para

    obtener las imgenes de plancton. En este trabajo se calculan solamente atributos de forma, ya

    que las imgenes son en escala de grises y con una calidad muy baja. Se aborda el problema

    utilizando como clasificador Support Vector Machines (SVM) [12] y se consiguen unos resultados

    satisfactorios.

    Uno de los trabajos principales es una tesis doctoral realizada por Hu [13]. En esta tesis se

    adquieren las muestras de plancton a travs de una Video Plankton Recorder [1], y se aplican

    varias tcnicas de visin artificial para describir cada uno de los ejemplos. Una de las principales

    aportaciones de esta tesis es el uso de atributos de textura, adems de los atributos de forma ya

    aplicados anteriormente. Esta tesis es un buen punto de partida para abordar el problema de la

    clasificacin automtica de plancton.

    Adems de los trabajos anteriores, que utilizan sistemas diferentes al usado en este TFM, existen

    otros que utilizan la Flowcam como fuente de datos. En [7] se analizan diversos atributos de forma

    y de textura aplicados sobre imgenes provenientes de la Flowcam y se evalan los resultados

    obtenidos con cada uno de ellos con diferentes clasificadores (entre ellos SVM). En otro de los

    artculos que utiliza la FlowCam como fuente de datos [14], se utiliza un clasificador para predecir

    la cantidad de biomasa para cada una de las clases de plancton, dando prioridad los ejemplos con

    mayor cantidad de biomasa (clasificacin sensible al coste).

    2.2 CuantificacinEn el apartado anterior hemos descrito el estado de la cuestin para sistemas de clasificacin de

    plancton. El problema que tratamos de resolver en este TFM es diferente. Tratamos de predecir la

    Pablo Gonzlez Gonzlez Pgina 9 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    prevalencia de cada una de las especies en el conjunto de prueba, es decir, el porcentaje de

    ejemplos que pertenecen a cada una de las clases definidas.

    El problema de la cuantificacin, que analizaremos ms en detalle en el Captulo 5, ha sido

    abordado para sistemas binarios recientemente por Forman [10] [11] [15]. En estos artculos se

    describen diferentes ajustes a los algoritmos tradicionales de clasificacin para optimizar los

    resultados en cuantificacin y no en clasificacin. En sus artculos, Forman trabaja con problemas

    binarios en los que la distribucin de los datos es bastante variable, y en muchos casos la

    diferencia en las prevalencias de la clase positiva y negativa es enorme. Aunque, como ya se ha

    dicho, los conjuntos de datos con los que trabajan Forman son binarios, en [11] Forman expone

    brevemente un mtodo para resolver la cuantificacin en problemas multiclase. Este ser el mtodo

    del que partiremos para probar en nuestro conjunto de datos en la seccin 5.4.

    Existen otros trabajos interesantes en los que se ha utilizado la cuantificacin. Un ejemplo se

    encuentra en el campo de la minera de opiniones [16]. Otro ejemplo lo tenemos en una aplicacin

    para el control de calidad de muestras de semen [17]. En [15], se utiliza la cuantificacin para

    monitorizar las llamadas al departamento de soporte de una empresa, con el objetivo de detectar,

    por ejemplo, aumentos en las incidencias de un determinado producto.

    Tambin es importante destacar una reciente tesis doctoral en la que se analizan y comparan

    diferentes tcnicas de cuantificacin [18]. En esta tesis se utiliza el algoritmo K-Nearest Neighbor

    para tareas de cuantificacin y tambin se explora la posibilidad de implementar un clasificador

    (basado en SVM) que directamente trata de optimizar los resultados en cuantificacin, sin

    necesidad de realizar un ajuste posterior.

    Hasta donde nosotros sabemos, no existe hasta la fecha ningn trabajo que trate sobre la

    cuantificacin de muestras de plancton sobre un conjunto de datos separado en muestras y que

    aborde el problema de la cuantificacin multiclase.

    Pablo Gonzlez Gonzlez Pgina 10 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    3 Conjunto de datosEl conjunto de datos con el que vamos a utilizar en este TFM ha sido creado por el instituto

    oceanogrfico de Gijn utilizando una FlowCam. El conjunto de datos est formado por 17.027

    imgenes distribuidas en 39 muestras diferentes, tomadas en diferentes puntos del Mar Cantbrico,

    a diferentes profundidades y, en diferentes pocas temporales [19], lo que garantiza que las

    distribuciones de las diferentes muestras sean distintas.

    La FlowCam es un dispositivo que utiliza la citometra de flujo para el anlisis de las partculas

    existentes en un lquido. El modo de funcionamiento consiste en hacer circular el fluido por un tubo

    fino sobre el que se aplica una luz lser. Las partculas existentes en este fluido son detectadas y

    fotografiadas a travs de un microscopio. La FlowCam es capaz de realizar este proceso de

    manera muy eficiente y, adems de obtener las fotografas de cada una de estas partculas, calcula

    veinte medidas de cada una de ellas. stas se describen en el apartado 4.1 de este documento.

    Las imgenes obtenidas por la FlowCam estn almacenadas en JPG, con una codificacin de color

    RGB y una resolucin de 72x72ppp. El tamao de la imagen vara dependiendo del tamao de la

    partcula que aparece en ella.

    Cada una de las imgenes capturadas por la FlowCam ha sido clasificada por un experto humano

    en una de las siguientes diez clases: Nanoplankton, Flagelata, Silicoflagellates, Dinoflagellates,

    Ciliates, Diatoms, Crustaceans, Detritus, Artefacts y Unclassified. Esta ltima categora ha sido

    creada para fotografas en las que el taxnomo no fue capaz de clasificar su contenido, o la

    partcula detectada no corresponda con ninguna de las otras categoras.

    Como hemos dicho antes, las fotografas estn repartidas en 39 muestras diferentes, obtenidas en

    diferentes puntos y en diferentes pocas. Esta circunstancia nos hace enfrentarnos al problema de

    los cambios de distribucin en las diferentes muestras, como se puede observar en la Ilustracin 1.

    Pablo Gonzlez Gonzlez Pgina 11 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    Pablo Gonzlez Gonzlez Pgina 12 de 53

    Ilustracin 1: Distribucin de ejemplos por muestras

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    En la Ilustracin 2, mostramos unos ejemplos de los diferentes tipos de imgenes obtenidas con la

    FlowCam.

    Pablo Gonzlez Gonzlez Pgina 13 de 53

    Ilustracin 2: Diferentes ejemplos de plancton de las diferentes clases. a) Crustaceans b) Ciliates c)

    Dinoflagellates d) Diatoms e) Flagelata f) Silicoflagellates g) Nanoplankton h) Detritus i) Unclassified j)

    Artefacts

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    4 Clculo de caractersticasA partir de las imgenes presentes en el conjunto de datos, es necesario realizar un clculo de

    caractersticas que sirvan como entrada para los algoritmos de clasificacin y cuantificacin que

    aplicaremos posteriormente. La idea es crear el conjunto de caractersticas ms robusto posible, y

    que describan adecuadamente las imgenes tratadas.

    Como ya hemos explicado en apartados anteriores, las imgenes provienen de una FlowCam.

    Este dispositivo es capaz fotografiar el plancton existente en una muestra de agua y darnos ya

    directamente las fotografas segmentadas. Adems de hacer este trabajo, la FlowCam tambin

    realiza un anlisis automtico de las fotografas calculadas, computando automticamente varios

    valores. Utilizaremos estos valores como caractersticas y adems calcularemos otras utilizando

    tcnicas de visin artificial.

    Las caractersticas que nos interesa calcular son aquellas que obtengan informacin de la forma

    del plancton presente en la imagen y de su textura. Daremos prioridad a aquellas que sean

    invariantes con respecto a la posicin del objeto, ya que la FlowCam no nos garantiza para nada

    que el plancton siempre salga en la misma posicin. Las tcnicas aqu elegidas vienen motivadas

    por los buenos resultados que han obtenido en otros estudios similares [5] [7] [13] [14], ya

    comentados en la Captulo 2.1.

    4.1 Caractersticas calculadas por la FlowCamLa FlowCam y el software con el que trabaja es capaz de calcular varios atributos de las partculas

    detectadas de mantera automtica. Entre estos atributos se encuentran medidas sobre la partcula

    como su permetro, longitud, anchura, transparencia, intensidad, etc. La descripcin detallada de

    los atributos se encuentra en el manual de la FlowCam y se ha incorporado en el Anexo I de este

    documento traducido al espaol.

    4.2 Clculo de contornosComo paso previo para calcular ciertos tipos de caractersticas (por ejemplo, los descriptores de

    Pablo Gonzlez Gonzlez Pgina 14 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    Fourier), se necesita extraer el contorno del organismo que aparece en la fotografa. Para calcular

    el contorno, primero es necesario transformar las imgenes en color a imgenes en escalada de

    grises y de ah a imgenes binarias. Despus de realizar varios ajustes para obtener los umbrales

    correctos, aplicamos la funcin bwboundaries de Matlab obteniendo el resultado mostrado en la

    Ilustracin 3.

    4.3 Descriptores de FourierUna vez que tenemos los contornos de las imgenes, se calculan los descriptores de Fourier para

    describir el contorno de la imagen. Para ello utilizaremos un algoritmo especfico que realice el

    clculo en contornos cerrados [20]. La ventaja de este algoritmo es que no requiere el clculo de

    integrales, con lo que el proceso es bastante rpido. Adems, los descriptores resultantes son

    invariantes con respecto a la rotacin, dilatacin y traslacin del contorno de la imagen, aspecto

    muy importante ya que los organismos que aparecen en las imgenes que estamos analizando

    presentan habitualmente este tipo de transformaciones.

    A la hora de calcular los descriptores de Fourier es importante decidir el nmero de armnicos a

    utilizar para describir el contorno. Cuantos ms armnicos utilicemos, ms informacin acerca del

    contorno tendremos, pero tambin tendremos que evitar el sobre-ajuste de los descriptores al

    contorno de cada uno de los organismos.

    Antes de proceder al clculo de los descriptores del contorno, hay que resolver el problema de las

    imgenes que tienen ms de un contorno cerrado. La solucin por la que he optado ha sido elegir

    el contorno ms grande de entre todos los existentes en la imagen. Se supone que este contorno

    corresponder al del organismo presente en la imagen.

    Pablo Gonzlez Gonzlez Pgina 15 de 53

    Ilustracin 3: Clculo del contorno de una imagen

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    En las Ilustraciones 4, 5, 6 y 7 se puede observar cmo afecta el nmero de armnicos a la

    aproximacin obtenida. En rojo se muestra el contorno calculado en el paso anterior y en verde la

    aproximacin de Fourier calculada con un nmero de armnicos determinados.

    Despus de estudiar las imgenes anteriores, podemos considerar que con quince armnicos es

    suficiente para describir las imgenes de este TFM. Hay que tener en cuenta que para cada

    armnico se obtienen un total de cuatro coeficientes an ,b n ,c n ,d n . Podemos combinarlos para

    obtener un nico valor que define la amplitud de cada armnico y que puede ser usado en nuestro

    vector de caractersticas, dando lugar de esta manera a quince valores:

    F n=an +bn +c n +d n

    Pablo Gonzlez Gonzlez Pgina 16 de 53

    Ilustracin 4: Aproximacin con 5

    armnicosIlustracin 5: Aproximacin con 10

    armnicos

    Ilustracin 6: Aproximacin con 15

    armnicos

    Ilustracin 7: Aproximacin con 20

    armnicos

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    4.4 Matrices de co-ocurrenciaLas matrices de co-ocurrencia se definen sobre imgenes en escala de grises (GLCM). Su

    dimensin depende del tamao de la escala de grises que tenga la imagen original. Si por ejemplo,

    tenemos ocho grises posibles, la GLCM tendr una dimensin de 8x8. Para calcular cada uno de

    los valores de esta matriz se aplica la siguiente frmula:

    Es decir, se va analizando cada uno de los pxeles de la imagen I y de sus vecinos (se pueden

    definir diferentes tipos de incrementos). Cada celda de la GLCM con coordenadas (i,j) almacenar

    cuntos pxeles de la imagen original tenan valor de gris i y, adems, el vecino a este pxel tena

    valor de gris j.

    Para construir el vector de caractersticas que represente a cada imagen vamos a utilizar un

    conjunto de caractersticas muy conocido y usado en diversos dominios creado por Haralick [21].

    Las caractersticas de Haralick se crean a partir de la GLCM y se componen de 13 medidas

    (energa, entropa, correlacin, etc) que representan la textura de la imagen.

    Diversos trabajos realizados sobre la clasificacin de plancton [7] [13] utilizan esta tcnica con

    resultados satisfactorios. Adems, en [22] se presenta un estudio directamente relacionado con la

    clasificacin de plancton utilizando matrices de co-ocurrencia y SVM como algoritmo de

    clasificacin con muy buenos resultados.

    En este trabajo, se tienen en cuenta diecisis niveles de grises a la hora de representar las

    imgenes. Se utiliza como funcin de vecindad cuatro distancias diferentes (1, 4, 8 y 16 pxeles)

    con cuatro ngulos diferentes (0, 45, 90 y 135). Para las cuatro matrices correspondientes a

    cada una de las distancias calcularemos la matriz media. De esta manera obtendremos cuatro

    matrices (una para cada ngulo). A continuacin obtendremos las caractersticas de Haralick,

    teniendo en este caso un vector de caractersticas por cada imagen de 52 atributos.

    Pablo Gonzlez Gonzlez Pgina 17 de 53

    GLCM x y ( i , j )=p=1

    n

    q=1

    m

    1,si I (p ,q )=iI (p+x ,q+y )= j

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    4.5 Momentos de HuLos momentos son propiedades numricas que se pueden obtener de una determinada imagen, o

    funciones calculadas a partir de estas propiedades que tienen alguna cualidad interesante a la hora

    de describir la imagen. En 1962, Hu defini siete momentos [23], invariantes con respecto a la

    traslacin, escalado y la rotacin. Para calcularnos partimos de los momentos de una imagen:

    M ij=x

    yx i y j I (x ,y )

    donde I(x,y) es la intensidad de la imagen en el pixel x,y. De esta manera, se puede definir el

    centroide de la imagen para luego calcular los momentos centrales, en los que se basan los

    momentos de Hu.

    x=M 10M 00

    y y=M 01M 00

    Una vez calculado el centroide, calculamos los momentos centrales de la imagen,

    pq=x

    y(x x )p(yy )q I (x ,y )

    Para convertir los momentos anteriores a momentos invariantes con respecto a la escala, aplicamos

    la siguiente ecuacin:

    ij=ij

    00(1+ i+ j

    2)

    Finalmente, ya es posible calcular los siete momentos de Hu, a partir de los momentos centrales

    anteriores:

    I 1=20+02

    I 2=(2002)2+4 11

    I 3=(3012 )+(32103)

    I 4=(3012)+(2103)

    I 5=(30312)(30+12)[(30+12)3(21+03) ]+(32103)( 21+03)[3(30+12)(21+03) ]

    Pablo Gonzlez Gonzlez Pgina 18 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    I 6=(2002)[(30+12) (21+03) ]+411(30+12)( 21+03)

    I 7=(321303)( 30+12)[( 30+12)3(21+03) ](30312)(21+03)[3(30+12) (21+03) ]

    Una vez calculados los siete momentos de Hu, los incorporamos a nuestro vector de

    caractersticas.

    4.6 Momentos de ZernikeLos momentos de Zernike [24] estn basados en los polinomios con el mismo nombre y han sido

    aplicados con xito en problemas de reconocimiento de patrones anteriormente [25].

    Una propiedad que hace muy interesante a los momentos de Zernike es que son invariantes a la

    rotacin de los objetos. Por contra, estos momentos no son invariantes con respecto al escalado o

    a la traslacin de la forma analizada. De esta forma, ser necesario realizar un procesamiento

    previo de las imgenes en el que igualaremos todos los tamaos de las imgenes y situaremos el

    objeto a analizar en el centro de la imagen. Seguiremos el proceso descrito en un trabajo que trata

    sobre la deteccin de tumores [26] [27]. En primer lugar haremos un proceso previo de la imagen

    para dejar el microorganismo en el centro de la imagen binaria. Adems, se aplica un escalado

    para dejar todas las imgenes a un tamao de 50x50 pxeles.

    La forma discreta de los momentos Zernike para una imagen de tamao NxN es la siguiente:

    Z n ,m=n+1N

    c=0

    N1

    r =0

    N1

    f (x ,y )V n ,m* (x ,y )=n+1N c=0

    N1

    r =0

    N1

    f (x ,y )Rn , m (pxy )e jm cr

    donde p xy es la magnitud del vector desde el origen al punto (x,y), con 0pxy1 ; y y N es un

    factor de normalizacin. n, es un entero no negativo representando el orden del polinomio radial. m,

    es un entero que satisface las restricciones nm=par y mn representando la repeticin del

    ngulo acimutal. Rn ,m es el polinomio radial y V n ,m* es el conjugado complejo del polinomio de

    Zernike. Una descripcin ms detallada del clculo de los momentos de Zernike para una imagen

    se puede encontrar en [24].

    A partir de esta ecuacin, tenemos que elegir qu momentos de Zernike calculamos. En este

    Pablo Gonzlez Gonzlez Pgina 19 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    trabajo elegiremos los mismos momentos de bajo orden que los usados en el artculo [26], dado

    que experimentalmente funcionan bien.

    Momentos Zernike={Z n ,m} { 3n10mnnm=2kkdando lugar a los siguientes 32 momentos de Zernike:

    Orden (n) Iteraccin (m)

    3 1, 3

    4 0, 2, 4

    5 1, 3, 5

    6 0, 2, 4, 6

    7 1, 3, 5, 7, 9

    8 0, 2, 4, 6, 8

    9 1, 3, 5, 7, 9

    10 0, 2, 4, 6, 8, 10

    A partir de las amplitudes de estos momentos se obtienen 32 caractersticas que son incorporadas

    al vector de caractersticas.

    4.7 Transformada de WaveletLa transformada de Wavelet es otro mecanismo que ha probado ser bastante efectivo en el anlisis

    de la textura de una imagen [28]. A diferencia de las matrices de co-ocurrencia, el anlisis se

    realiza a varias escalas al mismo tiempo. As pues, se pueden obtener los rasgos ms generales de

    la textura y a la vez analizarla en ms detalle. Dentro de la familia de mtodos que son capaces de

    realizar un anlisis multiresolucin estn tambin los filtros de Gabor. La ventaja de usar Wavelets

    con respecto a los filtros de Gabor es que estos ltimos no son ortogonales, lo que provoca que

    exista cierto nivel de correlacin entre texturas distintas.

    Pablo Gonzlez Gonzlez Pgina 20 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    Para la representacin de texturas y el clculo de un vector de caractersticas se utiliza la

    transformada discreta de Wavelet. Los parmetros que vamos a tener que considerar a la hora de

    aplicar la transformada de Wavelet van a ser el nivel de descomposicin y la funcin madre

    utilizada para calcular la transformada. Del nivel de descomposicin depende directamente el nivel

    de detalle al que analizaremos la textura. Por ejemplo, en la Ilustracin 8 podemos ver la

    descomposicin en cuatro niveles.

    Por otro lado, hay que elegir la funcin madre utilizada para calcular la transformada de Wavelet.

    Existen varias familias de funciones entre las que destacan las Daubechies, Coiflets, Symlets, etc.

    En este trabajo se va a utilizar como funcin madre la Daubechies de orden cuatro ya que ha

    demostrado tener un buen rendimiento en otras aplicaciones de anlisis de textura [29].

    Ilustracin 8: Descomposin en 4 niveles

    Pablo Gonzlez Gonzlez Pgina 21 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    5 CuantificacinEn aprendizaje automtico, cuantificar es estimar de manera precisa la distribucin de la clases en

    un conjunto de ejemplos, usando un conjunto de entrenamiento que puede tener una distribucin

    sustancialmente diferente [11]. En su caso ms simple, teniendo en cuenta un problema binario, la

    cuantificacin consistir en predecir un nmero p, tambin denominado prevalencia de la clase

    positiva, que representa el porcentaje de ejemplos de la clase positiva dentro del conjunto de

    prueba. Obviamente, obtenido p, el porcentaje de ejemplos negativos ser 1-p.

    Es importante destacar que, a diferencia del problema original de clasificacin, ya no es

    estrictamente necesario saber a qu clase pertenece cada uno de los ejemplos de manera

    individual, sino que intentaremos estimar el nmero p, sin que importen los errores cometidos en la

    clasificacin individual de cada uno de los ejemplos.

    5.1 NotacinSupongamos que tenemos un conjunto de entrenamiento {D=(x i , y i ): i=1..S} , con S ejemplos

    previamente etiquetados, donde x i es un objeto del espacio de entrada e y iY ={1..k} la clase de

    cada ejemplo, siendo k el nmero de clases de nuestro problema (en el caso de un problema

    binario, se suele tomar y iY ={1,+1} ).

    Este conjunto de entrenamiento D puede ser representado como el porcentaje de los ejemplos que

    pertenecen a cada una de las clases. En el caso de un clasificador binario, sera suficiente con la

    prevalencia de los ejemplos de la clase positiva, p. El objetivo del cuantificador es obtener la

    prevalencia de cada una de las clases en conjuntos de prueba, desconocidos a la hora de realizar

    el entrenamiento.

    5.2 La cuantificacin como un problema de dataset-shiftDecimos que un problema tiene dataset-shift cuando la distribucin conjunta P (x , y ) de las

    entradas x y de las salidas y , difiere entre el conjunto de entrenamiento y de prueba [30]. En este

    Pablo Gonzlez Gonzlez Pgina 22 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    contexto, se pueden identificar dos tipos de problemas. El primer tipo son los problemas X Y .

    Este tipo de problemas son los problemas predicativos tradicionales y en ellos se cumple que

    P (x , y )=P (yx )P (x ) . Por otra parte, existen los problemas Y X [31], en los que el valor de la

    clase determina casualmente el valor de x . En este tipo de problemas se cumple

    P (x , y )=P ( xy )P (y ) .

    Un ejemplo de este segundo tipo de problemas, es concretamente el que estamos tratando en este

    trabajo. Dependiendo de la zona, de la temporada y de la profundidad a la que se obtengan las

    muestras de plancton, va a condicionar la distribucin de las clases P (y ) , sin embargo, este

    hecho no tiene porque condicionar la probabilidad de que un ejemplo, o mejor dicho, los valores

    obtenidos a partir de la imagen de un ejemplo x , correspondan a una determinada clase.

    Existen tres tipo de dataset-shift, el prior-shift, el covariate-shift y el concept-shift. En los siguientes

    subapartados vamos a describir estos tres conceptos, centrndose sobre todo en el prior-shift, ya

    que es el ms interesante para este trabajo.

    5.2.1 Covariate-shift

    El trmino covariate-shift se refiere al cambio en la distribucin de las variables de entrada x [32].

    Es este tipo de dataset-shift se produce en problemas del tipo X Y y se cumple que

    Pent (yx )=Ppru (yx )Pent ( x )P pru (x ) , donde Pent hace referencia a probabilidades en el

    conjunto de entrenamiento mientras que P pru , se refiere a probabilidades en el conjunto de prueba.

    5.2.2 Prior-shift

    Prior-shift hace referencia a los cambios de distribucin de la variable y . Este tipo de dataset-shift

    slo se produce en problemas de tipo Y X y se cumple que

    Pent (xy )=Ppru (xy )Pent (y )P pru (y ) [30]. Es decir, tenemos cambios en la distribucin de la

    variable Y, pero las probabilidad de que un ejemplo con un vector de caractersticas determinado

    pertenezca a una determinada clase se mantiene.

    Estas son las condiciones previas establecidas por los trabajos de Forman [10] [11] [15] y

    realmente por cualquier trabajo de cuantificacin. Realmente, si no hubiese un cambio en P (y ) no

    Pablo Gonzlez Gonzlez Pgina 23 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    estaramos hablando de un problema de cuantificacin. He aqu donde radica la diferencia principal

    con los problemas tradicionales de clasificacin, en los que se supone que P (xy ) y P (y ) son

    constantes en el conjunto de entrenamiento y de prueba [8].

    Una de las consecuencias de que las probabilidades intraclase P (xy ) se mantengan constantes,

    es que garantiza que tanto la tasa de verdaderos positivos tpr=TPP

    , como la tasa de falsos

    negativos fpr=FPN

    , se mantengan constantes. En la ilustracin 9 se puede observar como estos

    dos valores se mantienen constantes en la primera y segunda figura. Es decir, la proporcin de

    ejemplos que caen en el lado incorrecto es la misma en ambas. En la figura de la derecha no

    podemos decir lo mismo ya que se puede ver rpidamente como la tasa de fallos de la clase roja

    es mucho ms alta que en los otros dos casos.

    En el apartado 5.3.2 utilizaremos estas dos condiciones para intentar ajustar los resultados

    devueltos por un clasificador con el fin de optimizar los resultados para que se comporten mejor

    Pablo Gonzlez Gonzlez Pgina 24 de 53

    Ilustracin 9: Visualizacin del prior-shift para un problema binario. En la imagen de la izquierda vemos

    un conjunto de datos con una distribucin especfica. En la imagen central, se puede observar un

    cambio en la distribucin P (y ) mantenindose las probabilidades intraclase. En la figura de la

    izquierda, vemos un cambio en la distribucin pero que no mantiene las probabilidades intraclase.

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    para la tarea de cuantificacin.

    5.2.3 Concept-shift

    El concept-shift representa el tipo ms complicado de dataset-shift desde el punto de vista del

    aprendizaje automtico [30]. En este caso, la relacin entre las entradas y las clases cambia:

    Pent (yx )Ppru (yx )Pent ( x )=P pru(x ) en problemas X Y .

    Pent (xy )Ppru (xy )Pent (y )=P pru (y ) en problemas Y X .

    5.3 Mtodos de cuantificacin binaria5.3.1 Clasificar y contar (CC)

    El mtodo ms bsico y evidente de cuantificacin consiste en entrenar un clasificador tradicional

    con el conjunto de entrenamiento, utilizarlo para clasificar el conjunto de prueba, y contar las

    predicciones positivas. El clasificador utilizado en este TFM es SVM [12], ya que es uno de los

    mtodos de clasificacin que obtiene mejores resultados actualmente. Este mtodo ha sido

    utilizado como resultado base para comparar con el resto de mtodos descritos en el estudio

    realizado por Forman [11].

    No es difcil intuir que un clasificador perfecto, es tambin un cuantificador perfecto. Lgicamente,

    en problemas del mundo real nunca llegamos a conseguir un clasificador perfecto y, por tanto, el

    objetivo de este estudio es comprobar si mtodos diseados especficamente para resolver el

    problema de la cuantificacin pueden mejorar los resultados.

    Una de las razones principales por las que CC podra no funcionar bien es debido a los cambios de

    distribucin existentes habitualmente en problemas reales entre el conjunto de entrenamiento y de

    test (podemos observar estos cambios de distribucin de una muestra a otra en nuestro conjunto de

    datos, descrito en el Captulo 3). Los clasificadores tradicionales (como por ejemplo SVM), asumen

    que las distribuciones de entrenamiento y de prueba son iguales [8]. As pues, si el nmero de

    positivos en el conjunto de prueba aumenta y el clasificador tiende a clasificar ejemplos positivos

    como negativos (tasa de falsos negativos alta), el nmero de ejemplos negativos predichos tender

    Pablo Gonzlez Gonzlez Pgina 25 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    a aumentar. De la misma manera, si el clasificador tiende a clasificar ejemplos negativos como

    positivos (tasa de falsos positivos alta), si el nmero de negativos aumenta en un conjunto de

    prueba, el nmero de ejemplos predichos como positivos tender a aumentar.

    5.3.2 Adjusted Count (AC)

    A partir del razonamiento anterior, Forman deduce el siguiente teorema y su posterior

    demostracin:

    Teorema de Forman:

    Para un clasificador imperfecto, el mtodo CC subestimar la verdadera proporcin de positivos p

    en un conjunto de prueba para p>p*, y sobrestimar para p

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    Demostracin

    Partiendo de la base de que tpr es la tasa de verdaderos positivos tpr=TPP

    , es decir, la

    proporcin de ejemplos clasificados como positivos que realmente eran positivos; y fpr es la tasa de

    falsos positivos fpr=FPN

    , es decir, la proporcin de ejemplos clasificados como positivos que en

    realidad eran negativos. Estos valores, se pueden considerar independientes de la distribucin.

    La probabilidad de que un clasificador binario prediga como positivo un ejemplo aleatorio del

    conjunto de prueba es la siguiente:

    P (+)=P (+pos)P (pos)+P (+neg)P (neg)=tprP (pos)+fpr(1P (pos))

    donde P(pos), es la prevalencia real de positivos en el conjunto de entrenamiento y que a partir de

    ahora denominaremos p. Podemos escribir como funcin de p, la prevalencia predicha por el

    clasificador sobre el conjunto de entrenamiento: p'(p).

    p ' (p )=tprp+ fpr(1p)

    Si el clasificador estima correctamente la prevalencia para un valor particular de p*, entonces

    p ' (p *)=p* . Para una prevalencia diferente p+ , donde 0 , no se predice la prevalencia

    correctamente:

    p ' (p *+)=tpr(p*+)+ fpr(1(p*+))=p ' (p *)+(tpr fpr )=p*+(tprfpr )

    Adems, el teorema de Forman asume que el clasificador es imperfecto y que por tanto se cumple

    que tprfpr

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    p ' (p )=tprp+ fpr(1p)=(tpr fpr )p+ fpr

    Despejando p, se obtiene:

    p=p ' (p )fprtprfpr (1)

    Forman [10] sugiere un mtodo denominado Adjusted Count (AC) como mejora al mtodo CC. El

    proceso consiste en entrenar un clasificador y estimar los valores tpr y fpr a travs de validacin

    cruzada en el conjunto de entrenamiento. El siguiente paso es contar las predicciones positivas del

    clasificador sobre el conjunto de prueba, y estimar el verdadero porcentaje de positivos a travs de

    la ecuacin (1).

    5.4 Cuantificacin multiclaseTodo el desarrollo terico expuesto hasta el momento supone que cada uno de los ejemplos

    pertenece a una de dos clases posibles. Este tipo de problemas se denominan problemas binarios.

    En el caso de que el nmero de clases sea mayor que dos, hablamos de problemas muticlase.

    Existen principalmente dos tipos de problemas multiclase, por un lado tenemos los problemas en

    los que cada ejemplo solamente pertenece a una nica clase y adems, todos los ejemplos tienen

    asignada una clase. Por otro lado, existen problemas en los que cada ejemplo puede pertenecer a

    ms de una clase al mismo tiempo, o incluso, no pertenecer a ninguna de las clases. En este

    documento, vamos a trabajar nicamente con el primer tipo de problemas.

    A la hora de enfrentarse a un problema multiclase utilizando un clasificador tradicionalmente binario

    como es SVM, nos encontramos con dos alternativas principalmente [33]. La primera, denominada

    uno-contra-todos (one-vs-all), consiste en entrenar un clasificador para cada una de las clases.

    Estos clasificadores sern binarios y tomarn como positivos los ejemplos de la clase en cuestin y

    como negativos, el resto de los ejemplos. A la hora de clasificar un ejemplo nuevo, probaremos

    todos los clasificadores y elegiremos la clase que coincida con aquel que clasifique el ejemplo con

    mayor margen.

    Pablo Gonzlez Gonzlez Pgina 28 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    La segunda alternativa, es conocida como uno-contra-uno (one-vs-one). En este caso, se

    construyen clasificadores para cada par de clases ( k (k1)/2 clasificadores). Cuando hay que

    clasificar un ejemplo nuevo, se prueba en todos los clasificadores y se elige la clase que ms veces

    haya sido vencedora. En la implementacin elegida para este trabajo se utiliza el segundo enfoque,

    ya que obtiene resultados muy similares y generalmente unos tiempos de entrenamiento ms

    cortos [34].

    5.4.1 Funciones de prdida

    En este apartado vamos a tratar las funciones de prdida utilizadas en este trabajo. En primer

    lugar, tenemos la funcin de prdida tradicional para clasificadores multiclase.

    Supongamos un clasificador h (x ) y un ejemplo (x , y ) . Decimos que el clasificador falla el

    ejemplo x si h (x )y . Definimos entonces la funcin de error para un clasificador multiclase

    como:

    M (h (x ), y )=1S i =1

    S

    h (x )y (2)

    donde es 1 cuando el predicado es verdadero y 0 en caso contrario.

    Resulta evidente que la funcin de prdida anterior no es interesante en los problemas de

    cuantificacin, ya que no estamos interesados en saber la clase de cada uno de los ejemplos.

    La funcin de prdida propuesta por Forman [10] [11] [15] para utilizar en problemas de

    cuantificacin binarios es el error absoluto (AE, Absolute Error) y, su principal ventaja es que es

    fcilmente calculable e interpretable:

    AE=p ' p=P ' PS

    =FPFNS

    Para la cuantificacin multiclase, la funcin de error es anloga pero calculando la diferencia entre

    la prevalencia real y predicha para cada una de las clases y haciendo la media de estos errores:

    Pablo Gonzlez Gonzlez Pgina 29 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    AE M=i =1

    k

    p ' ip i

    k(3)

    5.4.2 Clasificar y contar (CC)

    La primer alternativa evidente para hacer un cuantificador multiclase es anloga a la expuesta

    anteriormente para problemas binarios. Entrenamos un clasificador multiclase y lo aplicamos sobre

    un conjunto de prueba. A partir de los resultados, contamos los ejemplos clasificados en cada una

    de las clases.

    Al cuantificar nos interesa saber la proporcin de ejemplos que caen en una determinada clase, y

    no nos importa la clasificacin individual de cada uno de los ejemplos. Puede ocurrir que un

    clasificador con un error multiclase M alto, consiga un error absoluto AE M bajo debido a que los

    fallos de clasificacin se compensen. Para poner un ejemplo de esta situacin, imaginemos un

    clasificador multiclase al que se le presentan dos ejemplos para clasificar, uno de una hipottica

    clase A y otro de clase B. A la hora de clasificar el primer ejemplo, el clasificador se confunde y

    predice la clase B. Supongamos tambin, que cuando clasifica el segundo ejemplo, predice que se

    trata de un ejemplo de la clase A. En este caso, es fcil ver que tendremos un error multiclase

    m=1 , es decir, fallamos el 100% de los casos de prueba. Sin embargo, aplicando la funcin de

    prdida para cuantificacin, se puede observar que el error absoluto AE M=0 . Es decir, tenemos el

    peor clasificador posible, ya que falla todos los ejemplos de prueba. Sin embargo, al mismo tiempo,

    hemos obtenido un cuantificador perfecto ya que es capaz de predecir perfectamente la distribucin

    de las clases en el conjunto de prueba.

    5.4.3 Adjusted Count (AC)

    Esta adaptacin del mtodo descrito anteriormente sobre problemas binarios consiste en los

    siguientes pasos. Primero, inducir un clasificador para el conjunto de entrenamiento completo y

    estimar tpr y fpr para cada clase por validacin cruzada. Despus, con el conjunto de prueba,

    contar el nmero de casos predichos para cada una de las clases y finalmente ajustar los

    Pablo Gonzlez Gonzlez Pgina 30 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    porcentajes utilizando la ecuacin (1).

    Para estimar tpr y fpr realizamos primero una validacin cruzada general, sobre todo el conjunto de

    datos etiquetado. Forman [11] recomienda utilizar una validacin cruzada de 50 particiones (98%

    de datos para entrenamiento, 2% de datos para el test), para asegurar que todos los

    entrenamientos tengan suficientes ejemplos de todas las clases. En nuestro caso, tenemos

    suficientes ejemplos de todas las clases y estimamos conveniente (por trminos de eficiencia), que

    una validacin de 10 particiones es suficiente para estimar los valores de tpr y fpr.

    Una vez obtenidos los resultados de la validacin cruzada general, hay que calcular el tpr y el fpr

    de cada una de las clases en cada una de las particiones. Estas medidas son usadas

    tradicionalmente en problemas binarios, pero pueden ser extendidas a problemas multiclase [35].

    Si C es el conjunto de todas las clases de nuestro problema, para calcular el tpr y fpr de una clase

    c i , consideramos que slo los ejemplos de esta clase son los positivos y el resto los negativos:

    P i=c i y N i=ji

    c jC

    A partir de los resultados de la validacin cruzada general se procede a computar las matrices de

    confusin para cada una de las particiones. Se calcula para cada clase y particin el tpr y el fpr

    segn las ecuaciones anteriores. Para obtener unos valores finales de tpr y fpr por clase se hace la

    media de los valores obtenidos por cada una de las particiones de la validacin cruzada general.

    Utilizando estos valores, ya se pueden ajustar los resultados obtenidos en los experimentos

    utilizando la ecuacin (1).

    Una vez realizado el ajuste, obtenemos un vector p ' con las prevalencias estimadas para cada

    una de las clases. Debido a que esta suma puede producir un valor diferente a uno, es necesario

    realizar un segundo ajuste:

    p '= p 'norm (p ' )

    Pablo Gonzlez Gonzlez Pgina 31 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    5.4.4 Ajuste propuesto para problemas multiclase

    El ajuste descrito en el apartado anterior, es un ajuste pensado para problemas binarios extendido

    para un problema multiclase. En este TFM se han probado con el objetivo de ver si lo que Forman

    propone para problemas multiclase en [11] funciona en un problema real.

    Como ya hemos explicado en el apartado 5.4.2, en problemas multiclase se pueden producir

    compensaciones de errores que hacen que el error en cuantificacin baje drsticamente y que de

    esta manera, complique el ajuste propuesto por Forman. En este trabajo proponemos una nueva

    forma de realizar el ajuste, analizando el nmero de ejemplos que el clasificador predice para cada

    clase, comparado con el nmero de ejemplos reales que existen de esa misma clase. La idea es

    ajustar la prevalencia de cada clase de manera que compense la tendencia a pasarse o a quedarse

    corto en el nmero de ejemplos predichos de cada tipo.

    Para aplicar este ajuste, primero tenemos que obtener un parmetro de ajuste especfico para cada

    clase c. Para ello aplicamos la siguiente ecuacin:

    c=i=1

    S

    h (x i )=c

    i =1

    S

    y i=c (4)

    donde es 1 cuando el predicado es verdadero y 0 en caso contrario. Con este parmetro de

    ajuste c podemos ajustar la prevalencia estimada para dicha clase:

    p c=p c ' (pc)

    c(5)

    El procedimiento para realizar este ajuste sera anlogo al realizado anteriormente y descrito en

    apartado 5.4.3. Los pasos son los siguientes:

    1. Realizar una validacin cruzada con la totalidad de los datos etiquetados. En este caso, al

    igual que antes, realizamos una validacin cruzada de diez particiones.

    2. A partir de los resultados de la validacin cruzada anterior, calcular los parmetros de

    Pablo Gonzlez Gonzlez Pgina 32 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    ajuste para cada una de las particiones y de las clases segn la ecuacin (4). Como slo

    necesitamos un parmetro de ajuste por clase, realizamos la media por particiones de

    los parmetros obtenidos para cada clase.

    3. Clasificamos los ejemplos de la muestra, obteniendo la prevalencia predicha de cada clase

    que actualizamos utilizando los parmetros de ajuste por clase obtenidos en el paso

    anterior segn la ecuacin (5).

    4. Por ltimo, normalizamos las prevalencias de las clases para que sumen uno (ver el

    apartado 5.4.3).

    Pablo Gonzlez Gonzlez Pgina 33 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    6 Experimentacin y resultados

    6.1 Mtodo de experimentacinEl objetivo de esta investigacin es comparar, en un problema real, el rendimiento de los algoritmos

    tradicionales de clasificacin, con las modificaciones optimizadas para la cuantificacin.

    Como ya se ha comentado en apartados anteriores, los algoritmos de clasificacin asumen que la

    distribucin del conjunto de entrenamiento es la misma que en el conjunto de prueba. Esta

    condicin en el conjunto de datos estudiado en este TFM no se cumple. El sistema ser entrenado

    con un conjunto mayor o menor de ejemplos etiquetados por un experto y cuando se obtengan

    nuevas muestras de plancton, lo ms probable es que la distribucin de individuos en las mismas

    vare en gran medida ya que sta depende de dnde y cundo se recoja.

    Para aproximarse lo ms posible a la realidad, se harn los experimentos aprovechando la

    separacin en muestras que tenemos. Como se ha comentado en el Captulo 3, partimos de que

    los ejemplos estn distribuidos en treinta y nueve conjuntos (muestras) diferentes. Cada una de

    estas tiene una distribucin de ejemplos por clase diferente. Realizaremos una validacin cruzada

    leave-one-out por muestras. Es decir, juntaremos los ejemplos de todas las muestras menos una, y

    probaremos el modelo entrenado con la muestra restante. Repetiremos este proceso en las treinta y

    nueve combinaciones posibles. Los errores obtenidos se calcularn como los errores medios de

    cada uno de estos experimentos. Resulta evidente observar que los resultados as obtenidos sern

    peores que si realizsemos una validacin cruzada balanceada de manera tradicional, usando

    todos los ejemplos de todas las muestras al mismo tiempo. De todas formas, considero que los

    resultados obtenidos se ajustarn ms a la realidad y sern ms fiables de esta manera.

    Para cada una de las iteraciones del leave-one-out anterior, se ejecutar un grid-search con el fin

    de encontrar los mejores valores de los hiperparmetros del clasificador para esos datos. Puede

    darse la situacin de que para cada una de las particiones de la validacin cruzada se encuentren

    valores diferentes de los hiperparmetros del clasificador. Los hiperparmetros que hay que ajustar

    Pablo Gonzlez Gonzlez Pgina 34 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    en SVM son la constante de regularizacin C y la constante g (cuando se use un kernel gaussiano).

    Los valores utilizados para la bsqueda son los siguientes. Para un kernel lineal buscamos el mejor

    valor de C entre [0.001 0.01 0.05 0.1 0.5 1 5 10 50 100]. Para un kernel gaussiano se buscan

    valores de C entre [10E-6, 10E-5, 10E-4, 10E-3, 10E-2, 1, 10, 100, 1000, 10000] y valores de g

    entre [10E-8, 10E-7, 10E-6, 10E-5, 10E-4, 10E-3, 10E-2, 1, 10, 100]. Para realizar est bsqueda

    de hiperparmetros se utiliza una validacin cruzada sobre el conjunto de entrenamiento de dos

    particiones y tres repeticiones.

    6.1.1 Clasificador LibSVM multiclase

    En este apartado se documentan los experimentos previos antes de abordar la cuantificacin. La

    idea es tener unos datos para comparar y ver si somos capaces de mejorarlos con las tcnicas de

    cuantificacin descritas anteriormente. Realizaremos para ello una clasificacin tradicional,

    utilizando uno de los mejores algoritmos que existen actualmente para ello: SVM. La

    implementacin utilizada en este trabajo es multiclase y se denomina LibSVM [36]. La primera

    prueba la realizaremos juntando todos los ejemplos de todas las muestras en un mismo conjunto de

    entrenamiento. Este es el caso tenido en cuenta en la mayor parte de los artculos cientficos que

    se escriben sobre esta temtica. Los resultados, teniendo en cuenta el error multiclase (M ) , son

    los siguientes (slo se muestra el error medio para todas las clases):

    Kernel Lineal Kernel Gaussiano

    Error medio multiclase 0.28616 0.25377

    Los siguientes resultados se han obtenido a partir de una validacin cruzada con los ejemplos

    agrupados por muestras, segn lo descrito en el apartado 6.1.

    Kernel Lineal Kernel Gaussiano

    Error medio multiclase 0.3489858 0.3248957

    Como podemos observar obtenemos, en el mejor de los casos, cerca de un 68% de acierto. Es

    Pablo Gonzlez Gonzlez Pgina 35 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    importante ver la diferencia entre los experimentos anteriores. En realidad se trata de los mismos

    datos pero distribuidos en la validacin cruzada de diferente forma. En el primer caso, el propio

    mecanismo de validacin cruzada calcula las particiones de forma aleatoria pero balanceada,

    mientras que en el segundo caso, la separacin en particiones ya viene impuesta por las treinta y

    nueve muestras diferentes de las que consta nuestro problema.

    6.1.2 Cuantificador clasificar y contar (CC)

    A partir de los mejores resultados anteriores (obtenidos con el kernel gaussiano), y haciendo un

    anlisis particin por particin de la validacin cruzada, se pueden calcular las prevalencias para

    cada una de las clases, en cada una de las particiones. Por un lado tenemos la prevalencia real y

    por otro la prevalencia estimada por el clasificador. Estos datos se extraen directamente con el

    mtodo CC, contando los ejemplos de cada clase en cada particin y calculando los porcentajes.

    Los resultados obtenidos por muestras se pueden ver en la Tabla 1.

    Pablo Gonzlez Gonzlez Pgina 36 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    AE M AE M AE M

    Muestra 1 0,0397 Muestra 2 0,0464 Muestra 3 0,0456

    Muestra 4 0,0254 Muestra 5 0,0289 Muestra 6 0,0720

    Muestra 7 0,0253 Muestra 8 0,0411 Muestra 9 0,0353

    Muestra 10 0,0192 Muestra 11 0,0245 Muestra 12 0,0188

    Muestra 13 0,0983 Muestra 14 0,0514 Muestra 15 0,0342

    Muestra 16 0,0224 Muestra 17 0,0348 Muestra 18 0,0144

    Muestra 19 0,0383 Muestra 20 0,0260 Muestra 21 0,0463

    Muestra 22 0,0326 Muestra 23 0,0232 Muestra 24 0,0590

    Muestra 25 0,0989 Muestra 26 0,0275 Muestra 27 0,0371

    Muestra 28 0,0406 Muestra 29 0,0227 Muestra 30 0,0285

    Muestra 31 0,0302 Muestra 32 0,0300 Muestra 33 0,0506

    Muestra 34 0,0133 Muestra 35 0,0152 Muestra 36 0,0336

    Muestra 37 0,0107 Muestra 38 0,0235 Muestra 39 0,0158

    Tabla 1: Error absoluto por muestras para el mtodo CC

    Para dar una visin grfica de los resultados, en la Ilustracin 11 se muestran los resultados

    detallados de doce muestras. En el resto de muestras se puede observar una tendencia similar.

    Pablo Gonzlez Gonzlez Pgina 37 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    Pablo Gonzlez Gonzlez Pgina 38 de 53

    Ilustracin 11: Resultados del mtodo CC para 12 de las 39 muestras

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    Como se puede observar, existe una compensacin en los fallos que tiene el clasificador, dando

    lugar a unos resultados en cuantificacin sorprendentemente buenos. Para entender este efecto es

    necesario analizar las matrices de confusin para cada una de las muestras. En la Tabla 2,

    podemos ver la matriz de confusin cuando se utiliza la muestra cuatro como conjunto de prueba y

    los ejemplos del resto de muestras como conjunto de entrenamiento.

    En la matriz de confusin aparece por filas las clases reales y por columnas las clases predichas.

    Los aciertos los podemos ver en violeta y coinciden con la diagonal de la matriz. Estos seran los

    valores tenidos en cuenta para calcular el error multiclase M . En este caso, tenemos exactamente

    79 aciertos, entre 118 ejemplos a clasificar, obtenemos M=0.3305 , es decir, aproximadamente

    uno de cada tres ejemplos clasificados se clasifica incorrectamente.

    A partir de un error en la clasificacin multiclase tan alto, sera de esperar unos errores absolutos

    AE M en cuantificacin con el mtodo CC tambin muy altos. Sin embargo, se produce un efecto de

    compensacin entre los errores. Se puede observar claramente en el caso de los Detritus y las

    Diatomeas. Analizando la matriz de confusin se puede ver como se clasifican 7 de las 57

    diatomeas existentes en el conjunto de prueba como detritus. Por otro lado, 12 de los 33 detritus

    existentes, se clasifican como diatomeas. Claramente estos errores se compensan dando lugar a

    un error AE M mucho ms bajo.

    Pablo Gonzlez Gonzlez Pgina 39 de 53

  • CLASE PREDICHA

    Artefacts Ciliates Crusta. Detritus Diatoms Dino. Flage. Nano. Silicofla. Unclass. T. Real P. Real

    CLAS

    E RE

    AL

    Artefacts 7 0 0 0 0 0 0 0 0 0 7 0,059

    Ciliates 0 0 0 0 0 0 0 0 0 0 0 0

    Crustaceans 0 0 1 1 0 0 0 0 0 1 3 0,025

    Detritus 0 1 0 18 12 0 0 0 0 2 33 0,280

    Diatoms 0 0 1 7 45 0 0 0 0 4 57 0,483

    Dinoflagellates 0 0 0 0 0 0 0 0 0 0 0 0

    Flagelados 0 0 0 0 0 0 0 0 0 0 0 0

    Nanoplankton 0 0 0 0 7 0 0 0 0 0 7 0,059

    Silicoflagellates 0 0 0 0 0 0 0 0 0 0 0 0

    Unclassified 0 0 0 0 3 0 0 0 0 8 11 0,093

    T. Predicha 7 1 2 26 67 0 0 0 0 15 118

    P. Predicha 0,059 0,008 0,017 0,220 0,568 0 0 0 0 0,127

    Tabla 2: Matriz de confusin utilizando la muestra cuatro como conjunto de prueba y el resto de muestras como conjunto de entrenamiento.

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    6.1.3 Adjusted-Count (AC)

    En este experimento probaremos el ajuste descrito en el apartado 5.3.2. Una vez obtenidos los tpr

    y fpr para cada una de las clases, a travs de una validacin general realizada con todos los datos

    etiquetados, realizamos un ajuste segn la ecuacin (1), de los resultados obtenidos en la

    validacin cruzada por muestras. Resaltamos en verde los resultados en los que el mtodo AC se

    comporta mejor que el mtodo CC y en rojo el caso contrario.

    AE M AE M AE M

    Muestra 1 0,0226 Muestra 2 0,0499 Muestra 3 0,0466

    Muestra 4 0,0517 Muestra 5 0,1147 Muestra 6 0,0891

    Muestra 7 0,0324 Muestra 8 0,0462 Muestra 9 0,0158

    Muestra 10 0,0323 Muestra 11 0,0393 Muestra 12 0,0341

    Muestra 13 0,1071 Muestra 14 0,0511 Muestra 15 0,0494

    Muestra 16 0,0196 Muestra 17 0,0463 Muestra 18 0,0307

    Muestra 19 0,0323 Muestra 20 0,0247 Muestra 21 0,0381

    Muestra 22 0,0535 Muestra 23 0,0328 Muestra 24 0,0651

    Muestra 25 0,0982 Muestra 26 0,0252 Muestra 27 0,0221

    Muestra 28 0,0390 Muestra 29 0,0226 Muestra 30 0,0249

    Muestra 31 0,0335 Muestra 32 0,0304 Muestra 33 0,0712

    Muestra 34 0,0149 Muestra 35 0,0174 Muestra 36 0,0191

    Muestra 37 0,0244 Muestra 38 0,0332 Muestra 39 0,0230

    Tabla 3: Error absoluto por muestras para el mtodo AC

    El error medio absoluto para todas las muestras es 0.0416. Este error es superior al obtenido por el

    mtodo CC directamente, que es 0.0354. Podemos concluir por tanto que este tipo de ajuste no

    mejora los resultados en este problema concreto con respecto al mtodo CC.

    Pablo Gonzlez Gonzlez Pgina 41 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    En la Ilustracin 12 se muestran los resultados grficamente para 12 de las 39 muestras de nuestro

    problema.

    Pablo Gonzlez Gonzlez Pgina 42 de 53Ilustracin 12: Resultados para el mtodo AC para 12 de las 39 muestras

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    6.1.4 Ajuste para problemas multiclase

    En este experimento se tendr en cuenta lo descrito en el apartado 5.4.4. Los resultados se

    muestran en la tabla siguiente. De nuevo, resaltamos en verde los valores que mejoran al mtodo

    CC y al mtodo AC y en rojo, las muestras en las que este ajuste funciona peor.

    AE M AE M AE M

    Muestra 1 0,0135 Muestra 2 0,0310 Muestra 3 0,0358

    Muestra 4 0,0295 Muestra 5 0,0828 Muestra 6 0,0665

    Muestra 7 0,0141 Muestra 8 0,0266 Muestra 9 0,0165

    Muestra 10 0,0107 Muestra 11 0,0346 Muestra 12 0,0257

    Muestra 13 0,0950 Muestra 14 0,0355 Muestra 15 0,0266

    Muestra 16 0,0146 Muestra 17 0,0254 Muestra 18 0,0166

    Muestra 19 0,0273 Muestra 20 0,0152 Muestra 21 0,0438

    Muestra 22 0,0534 Muestra 23 0,0180 Muestra 24 0,0543

    Muestra 25 0,0937 Muestra 26 0,0260 Muestra 27 0,0246

    Muestra 28 0,0283 Muestra 29 0,0223 Muestra 30 0,0261

    Muestra 31 0,0215 Muestra 32 0,0348 Muestra 33 0,0535

    Muestra 34 0,0130 Muestra 35 0,0149 Muestra 36 0,0165

    Muestra 37 0,0187 Muestra 38 0,0069 Muestra 39 0,0278

    En este caso, el error absoluto medio para todas las muestras obtenido por el mtodo es 0.0318,

    rebajando el error absoluto en cuantificacin en un punto porcentual con respecto al mtodo AC y

    en medio punto con respecto al mtodo CC.

    En la imagen 13 se pueden observar las grficas correspondientes a 12 muestras de las 39

    existentes utilizando el ajuste multiclase. Aunque la diferencia con los dos otros mtodos es

    Pablo Gonzlez Gonzlez Pgina 43 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    pequea, si es posible ver como la prevalencia real y la prevalencia estimada, en muchos puntos

    coincide perfectamente.

    Pablo Gonzlez Gonzlez Pgina 44 de 53

    Ilustracin 13: Grficas del ajuste multiclase realizado para 12 de las 39 muestras

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    7 ConclusionesEn este TFM hemos tratado de resolver un problema de cuantificacin de muestras de plancton.

    Para ello hemos tenido que trabajar con fotografas provenientes directamente de un dispositivo de

    captura automtica (FlowCam).

    En la primera parte del trabajo se ha tratado la problemtica de obtener un vector de caractersticas

    robusto para describir cada una de las imgenes de nuestro conjunto de datos. Para obtener este

    vector de caractersticas se analizaron las tcnicas utilizadas en problemas similares descritas en

    varios artculos de investigacin. Se ha intentado crear un vector de caractersticas robusto a partir

    tcnicas de visin artificial muy diversas. El enfoque empleado ha sido intentar utilizar tanto

    descriptores de textura como de forma, de manera que el vector de caractersticas resultante

    contuviese informacin muy diversa de la imagen. La ventaja de utilizar diferentes tcnicas es que

    si un tipo de plancton no puede ser diferenciado por una tcnica concreta, podr ser diferenciado

    por otra. En diferentes experimentos realizados he comprobado que la utilizacin de tcnicas

    variadas no empeora nunca los resultados debido a que el clasificador (SVM) es capaz de dar

    menos peso a los atributos que aportan menos para diferenciar los ejemplos. En este caso se han

    utilizado slo tcnicas que haban funcionado en otros problemas y se ha obtenido un vector de

    caractersticas con un tamao razonable (148 caractersticas).

    Posteriormente se han analizado diferentes tcnicas con el objetivo de resolver el problema de la

    cuantificacin para poder estimar los porcentajes de ejemplos de cada una de las clases en una

    muestra de plancton. El primer obstculo al que nos hemos enfrentado al realizar el trabajo ha sido

    la escasez de trabajos de investigacin en los que se aborde el problema de la cuantificacin

    multiclase. La cuantificacin es un problema bastante reciente y el nmero de artculos cientficos

    dedicados especficamente a este campo es muy limitado. El trabajo realizado por Forman, incluye

    una parte en la que analiza brevemente la cuantificacin multiclase [11] pero sin profundizar ni

    realizar una buena experimentacin para poder analizar sus resultados.

    Una vez estudiados los trabajos previos, se ha desarrollado una parte terica en la que se estudia

    Pablo Gonzlez Gonzlez Pgina 45 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    la cuantificacin multiclase y se ha descubierto un problema con el que los cuantificadores binarios

    no tienen que lidiar: la compensacin de errores. En los artculos de Forman se proponen una serie

    de ajustes que, utilizando la tasa de falsos positivos y la tasa de falsos negativos, ajustan el

    resultado obtenido por el clasificador con el objetivo de compensar los errores cometidos por el

    clasificador y mejorar as los resultados en cuantificacin. En problemas multiclase esto no resulta

    tan sencillo ya que puede que se estn fallando ejemplos (error alto en clasificacin multiclase),

    pero que debido a la compensacin de errores, el error cuantificando sea muy pequeo. En esta

    situacin, el ajuste realizado propuesto por Forman parece que es en realidad contraproducente y

    empeora los resultados sobre el mtodo bsico de clasificar y contar.

    Otra posible razn para explicar porqu el ajuste de Forman no funciona es la existencia de varios

    tipos de dataset-shift en el conjunto de datos que manejamos. Es importante recordar que el ajuste

    de Forman tiene como condicin inicial que solamente exista prior-shift en el conjunto de datos, es

    decir, cambios en la distribucin de las clases de los ejemplos. Realmente, en un conjunto de datos

    real como ste, es muy difcil garantizar esta condicin. Uno de los factores principales puede ser la

    eleccin de las clases del problema. Las clases han sido elegidas segn grupos taxonmicos

    generales que resultan interesantes para posteriormente realizar anlisis que tengan algn tipo de

    inters desde un punto de vista biolgico. El problema al que nos lleva esto, es que pueden existir

    clases dentro de las cuales hay elementos agrupados pertenecientes a subclases diferentes. Por

    ejemplo, dentro de la categora general diatomeas, tenemos agrupados todo tipo de ejemplos que

    pueden pertenecer a cualquiera de las subgrupos taxonmicos que existen por debajo de las

    diatomeas. Los ejemplos de cada uno de estos subgrupos tienen unas caractersticas morfolgicas

    diferentes (que se traducen en un vector de caractersticas diferente), pero todos estn englobados

    bajo nuestra clase diatomea. Situaciones como la descrita aqu, ocurren con bastante probabilidad

    en este conjunto de datos, suponiendo una razn ms para que el ajuste de Forman no sea el ms

    adecuado para este sistema de cuantificacin automtico.

    Una vez comprobado experimentalmente que el ajuste propuesto por Forman no funciona de

    manera adecuada en este problema, se ha pensado en un nuevo ajuste con el objetivo de mejorar

    los resultados obtenidos. La idea principal de este ajuste es tener en cuenta nicamente la

    Pablo Gonzlez Gonzlez Pgina 46 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    tendencia del clasificador a predecir ejemplos de una determinada clase. Si el clasificador tiende a

    clasificar ms ejemplos de una clase de los que en realidad hay, ajustamos el resultado a la baja,

    suponiendo que esta tendencia se observar tambin ante una nueva muestra que sea clasificada

    por nuestro sistema. Lo mismo suceder en el caso contrario, si el clasificador tiende a subestimar

    el nmero de ejemplos de una clase determinada, ajustaremos al alza proporcionalmente la

    prevalencia de esa clase en el conjunto de prueba.

    En los experimentos realizados, se ha podido comprobar como este ajuste funciona mejor que el

    ajuste propuesto por Forman y tambin funciona mejor que el mtodo bsico de clasificar y contar.

    Es importante recordar que las pruebas se han hecho realizando una validacin cruzada

    manualmente por muestras. Se intenta de esta manera simular al mximo el uso de este sistema

    en un caso real en el que tendremos que clasificar una nueva muestra obtenida por la FlowCam.

    Adems, como se ha visto a lo largo del trabajo, la distribucin de ejemplos de cada muestra es

    totalmente variable por lo que es necesario incluir esta premisa directamente en los experimentos si

    queremos que estos representen de alguna manera a la aplicacin real de un trabajo de este tipo.

    7.1 Trabajo futuroEste trabajo no ha hecho ms que plantear las bases de la cuantificacin multiclase. Una posible

    ampliacin del mismo sera la realizacin de ajustes ms complejos que representasen mejor la

    compensacin de errores producida y de esta forma, mejorasen los resultados obtenidos. Tambin

    se podran probar diferentes mtodos de cuantificacin que se estn desarrollando actualmente,

    amplindolos para cubrir la cuantificacin multiclase. El problema de este enfoque es que la mayor

    parte de los algoritmos de clasificacin multiclase trabajan por debajo con un clasificador binario.

    De esta manera, es difcil tener en cuenta la compensacin de errores producida entre las clases.

    Sera necesario investigar algoritmos que tratasen de manera directa la clasificacin multiclase y

    tratar de modificarlos para optimizar las medidas de cuantificacin en lugar de las de clasificacin.

    Otra posible campo de estudio es la cuantificacin por costes. Es decir, en lugar de cuantificar el

    nmero de ejemplos que pertenecen a cada clase, tratar de cuantificar una medida determinada de

    cada uno de estos ejemplos. Se podra considerar en este caso que cada ejemplo tiene una

    Pablo Gonzlez Gonzlez Pgina 47 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    biomasa determinada asociada. El objetivo del cuantificador sera entonces estimar la cantidad de

    biomasa existente en cada grupo taxonmico (clase). En este planteamiento, cuantificar

    correctamente los ejemplos con mayor biomasa es prioritario ya que afectarn en mayor medida a

    las medidas de biomasa de clase en cuestin.

    Pablo Gonzlez Gonzlez Pgina 48 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    8 Anexo I FIT_Diameter.ABD. Nmero de pxeles despus de convertir la imagen a binaria. (real >

    0) .

    FIT_Diameter.ESD. Dimetro calculado como la media de las medidas de Feret tomadas

    cada 5 (36 medidas). (real > 0) .

    FIT_Length. El valor mximo de las 36 medidas de Feret. (real > 0) .

    FIT_Width. El valor mnimo de las 36 medidas de Feret. (real > 0) .

    FIT_Aspect.Ratio. Aspecto de la partcula calculado como FIT_Length/FIT_Width. (real [0,

    1]).

    FIT_Transparency. Calculado como 1 (ABD Diameter / ESD Diameter). (real [0, 1]). 0 es el

    valor para un crulo relleno; valores cerca de uno son para partculas alargadas, formas

    irregulares, o formas que tienen muchos huecos interiores.

    FIT_Intensity. El valor medio de los pxeles en escalada de grieses que forman la partcula.

    (real [0, 255]). 255 sera el valor ms intenso.

    FIT_Sigma.Intensity. Desviacin estndar de los valores de los pxeles en escala de grises.

    (real 0) .

    FIT_Sum.Intensity. Suma de todos los valores de los pxeles en escala de grises. (real > 0) .

    FIT_Compactness. Es un atributo de forma derivado del permetro y del area. La frmula

    aplicada es: perimeter4xPIxArea

    . Cuanto ms complicada y enrevesada sea la forma, mayor ser

    el valor (real 1).

    FIT_Elongation. Medida de la elongacin de la partcula basada en el permetro y el rea,

    suponiendo que rea = longitud x anchura y Permetro = 2(longitud + anchura). (real 1; 1

    es el valor para un crculo o un cuadrado; valores mayores corresponden a partculas

    estiradas) .

    Pablo Gonzlez Gonzlez Pgina 49 de 53

  • Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

    Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

    FIT_Perimeter. Longitud total de los bordes de la partcula, incluyendo la longitud de los

    bordes de los huecos. (real > 0) .

    FIT_Convex.Perimeter. Una aproximacin del permetro a travs de la envolvente convexa

    de la partcula. Derivada de las medidas de Feret. (real > 0) .

    FIT_Roughness. Medida de la irregularidad del permetro de una partcula. (real 1).

    FIT_Avg.Red. Valor medio de los pxeles rojos de la imagen. (real [0, 255]; 255 sera rojo

    intenso) .

    FIT_Avg.Green. Valor medio de los pxeles verdes de la imagen (real [0, 255]; 255 es verde

    intenso) .

    FIT_Avg.Blue. Valor medio de los pxeles azules de la imagen. (real [0, 255]; 255 es azul

    intenso) .

    FIT_Ratio.Red.Green. FIT_Avg.Red / FIT_Avg.Green. (real 0) .

    FIT_Ratio.Blue.Green. FIT_Avg.Blue / FIT_Avg.Green. (real 0) .

    FIT_Ratio