7
Resumen-- En este artículo se presenta una técnica de análisis de imagen para la detección de proteínas en imágenes de geles 2D, muy utilizadas en proteómica. Esta técnica se basa en combinar un operador de segunda derivada DoG con un algoritmo genético para el ajuste de sus parámetros. Esta técnica se ha probado comparando diferentes funciones de fitness en el algoritmo genético para reducir el número de falsos positivos detectados. Los resultados observados muestran que el algoritmo genético es capaz de optimizar los parámetros del operador DoG para la detección de proteínas en imágenes de electroforesis bidimensional, pero es necesario ajustar la función de fitness para reducir la detección de falsos positivos. Palabras clave—diferencia de gaussianas, visión por computador, computación evolutiva I. INTRODUCCIÓN Muchas enfermedades se manifiestan a nivel proteico, de modo que la información genética por si sola es insuficiente para predecir los perfiles de las proteínas de una muestra (tejido, célula o fluido). La manifestación de muchas de las patologías más comunes se produce a nivel proteómico, de manera que haciendo un estudio de las diferencias de expresión entre el mapa de proteínas de un conjunto de ejemplos sanos y el mapa de proteínas de un conjunto de ejemplos enfermo, se pueden realizar estudios de asociación en busca de relaciones estadísticas entre un determinado patrón de expresión proteico de ejemplo y uno con una enfermedad particular. Existen múltiples técnicas para separar proteínas de una muestra, entre las que se encuentran la espectrometría de masas y las imágenes de electroforesis bidimensional. La electroforesis bidimensional permite la separación de una proteína particular en una mezcla proteica compleja. La separación se hace en dos etapas, en la primera las proteínas son separadas en función de su carga a lo largo del gel con gradiente de pH, alcanzando un valor de pH igual a su punto isoeléctrico. En la segunda etapa las proteínas son separadas entre sí en función de su masa molecular. El flujo de trabajo habitual en un análisis de imagen 1,2,3,4 Departamento de Tecnologías de la información y las comunicaciones. Facultad Informática. Universidade da Coruña. Campus de Elviña S/N 15071. A Coruña. 1 E-mail: [email protected] 2 E-mail: [email protected] 3 E-mail: [email protected] 4 E-mail: [email protected] de electroforesis bidimensional comienza con la detección de proteínas en la imagen a estudio, seguido de la fase de emparejamiento de proteínas para terminar con el análisis estadístico de las diferencias de expresión entre ambas proteínas. A partir de este punto, es posible realizar estudios de asociación que traten de establecer las relaciones estadísticas entre la expresión proteómica de un subconjunto de una población y un fenotipo [1]. Este trabajo se centra en la optimización de la primera fase del flujo de trabajo del análisis de imágenes de electroforesis bidimensional que es la detección de las proteínas. Muchos de los métodos actuales revisados, proponen algoritmos simples para la detección de proteínas, pero la sencillez de estos métodos provoca que se produzcan un elevado número de falsos positivos [2]. El descarte de estos falsos positivos por parte de los clínicos que estudian las imágenes, es una labor muy tediosa [3] y que aumenta de manera innecesaria el coste computacional del proceso, debido principalmente a que estas imágenes pueden tener cientos de proteínas [4]. Existen una variedad de paquetes de software que permiten realizar la detección de los spots que representan las proteínas en las imágenes a estudio [5]. Muchos de estos paquetes software implementan métodos de segmentación de imagen basados en algoritmos de detección de bordes con suavizado de la imagen u operadores morfológicos [6], algoritmo watershed [7] o algoritmos geométricos [8]. De los métodos revisados el que introduce un menor número de falsos positivos está basado en la detección de spots en las imágenes de electroforesis haciendo uso de información de superficie en la imagen y no en valores de intensidad de sus píxeles [9]. Se utilizará este método para validar el trabajo propuesto, ya que los clínicos, para evitar la detección de falsos positivos, comienzan a estudiar las imágenes siendo muy restrictivos con los parámetros de volumen e intensidad a partir de los cuales se considera un spot como proteína en la imagen. El método que se propone en este trabajo pretende ser lo más conservador posible en cuanto a la detección de proteínas, para además incrementar su robustez y reducir la complejidad computacional. El método hace uso de un algoritmo genético para la optimización de los parámetros de una técnica de detección de proteínas basada en el operador de segunda derivada diferencia de gaussianas (DoG) y su viabilidad para la detección Identificación de proteínas en imágenes de geles 2D utilizando DoG y algoritmos genéticos Carlos Fernández-Lozano 1 , José Antonio Seoane 2 , Alberto Alvarellos 3 , Julián Dorado 4

Identificación de proteínas en imágenes de geles 2D ...simd.albacete.org/maeb2012/papers/paper_82.pdf · operador de segunda derivada diferencia de gaussianas (DoG) y su viabilidad

  • Upload
    ledat

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Identificación de proteínas en imágenes de geles 2D ...simd.albacete.org/maeb2012/papers/paper_82.pdf · operador de segunda derivada diferencia de gaussianas (DoG) y su viabilidad

Resumen-- En este artículo se presenta una técnica de análisis de imagen para la detección de proteínas en imágenes de geles 2D, muy utilizadas en proteómica. Esta técnica se basa en combinar un operador de segunda derivada DoG con un algoritmo genético para el ajuste de sus parámetros. Esta técnica se ha probado comparando diferentes funciones de fitness en el algoritmo genético para reducir el número de falsos positivos detectados. Los resultados observados muestran que el algoritmo genético es capaz de optimizar los parámetros del operador DoG para la detección de proteínas en imágenes de electroforesis bidimensional, pero es necesario ajustar la función de fitness para reducir la detección de falsos positivos. Palabras clave—diferencia de gaussianas, visión por

computador, computación evolutiva

I. INTRODUCCIÓN Muchas enfermedades se manifiestan a nivel

proteico, de modo que la información genética por si sola es insuficiente para predecir los perfiles de las proteínas de una muestra (tejido, célula o fluido). La manifestación de muchas de las patologías más comunes se produce a nivel proteómico, de manera que haciendo un estudio de las diferencias de expresión entre el mapa de proteínas de un conjunto de ejemplos sanos y el mapa de proteínas de un conjunto de ejemplos enfermo, se pueden realizar estudios de asociación en busca de relaciones estadísticas entre un determinado patrón de expresión proteico de ejemplo y uno con una enfermedad particular. Existen múltiples técnicas para separar proteínas de una muestra, entre las que se encuentran la espectrometría de masas y las imágenes de electroforesis bidimensional.

La electroforesis bidimensional permite la separación de una proteína particular en una mezcla proteica compleja. La separación se hace en dos etapas, en la primera las proteínas son separadas en función de su carga a lo largo del gel con gradiente de pH, alcanzando un valor de pH igual a su punto isoeléctrico. En la segunda etapa las proteínas son separadas entre sí en función de su masa molecular. El flujo de trabajo habitual en un análisis de imagen 1,2,3,4 Departamento de Tecnologías de la información y las comunicaciones. Facultad Informática. Universidade da Coruña. Campus de Elviña S/N 15071. A Coruña. 1 E-mail: [email protected] 2 E-mail: [email protected] 3 E-mail: [email protected] 4 E-mail: [email protected]

de electroforesis bidimensional comienza con la detección de proteínas en la imagen a estudio, seguido de la fase de emparejamiento de proteínas para terminar con el análisis estadístico de las diferencias de expresión entre ambas proteínas. A partir de este punto, es posible realizar estudios de asociación que traten de establecer las relaciones estadísticas entre la expresión proteómica de un subconjunto de una población y un fenotipo [1].

Este trabajo se centra en la optimización de la primera fase del flujo de trabajo del análisis de imágenes de electroforesis bidimensional que es la detección de las proteínas. Muchos de los métodos actuales revisados, proponen algoritmos simples para la detección de proteínas, pero la sencillez de estos métodos provoca que se produzcan un elevado número de falsos positivos [2]. El descarte de estos falsos positivos por parte de los clínicos que estudian las imágenes, es una labor muy tediosa [3] y que aumenta de manera innecesaria el coste computacional del proceso, debido principalmente a que estas imágenes pueden tener cientos de proteínas [4]. Existen una variedad de paquetes de software que permiten realizar la detección de los spots que representan las proteínas en las imágenes a estudio [5]. Muchos de estos paquetes software implementan métodos de segmentación de imagen basados en algoritmos de detección de bordes con suavizado de la imagen u operadores morfológicos [6], algoritmo watershed [7] o algoritmos geométricos [8]. De los métodos revisados el que introduce un menor número de falsos positivos está basado en la detección de spots en las imágenes de electroforesis haciendo uso de información de superficie en la imagen y no en valores de intensidad de sus píxeles [9]. Se utilizará este método para validar el trabajo propuesto, ya que los clínicos, para evitar la detección de falsos positivos, comienzan a estudiar las imágenes siendo muy restrictivos con los parámetros de volumen e intensidad a partir de los cuales se considera un spot como proteína en la imagen. El método que se propone en este trabajo pretende ser lo más conservador posible en cuanto a la detección de proteínas, para además incrementar su robustez y reducir la complejidad computacional.

El método hace uso de un algoritmo genético para la optimización de los parámetros de una técnica de detección de proteínas basada en el operador de segunda derivada diferencia de gaussianas (DoG) y su viabilidad para la detección

Identificación de proteínas en imágenes de geles 2D utilizando DoG y algoritmos genéticos

Carlos Fernández-Lozano1, José Antonio Seoane2, Alberto Alvarellos3, Julián Dorado4

Page 2: Identificación de proteínas en imágenes de geles 2D ...simd.albacete.org/maeb2012/papers/paper_82.pdf · operador de segunda derivada diferencia de gaussianas (DoG) y su viabilidad

de proteínas en una imagen de electroforesis bidimensional. Es una técnica utilizada para la detección de bordes, caracterizados por un gran cambio en el nivel de gris entre un lado y el otro de los mismos, mediante el uso de gradientes o derivadas que cuantifican estos cambios.

En este tipo de imágenes se van a encontrar regiones de interés de diferentes formas, tamaños e intensidades que se corresponden con las proteínas de la muestra. Uno de los mayores inconvenientes de trabajar con imágenes en escala de grises es que no disponen de información de color. El color se considera un componente esencial en la discriminación entre objetos en una imagen. Existen trabajos en los que se intenta extender un método de detección en blanco y negro, al dominio del color, donde los autores exploran la correlación existente entre planos de color [10].

II. MÉTODOS

A. Diferencia de Gaussianas Se trata de una técnica de visión artificial para la

detección de bordes que hace uso de un filtro basado en el operador de la laplaciana (LoG), de segunda derivada. Los métodos de segunda derivada de una función buscan los puntos de cruce por cero de la función, indicando la presencia de un máximo. Estos métodos son muy susceptibles al ruido, por lo que requieren un filtrado. La ganancia que se produce en el dominio de la frecuencia incrementa cuadráticamente con la frecuencia, causando que los componentes de ruido de alta frecuencia se amplifiquen significativamente. Es por esto que no es utilizado directamente para la detección de bordes.

Se utiliza un filtro gaussiano para suavizar la imagen primero, y posteriormente se realzan los bordes usando un operador laplaciano. Este operador es simétrico, por lo que los ejes se encuentran en todas las direcciones, cosa que no pasa con los operadores de primera derivada, que son direccionales. El operador LoG es isotrópico, ya que es un operador que se aplica independientemente de la dirección de la discontinuidad en la imagen, y tiene valores positivos y negativos.

El laplaciano de una imagen destaca regiones de una imagen en las que se producen cambios notables de intensidad, es por ello que se usa en la detección de bordes, siendo L(x,y) el laplaciano de una imagen e I(x,y) los valores de intensidad de cada pixel de la imagen, se define el laplaciano como

𝐿   𝑥, 𝑦 =𝜕!𝐼𝜕𝑥!

+𝜕!𝐼𝜕𝑦!

                         (1). Para calcular el laplaciano de una imagen se

procede de la siguiente manera

• Primero se suaviza la imagen con la convolución de un kernel gaussiano 2-D por la imagen. Una función gaussiana con dos dimensiones y con igual varianza en las dos dimensiones, se define como

𝑘𝑒𝑟𝑛𝑒𝑙 =   !!!!!

𝑒!!!!!!

!!! (2) • Después se calculan las derivadas sobre la

imagen suavizada, de forma que

𝐿𝑜𝐺 =  − !!!!!!!!!

!!𝑒!

!!!!!

!!!                    (3).

El cálculo del LoG tiene un alto coste computacional, por lo que se puede aproximar su valor con el operador DoG [11], dicho operador se calcula como la diferencia de dos gaussianas con diferentes desviaciones estándar,

𝐷𝑜𝐺 =   !!!

!!!𝑒! !!!!!

!!!! − !

!!𝑒! !!!!!

!!!! (4).

Se ha utilizado un método de detección de

bordes para la detección de proteínas en imágenes de electroforesis bidimensional debido a que el sistema visual del ser humano es especialmente sensible a los bordes y las diferencias de gradientes. Hay estudios que indican que la detección de bordes juega un rol muy importante en la detección de objetos y en el análisis de la escena que se está visualizando [11] y [12].

En la naturaleza, los bordes así como otras estructuras de imagen, son multiescalados. Desde los primeros trabajos que usaban un suavizado Gaussiano multiescaladado [13], esta técnica ha crecido paulatinamente y evolucionado hacia un campo por sí misma. Esta teoría afirma que bajo un conjunto de condiciones poco severas, la función Gaussiana es la única que genera señales multiescalares. Marr y Hildreth [11] y [12] sugirieron que los fenómenos físicos deben ser estudiados a través de múltiples canales con diferentes tamaños espaciales o escalas. De esta manera, un cambio de intensidad debido a un fenómeno físico se manifiesta con la presencia de segmentos que implican un cruce por cero de la señal sobre un cierto número de escalas. Estos segmentos tienen la misma posición y orientación en cada canal estudiado. Un cambio significativo de intensidad indica la presencia de un borde físico, y es reconocido como un único fenómeno físico. El modelo propuesto por Marr y Hildreth [11] lleva al desarrollo de sistemas de detección de bordes basados en un análisis multiescalar realizado con filtros de diferentes escalas.

Witkin introdujo el concepto de escala espacial [13] en su propuesta de un método para obtener

Page 3: Identificación de proteínas en imágenes de geles 2D ...simd.albacete.org/maeb2012/papers/paper_82.pdf · operador de segunda derivada diferencia de gaussianas (DoG) y su viabilidad

información de una imagen a través de un conjunto continuo de escalas. El espacio escalar ψ(x,y;σ) de una imagen f(x,y) se define como todos los cruces por cero de su función LoG.

ψ 𝑥, 𝑦;𝜎 = 𝑥, 𝑦;𝜎 |𝜁 𝑥, 𝑦;𝜎 = 0,        (5)

𝜕𝜁𝜕𝑥

!+ 𝜕𝜁

𝜕𝑦

!≠ 0, 𝑠𝑖𝑒𝑛𝑑𝑜  𝜎 > 0, (6)

donde 𝜁 𝑥, 𝑦;𝜎 =   ∇!𝑔 𝑥, 𝑦;𝜎 ∗ 𝑓 𝑥, 𝑦 .                  (7) El valor que puede tomar σ varía desde 0 hasta

∞ por lo que el conjunto ψ{(x,y;σ)} forma superficies continuas en el espacio escalar (x,y;σ). Se ha comprobado que en el espacio escalar casi todas las imágenes filtradas por un gaussiana determinan la señal de manera única con una constante espacial. Esta afirmación es importante en tanto en cuanto no se produce pérdida de información al trabajar sobre un espacio escalar. El incremento dentro de ciertos límites de σ no crea nuevos cruces por cero y es el único filtro que se comporta de esta manera [14]. El coste computacional al trabajar con señales bidimensionales es más elevado que al trabajar con señales unidimensionales, debido a que no existe una región topológica simple de cruces por cero asociada, sino que se debe realizar el seguimiento de una superficie de cruces por cero entre diferentes escalas.

Basándose en lo expuesto anteriormente, el método propuesto en este trabajo opera de la siguiente manera: • Se establecen el número de gaussianas que se

utilizarán para filtrar la imagen. Esto es, el número de escalas

• Se establece el valor de σ de la primera gaussiana

• Se estable el valor de escalado de cada nueva gaussiana. Se aplicará sobre el valor σ de la anterior, resultado en un nuevo valor mayor. Al convolucionar un kernel con σ de pequeño valor, se consigue destacar todos los bordes de la imagen, se trabaja a escala fina y es más sensible al ruido. Al ir incrementando el valor de σ en el espacio escalar la señal se va suavizando y termina por destacar el borde más significativo, se suprimen los detalles finos.

• Se modifica el tamaño del kernel para cada nueva iteración del operador. Teniendo en cuenta que en una distribución gaussiana y siguiendo la regla de Chebyshev, que dice que el 99,7% de los resultados se encuentran a 3 desviaciones estándar de la media, se calcula el radio como

𝑟!"#$"% = 3𝜎 (8) y el tamaño del kernel como

𝑡𝑎𝑚𝑎ñ𝑜!"#$"% = 2𝑟!"#$"%. (9)

Al tamaño del kernel, para asegurarse de que el

centro está bien definido en el caso impar, se le suma uno. De modo que el tamaño del kernel se calcula para cada nueva escala según la fórmula

𝑡𝑎𝑚𝑎ñ𝑜!"#$"% = 3𝜎. 2 + 1 (10)

• Se busca para cada pixel de la imagen el valor

máximo entre todas las escalas que surgen de aplicar el operador sobre la imagen.

• Se establece el valor umbral que determinará, en función del valor máximo encontrado, si se considera al pixel susceptible de pertenecer a una proteína en la imagen o no.

• Se intenta buscar una región común de interés entre los pixeles detectados. Dicha región debe ser conectada y corresponde a una proteína.

• Se calcula el centroide de la región conectada y se establece como el centro de la proteína detectada

B. Algoritmos genéticos Como ya es conocido los algoritmos genéticos

son métodos adaptativos que se usan generalmente para resolución de problemas de búsqueda y optimización de parámetros, están basados en la evolución y en el principio de supervivencia del individuo más apto [15]. Para alcanzar la solución a un problema se parte de un conjunto inicial de individuos, llamado población y generado de manera aleatoria. Cada uno de estos individuos, representa una posible solución al problema. Al conjunto de parámetros que dan solución a un problema se le conoce como gen. El conjunto de los parámetros representados por un gen particular recibe el nombre de genotipo. Todo individuo de la población, tiene asociado un valor de ajuste de acuerdo a la bondad de la solución que representa, denominado fenotipo. Sobre esta población a lo largo del proceso de evolución se aplican en cada generación una serie de operadores, denominados selección, cruce y mutación. Los algoritmos de selección son los encargados de seleccionar los individuos que van a tener oportunidad para reproducirse a la hora de generar futuras poblaciones de individuos. Una vez son seleccionados los individuos, estos son recombinados para producir la descendencia que se insertará en la siguiente generación, utilizando la operación de cruce. El operador mutación provoca que alguno de los genes del individuo varíe su valor, enriqueciendo la diversidad genética de la población y evitando su degeneración.

Page 4: Identificación de proteínas en imágenes de geles 2D ...simd.albacete.org/maeb2012/papers/paper_82.pdf · operador de segunda derivada diferencia de gaussianas (DoG) y su viabilidad

C. Optimización de la detección de spots Ambos métodos se han utilizado de manera

conjunta para la detección de spots en imágenes de electroforesis bidimensional. La técnica de visión artificial que se ha utilizado dispone de varios parámetros que es necesario configurar. Los algoritmos genéticos permiten la optimización de los parámetros de la función que pretenden optimizar.

Se creó un genotipo de individuo para la población del algoritmo genético cuyos genes eran los parámetros del método DoG que se pretendía optimizar. Durante el desarrollo de las pruebas se fueron probando diferentes funciones de fitness, tratando de buscar la minimización de las distancias de los spots detectados por el DoG con respecto a las proteínas detectadas por el método basado en información de superficie [9]. Se incluyeron en esta función parámetros que limitaban el número de spots detectados, para que se ajustasen al número referencia, ya que la finalidad de este trabajo era eliminar lo máximo posible el número de falsos positiva detectados.

El genotipo utilizado en este trabajo estaba compuesto por 4 genes, con valores reales. Estos valores se encontraban en el rango [0,1]. Tres de estos genes fueron normalizados entre un valor mínimo y máximo a un nuevo rango de valores, haciendo que

𝑣! =

𝑣 −min  (𝑟)max 𝑟 −min  (𝑟)

∗ max 𝑟! −min 𝑟! +min  (𝑟!)

(11)

siendo v el valor a normalizar, v’ el valor normalizado, r el rango de valores inicial y r’ el rango de valores final.

Cada uno de los genes tiene su propio rango de valores. Estos genes son los que se corresponden con el número de escalas que se calcularán, que toma valores enteros en el rango [2,5], el valor de sigma de la primera Gaussiana, que toma valores reales en el rango [1,20] y el valor de escalado de cada nueva gaussiana, que estará en el rango de valores reales entre [0.5,2] . El gen que se deja en el rango de valores reales [0,1] es el que sirve para el cálculo de porcentaje umbral con respecto al valor máximo de gris de cada pixel, para considerar al pixel susceptible de ser considerado integrante de una proteína en la imagen.

El método propuesto en este trabajo toma el centro de la proteína como el centroide de la región de interés detectada, mientras que el método basado en información de superficie [9] toma el centro de la proteína detectada como el punto de la imagen al que los píxeles cercanos migran en busca de la máxima pendiente, hasta llegar a un punto de equilibrio, de tal manera que todos los píxeles cuyo

punto de partida esté en la pendiente de un pico, migrarán hasta él. De esta forma, el número de píxeles que migren hasta el pico será igual a la superficie del spot. Se puede de este modo detectar un spot en función de información de superficie.

La detección del centro de la proteína de manera diferente en ambos métodos, hace que se pueda dar un error en el cálculo de las distancias mínimas entre spots detectados, como puede verse en la figura 1, aunque ambos métodos estén detectando el mismo spot en el gel.

Fig. 1. a) Proteína de la imagen. b) Centro detectado por [9]

c) Centro detectado por este trabajo.

III. EXPERIMENTACIÓN Y RESULTADOS

A. Configuración del AAGG El algoritmo de selección utilizado por el

algoritmo genético es el de selección por torneo. Es bien conocido que el algoritmo de selección por ruleta tiene una serie de inconvenientes que son [16]: • El peligro de convergencia prematura porque

los mejores individuos de la población, la dominan muy rápidamente. Esto se conoce como potenciación de la creación de super individuos y se debe a la fuerte presión selectiva que aplica el operador de selección por ruleta cuando tienes un individuo que es mucho mejor que los demás de la población. Lo que se consigue es que el resto de los individuos tengan muy pocas oportunidades de ser seleccionados para reproducirse.

• En caso de que los valores de la función objetivo estén muy cercanos, se produce una baja presión selectiva, de tal manera que si existe muy poca diferencia en el valor de bondad de varios individuos, todos reciben una probabilidad de selección muy parecida.

En cuanto al operador de cruce que se ha utilizado en este trabajo, está demostrado que el cruce en un punto destruye los bloques constructores en codificación binaria, que son los encargados de guiar el paralelismo implícito del algoritmo genético, lo que provoca que el algoritmo no converja adecuadamente [17]. Es por esto que se recomienda utilizar como mínimo un cruce en dos puntos o mejor, un cruce uniforme. Es cierto también, que para codificaciones reales, hacer un cruce en un punto, dos puntos o uniforme no añade nuevo material genético, que es necesario para que se produzca una buena convergencia. No se debe dejar toda la responsabilidad de la variabilidad al operador mutación [17]. Para las codificaciones

Page 5: Identificación de proteínas en imágenes de geles 2D ...simd.albacete.org/maeb2012/papers/paper_82.pdf · operador de segunda derivada diferencia de gaussianas (DoG) y su viabilidad

enteras, no existen trabajos ni recomendaciones en cuanto a qué operador de cruce usar, no se sabe bien cómo afecta la teoría de los esquemas de codificación, aunque en vista de lo ya comentado, lo más indicado parece ser emplear al menos un cruce en dos puntos. Se descarta también el uso de algoritmos de cruce de más de dos puntos según se propone en [18] debido a que el tamaño de la población es reducido y la codificación de sus genes son números reales. Un mayor número de cruces sería contraproducente.

Las funciones de fitness que se han evaluado son las siguientes: • Para cada una de las proteínas de partida, la

función de fitness (f1) determina la mínima distancia que existe a alguna de las proteínas detectadas. Una vez calculada la mínima distancia de todas las proteínas de partida, se calcula la media de los errores.

• Para cada una de las proteínas de partida, la función de fitness (f2) determina la mínima distancia que existe a alguna de las proteínas detectadas. Una vez calculada la mínima distancia de todas las proteínas de partida, se calcula la mediana de los errores.

• Para cada una de las proteínas de partida, la función de fitness (f3) determina la mínima distancia que existe a alguna de las proteínas detectadas. Una vez calculada la mínima distancia de todas las proteínas de partida, se calcula la media de los errores. Se le añade un factor de ponderación para que el número de spot detectados por el método desarrollado sea igual al número de proteínas detectadas por el método basado en información de superficie [9].

• Para cada una de las proteínas de partida, la función de fitness (f4) determina la mínima distancia que existe a alguna de las proteínas detectadas. Una vez calculada la mínima distancia de todas las proteínas de partida, se calcula la mediana de los errores. Se le añade un factor de ponderación para que el número de spot detectados por el método desarrollado sea igual al número de proteínas detectadas por el método basado en información de superficie [9].

El factor que se utiliza para que en las funciones

de fitness f3 y f4 se pondere positivamente si el número de spots detectados es lo más cercano posible al número de spots referencia se define como

𝑓𝑎𝑐𝑡𝑜𝑟 = 100 ∗ 1 − !"#$ !

!"#$ !, (12)

siendo size(d) el número de proteínas detectadas por este método y size(r) el número de proteínas

referencia detectadas por el método basado en información de superficie [9].

Para validar este método como ya se ha indicado, se ha comparado con el método basado en información de superficie [9]. A partir de las coordenadas de los spot detectados en la imagen por dicho método, se calcula la distancia mínima existente con los spots detectados por el método propuesto en este trabajo según la fórmula de Minkowski,

𝐿! 𝑥, 𝑦 = 𝑥! − 𝑦! !!!!!

!! (13),

y en concreto para el caso q=1, conocida como distancia Manhattan.

𝐿! 𝑥, 𝑦 = 𝑥! − 𝑦!!!!! . (14)

En la Tabla I se presentan los resultados

alcanzados por este método. Se muestran para cada una de las funciones de fitness utilizadas el número de proteínas a detectar en la imagen, el número de proteínas correctamente detectadas, el número de proteínas totales detectadas por el método, el error devuelto por la función de fitness como la distancia en píxeles entre los centros detectados. Las imágenes utilizadas en este trabajo son imágenes reales que han sido obtenidas de repositorios de imágenes de electroforesis bidimensional disponibles en la red [19, 20]. En la sección de métodos se explicó que la técnica utilizada para situar el centro de la proteína por este trabajo y el basado en información de superficie [9] son distintas, por lo que se ha usado un parámetro φ que establece la distancia máxima entre los centros de las proteínas detectadas para ser consideradas como la misma.

TABLA I TABLA COMPARATIVA DE RESULTADOS

𝑓 𝑛!"! 𝑛!"# 𝑛!"# 𝑣!"# 𝑣!"# 𝜑 = 4 𝜑 = 6

𝑓1 390 224 316 20125 20,24 4,86 𝑓2 390 176 278 13952 15,9 5 𝑓3 390 81 194 417 53,24 29,81 𝑓4 390 65 178 405 52,93 25,26

Siendo 𝑛!"! el número total de proteínas a

detectar, establecido por el método basado en información de superficie [9], 𝑛!"#el número de proteínas detectadas por este método coincidentes, 𝑛!"#el número de proteínas totales detectadas por este método, 𝑣!"#el valor devuelto por la función de fitness y 𝑣!"#el valor resultado del mejor individuo de la población.

IV. CONCLUSIONES En la sección de pruebas se han presentado los

resultados obtenidos haciendo uso de una técnica de

Page 6: Identificación de proteínas en imágenes de geles 2D ...simd.albacete.org/maeb2012/papers/paper_82.pdf · operador de segunda derivada diferencia de gaussianas (DoG) y su viabilidad

visión artificial para la detección de bordes usando un método de gradiente de segunda derivada que hace uso del operador Diferencia de Gaussianas. Estos resultados muestran cómo esta técnica podría llegar a lograr los mismos resultados en la detección de spots en las imágenes de electroforesis bidimensional que los mostrados por el método basado en información de superficie [9], con un reducido número de falsos positivos, pero es necesario ajustar más la función de fitness del algoritmo genético. Se puede observar que con las funciones de ajuste utilizadas f1 y f2 se detectan muchos falsos positivos, a pesar de que entre los spots detectados se encuentren los verdaderos positivos en diferente índice de acierto. Al aplicar el factor de ajuste del número de spots detectados en f3 y f4, se puede observar que el número de falsos positivos se reduce, pero sigue siendo superior a lo deseado, y que no todos los spots detectados se corresponden con los detectados por el método basado en información de superficie [9], esto es debido a que es más restrictivo con respecto a lo que se considera un spot válido en la imagen que el método propuesto, por lo que a pesar de que este método detecte un spot que fuese válido, no está considerado como tal por el método basado en información de superficie [9]. Estas pruebas demuestran que el método puede usarse para la detección de spots, y que parece ser capaz de detectar como proteínas los mismos spots que el método basado en información de superficie [9], pero que es necesario optimizar la función de fitness para hacer que los spots detectados sean los de referencia.

V. FUTUROS DESARROLLOS Se propone utilizar un método que evalúe cómo

de bien se ajusta el spot detectado en la imagen por este método con una función gaussiana. Este factor se añadiría a la función de fitness como un tercer parámetro a evaluar, además de la distancia mínima y el número de spots. Podría calcularse con una función de ajuste Levenberg Marquardt y una función Gaussiana, al menos bidimensional para reducir el coste computacional, ya que la proteína expresada en la imagen, no tiene por qué tener una forma perfecta de campana de Gauss en todas las dimensiones. A mayor número de dimensiones evaluadas, mayor información de la estructura final de la proteína estudiada. Obteniendo los valores de sigma que hacen que el método basado en información de superficie [9] considere un spot como válido, se podría modificar la función de fitness del algoritmo genético propuesto en este trabajo y comprobar finalmente si el método propuesto es equivalente a éste en términos de falsos positivos.

También podría reducirse el ruido intrínseco de la imagen debido al proceso de electroforesis bidimensional con la utilización de wavelets.

AGRADECIMIENTOS Este trabajo ha sido cofinanciado por la Xunta de

Galicia (Ref. 10SIN105004PR, Ref. 10MDS014CT, Ref. 08MDS003CT, Ref. 08TMT005CT, Ref. 08SIN010105PR), por el Ministerio de Ciencia e Innovación conjuntamente con fondos FEDER (Ref. RD07/0067/005, Ref. TIN2009-07707), el Ministerio de Industria, Turismo y Comercio (Ref. TSI-020110-2009-53) y el programa Iberoamericano de Ciencia y Tecnología para el desarrollo – CYTED (Red Ibero-NBIC 209RT0366).

El trabajo de José A. Seoane está financiado con la beca Isabel Barreto de la dirección general de Investigación, Desarrollo e Innovación de la Xunta de Galicia.

REFERENCIAS 1. Sevilla, S.D., Metodología de los estudios

de asociación genética. Insuficiencia Cardiaca, 2007. 2(3): p. 4.

2. Rogers MD, G.J., Tonge R.P, Hoppe A, Barman S, Ellis T. 2 dimensional electrophoresis gel registration using point matching and local image-based refinement. in British Machine Vision Conference. 2004. University of Kingston: BMVA Press.

3. Almansa A, G.M., Pardo A, Preciozzi J, Processing of 2D Electrophoresis Gels, in International Conference on Computer Vision. Workshop on Computer Vision Applications for Developing Countries. 2007: Brazil.

4. Voss, T. and P. Haberl, Observations on the reproducibility and matching efficiency of two-dimensional electrophoresis gels: consequences for comprehensive data analysis. Electrophoresis, 2000. 21(16): p. 3345-50.

5. Dowsey, A.W., et al., Image analysis tools and emerging algorithms for expression proteomics. Proteomics, 2010. 10(23): p. 4226-57.

6. Raman, B., A. Cheung, and M.R. Marten, Quantitative comparison and evaluation of two commercially available, two-dimensional electrophoresis image analysis software packages, Z3 and Melanie. Electrophoresis, 2002. 23(14): p. 2194-202.

7. Conradsen, K. and J. Pedersen, Analysis of Two-Dimensional Electrophoretic Gels. Biometrics, 1992. 48(4): p. 1273-1287.

8. Efrat, A., et al., Geometric algorithms for the analysis of 2D-electrophoresis gels. J Comput Biol, 2002. 9(2): p. 299-315.

Page 7: Identificación de proteínas en imágenes de geles 2D ...simd.albacete.org/maeb2012/papers/paper_82.pdf · operador de segunda derivada diferencia de gaussianas (DoG) y su viabilidad

9. Langella, O. and M. Zivy, A method based on bead flows for spot detection on 2-D gel images. Proteomics, 2008. 8(23-24): p. 4914-8.

10. Ming, A. and H. Ma, A blob detector in color images, in Proceedings of the 6th ACM international conference on Image and video retrieval. 2007, ACM: Amsterdam, The Netherlands. p. 364-370.

11. Marr, D., S. Ullman, and T. Poggio, Vision: A Computational Investigation Into the Human Representation and Processing of Visual Information. 2010: MIT Press.

12. Marr, D. and E. Hildreth, Theory of edge detection. Proc R Soc Lond B Biol Sci, 1980. 207(1167): p. 187-217.

13. Witkin, A.P., Scale space filtering. International journal conference on artificial intelligence, 1983. 2: p. 3.

14. Yuille, A.L. and T.A. Poggio, Scaling Theorems for Zero Crossings. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 1986. PAMI-8(1): p. 15-25.

15. Fogel, D.B. and I.C.I. Society, Evolutionary computation: toward a new philosophy of machine intelligence. 2006: Wiley.

16. Eiben, A.E. and J.E. Smith, Introduction to evolutionary computing. 2003: Springer.

17. Herrera, F., M. Lozano, and J.L. Verdegay, Tackling Real-Coded Genetic Algorithms: Operators and Tools for Behavioural Analysis. Artificial Intelligence Review, 1998. 12(4): p. 265-319.

18. De Jong, K.A. and W.M. Spears, A formal analysis of the role of multi-point crossover in genetic algorithms. Annals of Mathematics and Artificial Intelligence, 1992. 5(1): p. 1-26.

19. WORLD-2DPAGE-2D PAGE databases and services. Available from: http://www.expasy.ch/ch2d/2d-index.html.

20. GelBank. Available from: http://gelbank.anl.gov.