24
Reconocimiento de patrones emocionales empleando Procesamiento Digital de video. Resumen El reconocimiento de emociones es trabajo de la visión por computadora y sin lugar a dudas un tema de actualidad. Obtener un análisis que nos proporcione pautas para reconocer expresiones faciales como la alegría y la sorpresa, es objetivo del presente proyecto de investigación; el cual se basa en técnicas de procesamiento digital de imágenes, haciendo un análisis estadístico y biométrico del rostro de una persona, basado en puntos característicos de Kobayashi y Hara. El trabajo es la base para fundamentar computadoras que simulen emociones y puedan detectar expresiones senticas; que permitan introducir las emociones en los sistemas de inteligencia artificial. Para lograr el objetivo es fundamental la detección de contorno y detectar los cambios de dirección de puntos en una imagen. Puesto que el órgano más abundante del ser humano es la piel, una buena forma de localizar a una persona en una imagen es identificando su piel. Al identificar su piel podemos extraer valores que permiten analizar al individuo mediante una cámara. Para lograrlo se emplea la segmentación en HSB de la imagen captada. El presente proyecto emplea técnicas por histogramas que le permiten detectar el H y S de la piel y de esta forma localizar el rostro de la persona, mediante segmentación, y así poder aislarlo del resto de la imagen. Para obtener la mejor imagen, se realiza una toma de video y se captura el mejor frame por observación controlando una cámara a través de servomotores, mismos que permiten situar la nariz al centro de la toma. Los factores H y S del formato de color son interesantes para la identificación de personas, análisis de la epidermis, etc. Por lo que la estadística entregada es útil nos solo para aplicaciones medicas, es igual de importante para sistemas afectivos. Empleando un análisis morfológico, se desarrollo una interfaz grafica que permite cuantificar el tamaño de la pupila, partiendo del hecho de que esta es la parte más obscura del ojo. Este software funciona correctamente con imágenes tomadas con una cámara de visión nocturna que nos permite eliminar el ruido generado por el reflejo de fuentes de iluminación puntuales, que dificulta la localización y aislamiento de la pupila. Se elimina posibles huecos en la pupila empleando tanto la apertura como el cierre. Esto permite obtener un algoritmo que implementado en software, generara a futuro un sistema capaz de detectar estados emocionales de una persona en particular. Dicho sistema se puede adaptar a lentes los cuales permitirían detectar el estado emocional. Por último se presenta una investigación sobre el espectro electromagnético que emiten los seres humanos. Este no es fácil de percibir a simple vista porque el ojo humano no tiene esa capacidad. Para que pueda ser observado es necesario hacer uso de otro tipo de tecnología, en este trabajo se muestra porque la termografía pude ser una buena opción para realizar la detección del espectro. Dichas radiaciones se tomaron cuando el individuo se le somete a diferentes estados emocionales basados en el modelo computacional de síntesis de emociones 1. Introducción El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis de imágenes por computadora [1]. Dentro de sus aportes se encuentran diferentes técnicas; una de ellas, la Segmentación, busca aislar los elementos que componen una imagen [2].

Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

Reconocimiento de patrones emocionales empleando

Procesamiento Digital de video.

Resumen El reconocimiento de emociones es trabajo de la visión por computadora y sin lugar a dudas un tema de actualidad. Obtener un análisis que nos proporcione pautas para reconocer expresiones faciales como la alegría y la sorpresa, es objetivo del presente proyecto de investigación; el cual se basa en técnicas de procesamiento digital de imágenes, haciendo un análisis estadístico y biométrico del rostro de una persona, basado en puntos característicos de Kobayashi y Hara. El trabajo es la base para fundamentar computadoras que simulen emociones y puedan detectar expresiones senticas; que permitan introducir las emociones en los sistemas de inteligencia artificial. Para lograr el objetivo es fundamental la detección de contorno y detectar los cambios de dirección de puntos en una imagen. Puesto que el órgano más abundante del ser humano es la piel, una buena forma de localizar a una persona en una imagen es identificando su piel. Al identificar su piel podemos extraer valores que permiten analizar al individuo mediante una cámara. Para lograrlo se emplea la segmentación en HSB de la imagen captada. El presente proyecto emplea técnicas por histogramas que le permiten detectar el H y S de la piel y de esta forma localizar el rostro de la persona, mediante segmentación, y así poder aislarlo del resto de la imagen. Para obtener la mejor imagen, se realiza una toma de video y se captura el mejor frame por observación controlando una cámara a través de servomotores, mismos que permiten situar la nariz al centro de la toma. Los factores H y S del formato de color son interesantes para la identificación de personas, análisis de la epidermis, etc. Por lo que la estadística entregada es útil nos solo para aplicaciones medicas, es igual de importante para sistemas afectivos. Empleando un análisis morfológico, se desarrollo una interfaz grafica que permite cuantificar el tamaño de la pupila, partiendo del hecho de que esta es la parte más obscura del ojo. Este software funciona correctamente con imágenes tomadas con una cámara de visión nocturna que nos permite eliminar el ruido generado por el reflejo de fuentes de iluminación puntuales, que dificulta la localización y aislamiento de la pupila. Se elimina posibles huecos en la pupila empleando tanto la apertura como el cierre. Esto permite obtener un algoritmo que implementado en software, generara a futuro un sistema capaz de detectar estados emocionales de una persona en particular. Dicho sistema se puede adaptar a lentes los cuales permitirían detectar el estado emocional.

Por último se presenta una investigación sobre el espectro electromagnético que emiten los seres humanos. Este no es fácil de percibir a simple vista porque el ojo humano no tiene esa capacidad. Para que pueda ser observado es necesario hacer uso de otro tipo de tecnología, en este trabajo se muestra porque la termografía pude ser una buena opción para realizar la detección del espectro. Dichas radiaciones se tomaron cuando el individuo se le somete a diferentes estados emocionales basados en el modelo computacional de síntesis de emociones 1. Introducción

El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis de imágenes por computadora [1]. Dentro de sus aportes se encuentran diferentes técnicas; una de ellas, la Segmentación, busca aislar los elementos que componen una imagen [2].

Page 2: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

Una imagen esta constituida por píxeles. En las imágenes aparecen ciertas áreas o zonas (regiones) caracterizadas por el hecho de que constituyen agrupaciones de píxeles conectados entre sí, dichos píxeles presentan características comunes, como el color [3]. Extraer estas regiones de interés es trabajo de la segmentación. Matemáticamente una imagen se define como una función bidimensional que para un punto dado (x, y) tiene un valor asociado. Puesto que se trabaja con imágenes digitales, las coordenadas espaciales y su valor asociado están discretizados. La percepción del ojo humano del color es compleja y no ha sido totalmente entendida, ya que depende de la iluminación, de las propiedades de la superficie y el muestreo sobre el espectro de energía caracterizado por los sensores en sus ojos [4]. Computacionalmente, una cámara provee imágenes de píxeles tricromáticos con componentes rojo, verde y azul (Red, Green, Blue, “RGB”), que reflejan la sensibilidad espectral de la cámara a cada componente. Este modelo de color, también llamado sistema aditivo de color, se representa en la Fig.1.

Fig. 1. Cubo RGB. La visión por computadora emplea varias disciplinas tales como el procesamiento digital de imágenes, reconocimiento de patrones, etc. Lo que la hace muy versátil para el desarrollo de sistemas afectivos que implica varias áreas. 2.1 Video Una vez localizado el objeto o dispositivo de captura el cual puede ser una webcam, se crea este de manera virtual dentro de la computadora e inicia. La información enviada por la cámara esta formada por Frames, cada uno es el equivalente a una imagen en un determinado tiempo, la cual se convierte a una imagen JPG y se procesa. Con el método getframe( ) se obtiene el Frame y se controla con FrameGrabbingControl. Una vez que el reproductor inicio, se pueden almacenar Frames en instantes de tiempo especifico. El frame se coloca en un buffer que se emplea para crear la imagen.

2.2 Segmentación

El problema central de la visión de nivel intermedio es el de la segmentación. Esto es, agrupar los atributos obtenidos en bajo nivel en regiones, que correspondan a objetos o partes significativas de un objeto. Destacamos el hecho de que en algunos sistemas puede ser suficiente el solo requerir una parte significativa del objeto de interés, como es el caso de sistema empleado para el análisis Biométrico.

Page 3: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

De manera práctica existen dos formas de dividir la imagen en regiones (duales) [5]:

1. Mediante contornos. 2. Mediante regiones.

Es importante mencionar que de manera clásica los criterios aplicados a las imágenes sea la técnica que sea, se aplican en escalas de grises. El sistema cuenta con 3 módulos principales, los cuales realizan tareas específicas, que a continuación se presentan:

1. Adquisición de Datos y Procesamiento de Imagen. 2. Segmentación de la imagen. 3. Calculo de distancias.

Uno de los postulados de los computadores emocionales es que puedan tener la capacidad de reconocer emociones tan bien como un observador humano. El reconocimiento de una expresión facial no siempre significa el reconocimiento de la emoción que la produce. Para poder hacer reconocimiento de estados afectivos mediante expresiones faciales, debemos identificar primero los patrones que relacionan el estado emotivo con la forma del rostro, además de emplear el video para obtener los distintos estados por lo que pasa una expresión [6]. El proceso de análisis de iris se ha abordado desde distintos enfoques y posee diferentes soluciones. La pupila, que permite la entrada de luz al interior del ojo, es un orificio que en las imágenes se ve de color negro. El iris es un diafragma que regula la cantidad de luz que llega a la retina. La variación del diámetro o área de la pupila no depende de la intensidad de luz únicamente, también de su naturaleza; es decir la longitud de onda del haz de Luz. Otro factor que puede variar y aumentar la dilatación de la pupila son las emociones, que da pie a desarrollar un sistema que permita diferenciar cuando el diámetro de la pupila cambia. La radiación de la luz visible es la que nos permite ver los objetos del mundo material que nos rodea. Se localiza aproximadamente entre 3,8 x 1014 Hz (380 THz), correspondiente a la frecuencia del color violeta y los 7,5 x 1014 Hz (75 THz) pertenecientes a la frecuencia del color rojo. Esta es la única parte del espectro electromagnético visible para el ojo humano. [7] El ojo humano detecta solamente 1% de las ondas de luz de 0,69 micrones y 0,01% de las ondas de 0,75 micrones; no puede ver longitudes de onda mayores de 0,75 micrones, a menos que la fuente de luz sea extremadamente brillante.

El bioplasma es un concepto que idearon algunos investigadores rusos refiriéndose al campo energético que rodea a todos los seres vivos. Existen diferentes estados de la materia: sólido, líquido, gaseoso y bioplasmático. Este último es en forma de energía y rodea a todo cuerpo con vida. El cuerpo físico, que posee átomos y moléculas, está compuesto también por un cuerpo plasmático biológico formado por partículas ionizadas positiva y negativamente [7].

Se puede deducir que todo ser vivo emite un espectro electromagnético, de menor o mayor magnitud, independientemente de su tamaño y de sus características especificas (sexo, edad, raza, etc.)

Cualquier molécula cuya temperatura sea superior a 0º Kelvin (cero absoluto, equivalente a – 273º C), emite rayos infrarrojos. Esa emisión se incrementa a medida que las moléculas que integran un cuerpo cualquiera adquieren mayor temperatura.

Para distintas temperaturas, varían dos aspectos: se incrementa la energía total radiada, y por otro lado se amplía el rango del espectro en el que radia (con el consiguiente desplazamiento de la longitud de onda de máxima radiación).

Page 4: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

A partir de 2000 ºK un cuerpo empieza a emitir radiación visible, empezando por el rojo, y si sigue subiendo la temperatura, termina en el blanco.

A la temperatura normal del cuerpo, la mayoría de las personas irradian más intensamente en el infrarrojo, con una longitud de onda de 10 micrones. [8] [9] METODOS Y MATERIALES

El diagrama de nivel 1 así como los flujos de información entre los módulos se muestran en la figura 2:

El sistema inicia con la captura video (secuencia de imágenes), posteriormente, procesa las imágenes segmentado por color, y por ultimo se calcula distancias. El JMF proporciona una interfaz de comunicación con la cámara que es configurable dentro de los parámetros que soporta el dispositivo. De esta forma podemos, inclusive, escoger el espacio de color en el cual queremos recibir cada frame De esta manera, de las opciones que se tenían se opto por que el video se obtenga en una resolución de 120 x 160, a una velocidad de captura de 15 frames por segundo y en un espacio de colores RGB. La resolución seleccionada obedece a que si procesáramos la máxima resolución, la interfaz de comunicación que tiene la cámara con la PC, no lo soportaría, ya que solo permite 12 Mb por segundo, además de que el tiempo de procesamiento crece demasiado y el sistema se vuelve lento. Para que esto pueda realizarse, es necesario que el dispositivo sea registrado (instalado) como un dispositivo de captura de video en el sistema operativo y se ejecute el programa de registro de componentes de JMF, el cual permite la selección de los parámetros de captura dentro de la maquina virtual de Java.

Para formar la base de datos, necesitamos generar plantillas para cada persona que use la computadora [10]. Las expresiones faciales se clasifican en un reducido número de categorías de expresión. El reconocimiento de la expresión facial empleando procesamiento digital vídeo implica la captura de patrones espaciotemporales de los cambios locales como globales en la cara humana, y la relación de estos con una categoría emocional [11]. Cada secuencia de video implica un estado neutro, un estado afectivo (sonrisa) y nuevamente neutro. Los pasos a seguir para el análisis facial implican la extracción de la información de la expresión facial y su clasificación. Los cambios fundamentales se pueden detectar con la primera derivada, es decir el gradiente. Para calcular el gradiente de la imagen es indispensable que este en escala de grises. Para calcular los bordes, las máscaras se convolusionan con la imagen en cada píxel. Para cada píxel, se obtiene la magnitud y el ángulo del gradiente. Se

Adquisición de

Datos y

Procesamiento de imágenes

Segmentación por

contorno Calculo de

distancias

Fig. 2 Diagrama de nivel 2 para el bloque 1, Adquisición de Datos y Procesamiento de Imagen.

Page 5: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

puede saber si el píxel corresponde al borde y si es superior a un umbral establecido. Las formulas para calcular el gradiente son la 1 y 2.

(1)

(2) Donde “x” y “y” representan la posición del píxel y de D es la derivada. El gradiente en general tiene el efecto de magnificar el ruido subyacente en la imagen. Para compensar ese efecto, el operador de Sobel tiene la propiedad de suavizar la imagen [12]. Operadores Sobel:

(3)

-1 -2 -1 -1 0 1

0 0 0 -2 0 2

1 2 1 -1 0 1

También es útil emplear operaciones morfológicas como la apertura y el cierre. Una vez obtenidos los contornos se pueden comparar empleando correlación con las plantillas de la base de datos [13]. También se puede hacer un análisis encontrando los puntos terminales y de inflexión. El algoritmo guarda las posiciones dentro de la imagen de todos los píxeles del contorno. Cuando un conjunto de píxeles que cambia radicalmente las coordenadas, se le considera como un punto de inflexión. Para elegir los puntos mas adecuados, se considera el modelo geométrico de la cara de Kobayashi y Hara [14], que podemos ver en la figura 3. De estos solo se calcula las distancias 1-19, 2-22, 1-23, 1-24, 3-23, 3-24, 2-23, 2-24, 23-24 debido a que con estas distancias se identifican las expresiones de alegría y seriedad. Un mayor número de expresiones requiere de más puntos, y con ello la complejidad del sistema aumenta. En tal caso, aunque con menor eficiencia se puede hacer un análisis de la posición de lunares característicos, que faciliten la identificación de una expresión. Aunque si se necesitan mejores resultados se recomienda emplear autocorrelacion de transformadas de Fourier o redes neuronales. Para calcular las distancias se empleo la formula (4).

D2(a,b) = (Xo – X1)2 + (Yo - Y1)2 ( 4)

Page 6: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

Fig. 3 Puntos Característicos faciales de Kobayashi y Hara.

La detección de objetos de acuerdo a su color se ha aplicado a una gran cantidad de proyectos, sin duda uno de ellos es la localización para el seguimiento del móvil [15]. Conservando los mismos algoritmos puede también seguirse personas con ropa de características definidas. El identificar la piel es útil, no solo para el seguimiento de personas, también lo es para su análisis. Si se aísla la piel esto puede auxiliar para el análisis de la textura del rostro, con las consecuencias que esta tenga. Las señales RGB residen en un espacio de color 3D donde cada píxel es un punto en el espacio. Al emplear el modelo RGB para aislar los píxeles que son parte del rostro del resto del escenario se encontró que el valor de los componentes es afectado directamente por el brillo de la escena, por lo que se decidió utilizar un modelo de color invariante al brillo de la imagen. El modelo de color HSB (Hue, Saturation, Brightness) describe un color por su tono, saturación y brillo; ya que tiene dos componentes cromáticos que almacenan la información del color y permiten aislar la información de un tono del brillo. En este modelo de color el tono va de 0 a 360, el rango de la saturación se encuentra de 0% para un color puro, hasta 100% para el centro del cono con el color blanco y el brillo que va de 0% de brillo para el negro, ya que no refleja luz, hasta 100% para el blanco. Ver figura 4. Utilizando este formato de color el análisis se limita a dos componentes H y S (tono y saturación). Cuando en la imagen se tiene mucho brillo, se aísla del color de ese punto y se asigna los mismos valores cromáticos con menor brillo, evitando este ruido, provocado por la iluminación.

Segmentación de piel para su análisis en personas

Page 7: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

Fig..4. Modelo HSB (Hue, Saturation, Brightness). Las transformaciones morfológicas son aquellas que modifican la estructura o forma de los objetos que están presentes en la imagen. Sus inicios fueron en el campo de las imágenes binarias y son de gran utilidad para eliminar ruido generado en el proceso de segmentación [16]. La morfología matemática se basa en la teoría de conjuntos y en la topología. Utiliza dos procesos básicos que son erosión y dilatación. La erosión es la degradación progresiva de uno de los campos, sea 0 o 1. Un elemento del campo a degradar seguirá perteneciendo al mismo si esta rodeado de elementos iguales a él, de acuerdo a lo que indique el elemento estructurante, en caso contrario dejara de pertenecer a ese conjunto. Si este proceso no se detiene a tiempo destruiría la imagen. Ver Figura 5.

Fig. 5 Erosión Morfológica. La dilatación, por el contrario, es el crecimiento progresivo de uno de los campos (0 o 1). Un elemento contrario al campo a crecer será convertido si posee algún vecino perteneciente al campo que se expansiona. Ver Figura 6

Fig..6. Dilatación Morfológica. La erosión y dilatación son transformaciones no invertibles. Si una imagen es erosionada y luego dilatada, la imagen original no se recupera, y se obtiene una imagen más simplificada y menos detallada que la imagen original. La

Origen

Origen

Page 8: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

erosión seguida de una dilatación crea una transformación morfológica llamada apertura. La dilatación seguida de una erosión crea el cierre. La imagen a analizar que se tiene almacenada en memoria usa el modelo de color RGB. En lenguaje java se tiene el método RGBtoHSB, de la clase Color, que devuelve el valor flotante de los componentes HSB asociados a un valor RGB específico, obteniendo ahora una imagen en este formato para su análisis. Para eliminar píxeles aislados que entran dentro de está segmentación se utilizó una cerradura, que elimina cualquier píxel con una forma diferente a la del elemento estructurante seleccionado, para lo cual se emplea el City-Block, cuya forma se puede ver en la figura 7.

Fig.7. Elemento Estructurante City-Block. Una distribución 2D como el espacio HS (tono y saturación) provee un nivel aceptable de invarianza al brillo de la escena. En este espacio la saturación es cero en el centro y el radio es el tono. Ver figura 8.

Fig. 8. Espacio HS.

El objetivo de realizar la operación de separación de la piel es determinar el valor H y S promedio de cada persona como una característica a evaluar, para lo que se utiliza el histograma.

Fig. 9 Histograma de componentes H.

Page 9: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

El histograma consiste en un diagrama de barras de la propia imagen, usando como abscisas los niveles de gris de la imagen y como ordenadas el número de píxeles de la imagen para cada nivel de gris, o la frecuencia de ocurrencia (probabilidad) de los diferentes niveles grises. Ver figura 9. El histograma permite conocer el contraste y homogeneidad de la escena, así como los valores con mayor o menor ocurrencia siendo el valor moda, el que tiene mayor valor en “y“, es decir, el componente que mas se repite. No solo se realiza el histograma de los niveles de gris, sino también de cada componente de un espacio de color, el espectro rojo, verde y azul en el RBG o histograma de valores del tono, la saturación o el brillo para el formato HSB.

Relación entre el estado emocional de las personas y la coloración de su piel. Para el cómputo emotivo es importante la utilización de diversas técnicas que permitan detectar cambios en el estado de ánimo de una persona específica. Una de ellas y la que se estudia en este documento es la relación entre el estado emocional de las personas y la coloración de su piel. Los seres humanos podemos observar cambios en la coloración de la piel de las personas, por ejemplo, cuando una persona tiene un estado enojado, puede empezar a saturar los vasos sanguíneos de su rostro y vemos en el una coloración distinta. También hay otros ejemplos en los que cuando una persona esta asustada, su coloración es pálida. Para el análisis de tono de piel se tomaron muestras de personas que estaban en un estado emocional neutro que es el momento en que no están expresando ninguna emoción, después fueron tomadas en un momento de preocupación. Posteriormente, se hace una segmentación de color para dejar en la imagen solamente los píxeles que pertenecen al rostro. Para lograr esta segmentación, se utilizan las componentes H y S del formato de color HSB. Estas componentes indican el matiz y la saturación de un color. La componente H (matiz) nos ayuda a definir el tono de un color. La componente S ayuda a definir la cantidad de blanco presente en ese mismo color. La componente H tiene un rango de valores de 0 a 360 debido a su representación circular, donde cada grado de la circunferencia representa un tono diferente. Cuando se selecciona un tono de color en RGB que en la figura 1 es R= 255, se observa que su equivalente en H es 0 y en la figura circular observamos el ángulo correspondiente a H=0. En el caso de la coloración de la piel, se hace un cambio en el formato de color para detectar el tono de la piel. Sin embargo, para cada rostro existen múltiples valores de H. Para ello, se calcula la moda de H y ese es el tono de piel de una persona y de la misma manera se encuentra la saturación para ese tono de piel. Debido a que solo se toma ese valor para considerar el tono de piel, se observaron los cambios en la Moda H y Moda S para evaluar cambios en la tonalidad de la piel de las personas. Detección de cambios en el diámetro de la pupila para el reconocimiento de estados emocionales

Para que el sistema permita la detección de la dilatación se siguieron estos pasos: 1. Captura de la imagen. 2. Escala de grises 3. Binarización y etiquetado. 4. Apertura. 5. Distancia 6. Pupila rellena. 7. Medición del diámetro.

Localización de la pupila. Se tomaron imágenes con infrarrojo lo que elimino el brillo puntual. Con el objetivo de eliminar la iluminación y brillo intenso, se utiliza el formato de color HSB, principalmente al identificar los píxeles más iluminados donde su componente de brillo es mayor a 0.5, ya que va de 0 a 1. Ubicados estos puntos, se crea un nuevo píxel con el mismo valor H y S, pero menor en B.

Page 10: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

Cuando se aíslan los elementos más obscuros de la imagen, también se encuentran las pestañas y zonas ajenas a la pupila. Sin embargo estas otras áreas son irregulares, mientras que la pupila es redonda, por lo que se hace un análisis de distancias de cada píxel al fondo de la imagen y un etiquetado. Todas las operaciones para aislar el iris se realizan en una imagen binaria correspondiente a la imagen completa, donde se tiene un 1 si ese punto se considera posible pupila y 0 si no es así. Los píxeles con mayor distancia al fondo de la imagen se consideran parte de la pupila. Se emplea la operación de morfología matemática de apertura; la cual consiste de una erosión seguida de una dilatación. La apertura de una imagen X por un elemento estructural B se denota por X o B y se define como: XoB=(X B) B Ec.1 Una vez detectada la pupila, por el algoritmo de mayor distancia, se utilizan un algoritmo para rellenar la pupila. Aislando la pupila, se rellenan orificios indeseables. Si los píxeles a evaluar tienen valor 1 o forman parte de la pupila, y el píxel central no, entonces pasa a ser parte de la pupila, asignándosele un 1. Este proceso elimina pequeños huecos provocados por ruido. El tamaño de un objeto vendrá dado por sus píxeles: Y el diámetro de un círculo es: D=2(area/(4π))1/2 Ec. 3 Herschel hizo pasar luz solar a través de un prisma de cristal para generar un espectro: el arco iris, el cual se forma cuando la luz se divide en los colores que la componen. Luego midió la temperatura de cada color [18]. Esta medición puede repetirse para el cuerpo humano empleando una cámara sensible al infrarrojo. Por lo que se puede determinar la temperatura de color que emiten las personas, el cual pude variar dependiendo de muchos factores; sin embargo, lo importante es que existe este bioplasma o lo que muchos dicen llamar Aura, emitido por el cuerpo humano; el cual no es factible que las personas lo vean.

Durante la realización del proyecto se tomaron imágenes partes del cuerpo, para posteriormente hacerles un Tratamiento Digital de Imágenes, para lo cual se utilizaron dos cámaras:

Sony Handy Cam, con infrarrojo conocido comercialmente como NightShot y una cámara infrarroja usada en los sistemas de vigilancia de circuito cerrado de Televisión (CCTV). Se genero un ambiente “controlado”, es decir un espacio en el cual no pudiese entrar luz directamente, dentro de este se coloco la mano de una persona y las cámaras captaron diversas imágenes de esta, dentro del ambiente simulado, esto con el fin de que posteriormente se hiciera una comparación entre estas dos cámaras y determinar cual es la que nos proporciona la mejor funcionalidad para la realización del proyecto.

RESULTADOS

Expresiones faciales

N-1 N-1

area = ∑ ∑ g(i,j) Ec. 2 i=0 j=0

Page 11: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

Se puede observar en la figura 10 el estado neutro de Nadia y su contorno detectado.

Fig. 10 Nadia con expresión neutra. En la figura 11, se observa el estado de felicidad de Nadia, es fácil observar como cambia la forma del contorno, no se tomo en cuenta 25 – 26 debido a la presencia de los dientes, ya que dificulta el cálculo de la distancia y no es indispensable los puntos de la plantilla de Kobayashi y Hara

Fig. 11 Nadia con expresión emotiva. En la figura 12, Nadia regresa al estado neutro. Se puede observar la similitud con la figura 10.

Fig. 12 Nadia con expresión neutra. Un sistema afectivo debe tener la capacidad de reconocer estados emotivos de una persona, por lo que se sometió el software a una prueba en la cual se les pregunto a las personas cuál es la emoción que percibian y se le comparo con la que identifico el sistema. Extracción de piel El histograma de los componentes H de la imagen muestra que el valor H moda de la imagen no corresponde a un valor de la piel exacto para cada tipo de piel, por lo que se utiliza un umbral donde la piel se localiza. Ver figura 7.

Page 12: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

Esta técnica es estadística ya que se basa en el histograma del componente H, los píxeles que se encuentran en el rango de color de piel son importantes, ya que es la información a analizar, y se identifican como piel. Como resultado de este proceso se obtiene el valor de los componentes moda H y S que más se repiten en la piel de la persona. Con estos valores se realiza una segmentación por color, lo que aísla la piel de las personas como lo muestra la figura 13.

Fig. 13. Proceso de Segmentación por Componentes de Formato HSB. Izquierda: Imagen original. Derecha: Imagen final. Todos los píxeles que no corresponden a la piel se aislaron.

En el análisis estadístico realizado se puede ver que una persona los tonos de piel oscura puede registrar en colores blancos si se aumenta la intensidad de la luz en su rostro. Lo contrario puede también ocurrir como se puede ver en la figura 8, donde una persona de tez blanca fue registrada como tez morena por la cámara. Aun así la separación de tonos de piel es factible, debido a las características propias del tejido.

Figura 14 Proceso de Segmentación por Componentes de Formato HSB. Izquierda: Imagen original con rostro blanco. Derecha: Imagen final. Todos los píxeles que no corresponden a la piel se aislaron. En las siguientes imágenes se tomaron los rostros de 4 personas y cada una muestra un distinto estado de ánimo. Para cada persona se tomaron tres imágenes, una que corresponde al estado neutro, una que corresponde a otro estado de ánimo y otra que regresa al neutro. En cada una de las imágenes se hace el calculo de la moda y se gráfica este valor en los tres estados de ánimo diferentes. En las gráficas se observa el valor H y S del estado neutro, el valor H y S del estado emotivo y el valor H y S del estado neutro otra vez. Estas gráficas reutilizaron así debido a que en el histograma de componentes H y S no se observan claramente los cambios en el tono moda H y moda S. Cambio de coloración de piel 1. Estado de Alegría. Para este estado, se tomo a una persona mostrando una sonrisa. En las siguientes imágenes podemos observar el estado neutro, emotivo y neutro. Ver Figura 15

Page 13: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

Fig. 15 Estado neutro emotivo neutro

Calculando para cada estado su moda H y moda S se pudo llenar una tabla en donde se muestran los valores presentes en cada imagen.

NEUTRO RISA NEUTRO H S H S H S

11461 5499 10359 5361 10628 5289

Para poder observar mejor las diferencias, la siguiente gráfica nos muestra las tabulaciones anteriores de manera gráfica.

0

2000

4000

6000

8000

10000

12000

1 2 3 4 5 6

Serie1

De esta manera se evalúan los distintos tonos de piel para el estado de preocupación, alteración y enojo.

Page 14: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

2. Estado de estrés. El estado de preocupación se muestra en esta persona cuando se le dice que hay una araña caminando en su espalda. Debido a que esta frente a la cámara no se mueve pero en su boca se observa la emoción. Ver Figura 16.

Fig. 16 Otro estado emotivo Los valores de esta persona cambiaron como se muestra a continuación.

NEUTRO PREOCUPADO NEUTRO H S H S H S

9338 4587 10324 4486 9747 4633

Y a continuación se muestra la gráfica para estos valores.

0

2000

4000

6000

8000

10000

12000

1 2 3 4 5 6

Serie1

Page 15: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

3. Estado de locura Este estado se logro cuando la persona no sabía como comportarse delante de la cámara. No se le dieron instrucciones para posicionarse y al parecer no sabía en que ocupar su tiempo así que empezó a hacer muecas. Ver Figura 17.

Fig. 17 Expresión facial emotiva A continuación se muestran las tablas que permiten observar que el cambio en esta desesperación mostró disminución en la moda H.

NEUTRO ALTERADO NEUTRO H S H S H S

12653 4189 12471 4754 11529 4219

Gráficamente se observan las disminuciones en el tono H y las disminuciones en el tono S.

Page 16: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

0

2000

4000

6000

8000

10000

12000

14000

1 2 3 4 5 6

Serie1

4. Estado de enojo. Esta persona se concentró en algo que la hiciera enojar y de esta manera muestra a la cámara la emoción de estar enojado. Ver Figura 18.

Fig. 18 Estado emotivo.

NEUTRO ENOJO NEUTRO H S H S H S

9035 4886 9401 5970 8679 5552

A continuación se muestran los cambios en la saturación y tono de piel para el estado de enojo. Este estado muestra un cambio mayor que los anteriores.

Page 17: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

1 2 3 4 5 6

Serie1

Análisis del Iris

Se realizaron varias pruebas en distintas personas. Obteniéndose los siguientes resultados: Al binarizar una imagen se pueden observar las imágenes mostradas en la Figura 19.

Fig. 19. Imagen de entrada

Page 18: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

Fig. 20. Imagen binarizada

Aplicando la morfología matemática se pueden observar las imágenes de la figura 21. Esto permite tanto localizar el iris como eliminar el ruido.

Fig. 21. Aplicando operaciones Morfológicas.

Una vez hecho esto se puede rellenar la pupila y con esto aplicar las ecuaciones 2 y 3.

Fig. 23. Pupila rellenada.

La interfaz permite comparar el tamaño de dos imágenes que se carguen desde archivo. El siguiente ejemplo muestra una dilatación provocada por estado emocional. Ver Figura 24.

Page 19: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

Fig 24. Cuantificación de la dilatación de una pupila.

Las figuras 25 y 26 fueron tomadas con una cámara infrarroja. Esto mismo se puede hacer con diferentes cámaras sin embargo pero como no todas dan resultados que permitan determinar un estado afectivo. Por ejemplo en imágenes de la mano. La Fig.25 muestra una imagen de la mano capturada con la cámara Sony y su histograma resultante.

Fig 25. Histograma resultante de la imagen en escala de grises con Nihgtshot En la Fig. 26 se muestra una imagen de la mano, pero a diferencia de las anteriores esta fue tomada con la cámara de Circuito Cerrado de Televisión, también se muestra el histograma resultante.

Page 20: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

Fig 26. Histograma resultante de la imagen en escala de grises con cámara CC.

Es posible observar que los histogramas obtenidos entre la imagen de la Handy Cam y la cámara de CC, son distintos, el de la Handy Cam es más amplio que el de la cámara común, pero la diferencia entre la imagen original y la de escala a grises de cada uno son unas líneas largas y acentuadas en un solo rango a pesar de que la mano se encuentra en diferente posición y por lo tanto la captación de piel es diferente. Aun a pesar de esto consideramos que es factible de aislar el componente infrarrojo emanado por el cuerpo humano, pues las imágenes presentadas están en función de la temperatura infrarroja emanada por el cuerpo. Para logarlo se debe emplear una cámara termografica con lo que se obtienen imágenes como las mostradas en la figura . Debido a que la imagen depende de la temperatura y esta a su vez puede variar dependiendo del estado de animo de la persona, entonces se puede desarrollar un sistemas que detecte diferentes estados de animo mediante imágenes termograficas.

Cuando se emplea una cámara termografica los resultados son totalmente diferentes pues es factibles detectar cambios de coloración fácilmente cuando a la persona se le somete a un estado emocional diferente al neutro. Ver Fig. 27.

Fig. 27. Componentes S de una imagen termografica. Es factible observar puntos de H y S que resalta debido a la saturación del tono.

Page 21: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

El trabajo se monto sobre diversos robots para simular móviles que permiten captura imágenes y de esta forma se obtuvieron robots con capacidad de detectar emociones. En cuanto a la voz, se diseño un software que permite detectar alteraciones en el volumen (magnitud) de la voz provocadas por el estado emocional de la persona. Este software también determina el nivel de energía así como los cruces por cero en un fonema, lo cuál también esta relacionado con el estado de animo de la persona.

Fig. 28 Estados de ánimo en la voz

CONCLUSIONES Las operaciones de apertura y cierre permiten eliminar detalles específicos de la imagen, más pequeños que el elemento estructural sin distorsionar la forma global del objeto. El cierre conecta objetos que están próximos entre sí, rellena pequeños huecos y suaviza el contorno del objeto rellenando los pequeños valles mientras que la apertura produce el efecto contrario. Otro factor a considerar es que cada dispositivo de captura tiene diferentes sensores que modifican los colores, por lo que cada dispositivo diferente de captura requerirá una calibración, los rangos que se establecen para los píxeles que se identifican como piel humana son un valor H de 20 dando un margen de tolerancia de 20, aunque estos valores pueden cambiar por diversos factores lo que proporciona una gama de tonos que caracteriza la piel del rostro, con diferentes valores para la saturación (cantidad de blanco) y brillo de cada persona. Puesto que esta segmentación está basada en color, cuando el fondo es de un tono parecido al color de la piel, se captan regiones que no forman parte de la piel, por lo que lo mejor es utilizar un fondo de un color contrastante del tono de la piel, en este caso se utiliza un fondo negro, lo que significa tono totalmente saturado en el formato HSB. En cuanto a expresiones faciales. La segmentación es un paso indispensable para reconocer los patrones de las expresiones faciales, debido a que el contorno nos permite detectar los puntos de inflexión en la imagen. Podemos también concluir que es factible con el empleo de los modelos de Kobayashi y Hara identificar más

Page 22: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

estados de expresiones faciales, lo que por supuesto puede modificar los resultados obtenidos y nos permita acercamos a maquinas con un mayor grado de interacción. En cada persona existe un cambio de color en los tonos de piel, sin embargo, cada persona muestra alteraciones totalmente distintas, por lo que se debe estudiar los histogramas de cada individuo, en cada estado de ánimo que se desee detectar. Los tonos de piel pueden mostrar solo algunos cambios producidos por los estados de ánimo, en algunos como en la preocupación el cambio es muy pequeño, contrario al enojo en donde se altero tanto la saturación como el tono de piel. Al buscar clasificar el tono de piel de acuerdo a los valores comunes (tez morena, tez blanca, tez amarilla) se encontró que no depende solo del tono, sino también de la saturación de ese color, ya que un tono que se pudiera clasificar como oscuro, si esta muy saturado caería en la clasificación de piel clara. Hay una variación para los diferentes grupos étnicos, la cual se soluciona al dar un rango lo suficientemente extenso como para abarcar diferentes tonos de piel, ya que la pigmentación de la piel es común a toda la gente. Para poder estudiar de manera exacta el comportamiento de un órgano de múltiple función como lo es la pupila, se debe comprender su diseño y función, así como otros fenómenos físicos relacionados con él. Para obtener un parámetro que mida el efecto de las emociones en la pupila, debe contarse con condiciones controladas que permitan aislar la dilatación y contracción por factores ajenos como lo son el efecto de la iluminación o medicamentos. Aplicando morfología matemática se puede eliminar el ruido provocado por diversos factores. La localización de la pupila depende del etiquetado y sobre todo de la distancia a fondo; es decir la diferencia entre el fondo y el color de la pupila. Obtener el grado de dilatación de la pupila permite realizar estudios, por ejemplo para medir como afectan distintos estados emocionales a la dilatación.

Uno de los objetivos al estudiar el efecto de las emociones en la pupila es el desarrollo del cómputo emotivo. Para poder identificar las emociones de una persona, el estudio debe ser particular, no se puede generalizar las manifestaciones de emociones ya que cada individuo las expresa de manera diferente. Para emplear el tamaño de la pupila como medio de interacción entre la computadora y el usuario es necesario también estudiar el efecto de la iluminación del monitor en el ojo. Este estudio es de principal importancia si se busca que la persona se encuentre frente a una PC, la cual interpreta las emociones.

Todo ser vivo emite una radiación infrarroja, de acuerdo con la ley de la radiación electromagnética la cual dice que cualquier objeto que tenga una temperatura mayor a los 0° Kelvin emite rayos infrarrojos, y el infrarrojo forma parte de las bandas del espectro electromagnético y por lo que para detectar esa radiación se puede utilizar una cámara termografica, la cual genera imágenes dependientes de la temperatura y del espectro electromagnético. Podemos afirmar también que lo que se conoce como Aura, no es más que el bioplasma del cuerpo humano. La voz es un magnifico medio para detectar los cambios en el estado de animo de una persona. La magnitud, la energía etc., son medidas que nos proporcionan los patrones requeridos. Debido a la confusión que puede causar a las persona identificar una emoción y por otras causas como la cultura, etc. se tiene que personalizar el sistema; es decir, no se debe crear sistemas genéricos, si no mas bien dependientes de cada persona y obtener un modelo matemático para representar el estado emocional. Es conveniente aclarar que no se esta haciendo un medidor de emociones, sino reconociendo un estado emotivo mediante procesamiento digital de video, para que este pueda ser simulador en una máquina y que por lo tanto se tenga inteligencia emocional humana en una computadora

Page 23: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

IMPACTO La implementación de técnicas de detección de emociones tiene una repercusión en todos los ámbitos donde se emplee desde una simple maquina hasta una compleja computadora. Todo mundo sabe que un técnico, un obrero o cualquier empleado no rinde de la misma forma, cuando el cansancio, el stress, el disgusto están presentes en su personalidad, con las técnicas presentadas se puede detectar dichos estados y reaccionar en función del caso. Por otro lado, también se puede aplicar las técnicas al desarrollo de videojuegos interactivos que detecten estados de ánimo y modificar el desarrollo del mismo en función del estado emotivo, esto mismo se puede aplicar al desarrollo de ambientes virtuales de aprendizaje. En sistemas de seguridad por ejemplo puede aplicarse para la detección de posibles delincuentes por ejemplo en un Aeropuerto, lo que permite anticiparse a los hechos. En el caso de un automóvil la detección del stress puede solucionar accidentes viales. Las herramientas sirven también de apoyo para es estudio y tratamiento de enfermedades psicológicas. De igual forma apoya a enfermos terminales. En cuanto al desarrollo de maquinas inteligentes, no podemos concebir una si no tiene sentimientos y para poder tenerlos primero tiene que captarlos. De esta manera se da un paso más en el desarrollo de la robótica orientada a servicios, que puede incluir un robot de Ama de casa, enfermeras, mascotas, etc. En el área de la industria del juguete el impacto es definitivo, pues el empleo de técnicas de procesamiento resulta novedoso y económico para su desarrollo. Se pueden numerar mas aplicaciones, pues es fácil observar que la comunicación de emociones de los seres humanos con las maquinas abre un amplio numeró de aplicaciones, de tal forma que estas hagan no solo lo que les indicamos, también lo que deseamos. Bibliografía.

[1] Jorge Lira Chávez, “Introducción al tratamiento digital de imágenes”, Fondo de Cultura Economica, pp 337-432, 2002. [2] Gonzalo Pajares, Jesús M. de la cruz, “Imágenes Digitales”, Alafaomega Ra-Ma, pp 41-57, 2004. [3] Jorge Lira Chávez, “Introducción al tratamiento digital de imágenes”, Fondo de Cultura Economica, pp 337-432, 2002. [4] Moritz S, 2004, Computer Vision and Human Skin Color , Universidad Aalborg, Dinamarca, Junio. http://www.cvmt.dk/~mst/Publications/phd/8790562240.pdf [5] Gonzalo Pajares, Jesús M. de la cruz, “Imágenes Digitales”, Alafaomega Ra-Ma, pp 41-57, 2004. [6] Maja Pantic and Leon J.M. Rothkrantz, “Automatic Análisis of Facial Expressions: The State of the Art”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 22, No. 12, 2000. [7] Altamirano L, Morales A, Sistema seguidor de objetos, Instituto Nacional de Astrofísica, Óptica y Electrónica Coordinación Ciencias Computacionales. [8] García, Álvarez José Antonio, Así funciona el Espectro Electromagnético 04 Septiembre-2005 http://www.asifunciona.com/fisica/af_espectro/af_espectro_5.htm [9] Iturrate, Eduardo, Principios Físicos ,03-Septiembre-2005, http://www.innovanet.com.ar/gis/TELEDETE/TELEDETE/pant1.htm [10] Rosalind W. Picard, “K-bits ¿ordenadores con emociones?, Ariel, pp 214-218. [11] Shaogang G, McKenna S, Psarrou A, 2000, DYNAMIC VISION From Images to Face Recognition , Imperial College Press.

Page 24: Reconocimiento de patrones emocionales empleando ...sappi.ipn.mx/cgpi/archivos_anexo/20050721_2133.pdf · El tratamiento digital de imágenes, tiene como uno de sus objetivos el análisis

[12] Efford, Nick (2000), “Segmentation” en: Digital Image Procesing a practical introduction using JavaTM Pearson Education, Addison-Wesley. [13] Gonzalo M, De la Cruz J, Molina J, CuadradoJ, López A, Extracción de Regiones en: IMAGENES DIGITALES: Procesamiento Práctico con Java , 2004,RAMA. [14] Yaser Yacoob and Larry S. Davis, “ Recongnizing Human Facial Expressions From Long Image Sequences Using Optival Flow”, IEEE Transtions on Pattern Analysis and Machine Intelligence, vol 18, No. 6, 1996. [15]Romero R, 2002, Procedimiento Digital de Video Aplicable al estudio del comportamiento Animal, 3er Congreso Internacional sobre Investigación en Ingeniería Eléctrica y Electrónica, 2002. [16] Lira Chavez, Jorge, “Realces Selectivos” y “Reconocimiento de Patrones” en: Introducción al Tratamiento Digital de Imágenes, IPN, UNAM, FCE, 2002.