98
cenidet Centro Nacional de Investigación y Desarrollo Tecnológico Departamento de ciencias computacionales TESIS DE MAESTRÍA EN CIENCIAS Caracterización Visual de un Conjunto de Señas de la Lengua de Señas Mexicana presentada por Arturo Guzmán Obispo Ing. en Computación y Redes de Computadoras por la Universidad Morelos de Cuernavaca como requisito para la obtención del grado de: Maestro en Ciencias en Ciencias de la Computación Director de tesis: Dra. Azucena Montes Rendón Co-Director de tesis: M.C. Andrea Magadán Salazar Jurado: Dr. Raúl Pinto Elías – Presidente Dr. Javier Ortíz Hernández – Secretario M.C. Andrea Magadán Salazar – Vocal Dra. Azucena Montes Rendón – Vocal Suplente Cuernavaca, Morelos, México. 05 de noviembre de 2007

TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

cenidet

Centro Nacional de Investigación y Desarrollo Tecnológico

Departamento de ciencias computacionales

TESIS DE MAESTRÍA EN CIENCIAS

Caracterización Visual de un Conjunto de Señas de la Lengua de Señas Mexicana

presentada por

Arturo Guzmán Obispo Ing. en Computación y Redes de Computadoras por la Universidad Morelos de Cuernavaca

como requisito para la obtención del grado de:

Maestro en Ciencias en Ciencias de la Computación

Director de tesis: Dra. Azucena Montes Rendón

Co-Director de tesis:

M.C. Andrea Magadán Salazar

Jurado: Dr. Raúl Pinto Elías – Presidente

Dr. Javier Ortíz Hernández – Secretario M.C. Andrea Magadán Salazar – Vocal

Dra. Azucena Montes Rendón – Vocal Suplente

Cuernavaca, Morelos, México. 05 de noviembre de 2007

Page 2: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Dedicatoria A Dios por darme tantas veces la fuerza para seguir adelante, por su amor y el entendimiento que me ha dado para adquirir nuevos conocimientos. A mis padres que siempre creyeron en mí, por apoyarme en mis decisiones, por todo el amor y apoyo incondicional que me han dado. A mis hermanos que siempre estuvieron a mi lado compartiendo los buenos momentos y los no tan buenos. A mi abuela Florencia†… espero que estés orgullosa del esfuerzo que realicé para concluir mis estudios de maestría, gracias a tus oraciones en las que cada noche pedias por mí.

Page 3: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Agradecimientos Al Centro Nacional de Investigación y Desarrollo Tecnológico (cenidet) que me dio la oportunidad de realizar mis estudios de posgrado. Al Consejo Nacional de Ciencia y Tecnología (CONACYT) por el apoyo financiero tan importante que me brindaron durante mis estudios de posgrado. A la Dra. Azucena Montes Rendón por darme la oportunidad de haber trabajado bajo su asesoramiento, gracias por su tiempo y apoyo que siempre me mostró incondicionalmente. A la M.C. Andrea Magadan Salazar que siempre me brindó su apoyo, su tiempo, sus conocimientos y su amistad. Al Dr. Raúl Pinto Elías por su participación como revisor, dedicando tiempo y esfuerzo en la culminación de este trabajo. Al Dr. Javier Ortíz Hernández por participar en este trabajo como revisor, gracias por sus comentarios tan acertados.

Page 4: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Resumen La lengua de señas surgió por la necesidad de las personas con problemas auditivos y/o del habla para comunicarse. En México, el nombre oficial es Lengua de Señas Mexica (LSM). Esta lengua se fundamenta en movimientos corporales, manuales y gestuales por lo que se considera una lengua visual. Las personas que hablan esta lengua encuentran dificultad para establecer una comunicación con personas que utilizan lenguas orales y por consiguiente tienen poca posibilidad de integrarse a una sociedad. En los últimos años, la tecnología ha tratado de facilitar esta tarea realizando trabajos informáticos que ayuden, en su mayoría, a traducir las lenguas de señas en las lenguas orales. Los primeros trabajos realizados para traducir la lengua de señas a la lengua oral se limitan sólo al deletreo de las palabras que son insuficientes, ya que las personas que utilizan ésta no se comunican de esa forma, por el contrario, se realizan señas que representan un concepto. Por otra parte, algunos trabajos se han realizado utilizando equipos electrónicos costosos, fáciles de dañar e incómodos para quien los usa. Este proyecto de tesis se sitúa en el área de Visión Artificial. En éste, se presenta la caracterización de un conjunto de señas manuales, que es parte del Procesamiento Digital de Imágenes, apoyando así, trabajos futuros que realicen traducciones a las lenguas orales. El conjunto de señas de la LSM a tratar, son señas que tienen dos categorías gramaticales: verbo y sustantivo. Estas son: (sentarse, silla), (subir, escalera), (peinarse, cepillo), (cortar, tijeras), (pintar, brocha). La forma en la que se afrontó el problema, fue investigando las diferentes técnicas del Procesamiento Digital de Imágenes y de Visión por Computadora con relación a la extracción de características y el reconocimiento de la lengua de señas. Además se realizó un estudio introductorio acerca de la estructura de la LSM y así entender mejor la naturaleza de dicha lengua. De esta manera se diseñó e implementó un sistema de cómputo para realizar la caracterización del conjunto de señas propuesto. Las pruebas muestran que la extracción de características se realiza correctamente bajo las condiciones propuestas, a pesar de que se presenten factores no controlados en su totalidad como la iluminación.

i

Page 5: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Abstract The sign language arose from the need of deaf/mute people to communicate. In Mexico, the official name is Mexican Sign Language (MSL). This language is based on the body movements, manuals movements and facial gestures so it is considered a visual language. People who speak that language found a difficulty to communicate with people using oral languages and therefore they have a few chances of integrating into society. In recent years, technology has tried to facilitate this task by developing informatics projects that helps to translate the sign languages into oral languages. Some projects performed to translate sign language into the oral language are limited just to spell the words witch are insufficient, because the people who use it does not communicate each other in that way, they use signs witch represent a concept. On the other hand, some projects have been performed using expensive electronic equipment, easily to damage and uncomfortable for anyone who uses it. This thesis is situated in the area of Artificial Vision. It presents the characterization of a set of manuals sign, which is part of Digital Image Processing, supporting future work witch performed translations to oral languages. The set of signs of the MSL have two grammatical categories: verb and noun. These are: (sit down, chair), (climb, ladder), (comb, hairbrush), (cut, scissors), (paint, brush). For this project, we investigated the different techniques of Digital Image Processing and Computer Vision in relation to the extraction of features and the recognition of sign language. Also we did a study about the structure of the MSL for a better understand of that language. In the other words we designed and implemented a computer system to perform the characterization of a set of signs proposed. Tests show that the extraction of features is done properly under the conditions proposed despite of some factors were not controlled like the illumination.

ii

Page 6: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

ÍNDICE CAPÍTULO I: INTRODUCCIÓN ..................................................................... 2 1.1. DESCRIPCIÓN DEL PROBLEMA

1.2. OBJETIVO GENERAL ........................................................................................ 2 1.3. JUSTIFICACIÓN Y BENEFICIOS ...................................................................... 3 1.4. ALCANCES Y LIMITACIONES ......................................................................... 4 1.5. ORGANIZACIÓN DE LA TESIS ........................................................................ 5

CAPÍTULO II: ESTADO DEL ARTE

2.1. ESTADO DEL ARTE ........................................................................................... 7 2.2. ESTADO DE LA PRÁCTICA ............................................................................ 16 

2.2.1. PRODUCTOS COMERCIALES Y NO COMERCIALES ......................... 16 2.3. COMENTARIOS ................................................................................................ 18

CAPÍTULO III: MARCO TEÓRICO

3.1. ESTUDIO DE LA LENGUA DE SEÑAS MEXICANA ................................... 20 3.1.1. INTRODUCCIÓN ........................................................................................ 20 3.1.2. DEFINICIONES EN LA LENGUA DE SEÑAS......................................... 20 3.1.3. MITOS SOBRE LA LENGUA DE SEÑAS ................................................ 21 3.1.4. IMPORTANCIA DE LA LENGUA DE SEÑAS EN MÉXICO ................. 21 3.1.5. CARACTERÍSTICAS DE LA LENGUA DE SEÑAS MEXICANA ......... 21 3.1.6. CARACTERÍSTICAS DE LAS SEÑAS A TRABAJAR ............................ 23 

3.2. TRATAMIENTO DIGITAL DE IMÁGENES ................................................... 27 3.2.1. ADQUISICIÓN DE IMÁGENES ................................................................ 27 3.2.2. PROCESADO .............................................................................................. 28 3.2.3. SEGMENTACIÓN ....................................................................................... 33 3.2.4. REPRESENTACIÓN Y DESCRIPCIÓN .................................................... 36 3.2.5. RECONOCIMIENTO E INTERPRETACIÓN............................................ 39 

3.3. COMENTARIOS ................................................................................................ 40 CAPÍTULO IV: DISEÑO Y DESARROLLO DEL SISTEMA

4.1. CARACTERIZACIÓN ....................................................................................... 43 4.2. DISEÑO DEL SISTEMA .................................................................................... 44 4.3. DESARROLLO DEL SISTEMA ........................................................................ 44 

4.3.1. ADQUISICIÓN Y DIGITALIZACIÓN ...................................................... 45 4.3.2. DESENTRELAZADO DEL VIDEO ........................................................... 46 4.3.3. IDENTIFICACIÓN DE CUADROS CLAVE ............................................. 49 4.3.4. LOCALIZACIÓN E IDENTIFICACIÓN DE OBJETOS ........................... 51 4.3.5. EXTRACCIÓN DE CARACTERÍSTICAS ................................................. 53 4.3.6. REPRESENTACIÓN Y ALMACENAMIENTO DE LA INFORMACIÓN ................................................................................................................................ 55 4.3.7. VECTORES CARACTERÍSTICOS ............................................................ 57 

4.4. COMENTARIOS ................................................................................................ 57 CAPÍTULO V: PRUEBAS Y RESULTADOS

5.1. AMBIENTE DE PRUEBAS ............................................................................... 60 5.2. PLAN DE PRUEBAS ......................................................................................... 60 

5.2.1. SEGMENTACIÓN CON DISTINTOS TONOS DE PIEL ......................... 61 

iii

Page 7: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

5.2.2. SELECCIÓN DE CUADROS CLAVE ....................................................... 65 5.2.3. CARACTERIZACIÓN ................................................................................ 70 5.2.4. CLASIFICACIÓN DE SEÑAS .................................................................... 72 

5.3. COMENTARIOS ................................................................................................ 78 CAPÍTULO VI: CONCLUSIONES

6.1. COMENTARIOS FINALES ............................................................................... 81 6.2. APORTACIONES ............................................................................................... 82 6.3. TRABAJOS FUTUROS ...................................................................................... 83

REFERENCIAS ............................................................................................................. 84 BASE DE VIDEOS ........................................................................................................ 87 

iv

Page 8: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

ÍNDICE DE FIGURAS Figura 3.1. Representación de estados de la seña cepillo ............................................... 24 Figura 3.2. Descripción con imágenes de la seña cepillo ............................................... 24 Figura 3.3. Representación de estados de la seña escalera ............................................. 25 Figura 3.4. Descripción con imágenes de la seña escalera ............................................. 25 Figura 3.5. Representación de estados de la seña pintar ................................................ 25 Figura 3.6. Descripción con imágenes de la seña pintar ................................................ 25 Figura 3.7. Representación de estados de la seña silla ................................................... 26 Figura 3.8. Descripción con imágenes de la seña silla ................................................... 26 Figura 3.9. Representación de estados de la seña tijeras ................................................ 26 Figura 3.10. Descripción con imágenes de la seña tijeras .............................................. 26 Figura 3.11. Etapas fundamentales del procesamiento de imágenes [33] ...................... 27 Figura 3.12. Entrelazado de un cuadro ........................................................................... 28 Figura 3.13. a) objeto entrelazado con ausencia de información y b) objeto desentrelazado ................................................................................................................ 28 Figura 3.14. Representación del modelo de color RGB ................................................. 29 Figura 3.15. Representación del modelo de color HSI ................................................... 29 Figura 3.16. Representación del modelo YCbCr conteniendo al modelo RGB ............. 30 Figura 3.17. Representación del modelo de color HCL ................................................. 31 Figura 3.18. a) imagen original, b) imagen dilatada y c) resultado de la resta de a y b . 37 Figura 3.19. a) circularidad cercana a cero y b) circularidad mayor a uno .................... 38 Figura 3.20. Imágenes para obtener excentricidad ......................................................... 38 Figura 3.21. a) orientación en el eje de las x´s y b) orientación en el eje de las y´s ....... 39 Figura 4.1. Sistema propuesto para la extracción de características de señas de la LSM 44 Figura 4.2. Vestimenta usada para la adquisición de videos .......................................... 45 Figura 4.3. Propiedades del archivo resultante de tipo AVI............................................ 46 Figura 4.4. Etapas del desentrelazado de videos ............................................................ 47 Figura 4.5. Configuración del algoritmo de desentrelazado basado en el área .............. 47 Figura 4.6. A la izquierda video entrelazado con ausencia de información y a la derecha video desentrelazado....................................................................................................... 48 Figura 4.7. A la izquierda video entrelazado y a la derecha video desentrelazado ........ 48 Figura 4.8. Proceso para la identificación de cuadros clave ........................................... 49 Figura 4.9. a) imagen original, b) segmentación de la piel y c) resta de a y b ............... 49 Figura 4.10. Área de procesamiento de píxeles dentro de la unidad del círculo ............ 50 Figura 4.11. Resultado de momentos de Zernike, además de máximos y mínimos ....... 50 Figura 4.12. Cuadros clave en secuencia de imágenes ................................................... 51 Figura 4.13. Localización e identificación de objetos .................................................... 52 Figura 4.14. Localización de objetos es una imagen ...................................................... 52 Figura 4.15. Vista del sistema cuando se carga el video ................................................ 53 Figura 4.16. Proceso de extracción de características .................................................... 54 Figura 4.17. Editor de clases del sistema........................................................................ 55 Figura 4.18. Presentación de las características extraídas en la interfaz de usuario ....... 55 Figura 4.19. Almacenamiento de la información ........................................................... 57 Figura 5.1. Persona No. 1 en prueba 1, a) imagen original y b) imagen segmentada .... 61 Figura 5.2. Persona No. 1 en prueba 2, a) imagen original y b) imagen segmentada .... 62 Figura 5.3. Persona No. 2 en prueba 1, a) imagen original y b) imagen segmentada .... 62 Figura 5.4. Persona No. 2 en prueba 2, a) imagen original y b) imagen segmentada .... 63 Figura 5.5. Persona No. 3 en prueba 1, a) imagen original y b) imagen segmentada .... 63 Figura 5.6. Persona No. 3 en prueba 2, a) imagen original y b) imagen segmentada .... 64 

v

Page 9: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Figura 5.7. Persona No. 4 en prueba 1, a) imagen original y b) imagen segmentada .... 64 Figura 5.8. Persona No. 4 en prueba 2, a) imagen original y b) imagen segmentada .... 65 Figura 5.9. Secuencia de imágenes de la seña cepillo, resaltando cuadros clave ........... 66 Figura 5.10. Secuencia de imágenes de la seña tijeras, resaldanto cuadros clave ......... 67 Figura 5.11. Comparativo de la seña {cepillo,peinarse} realizada por dos personas diferentes ........................................................................................................................ 68 Figura 5.12. Comparativo de la seña {tijeras,cortar} realizada por dos personas diferentes ........................................................................................................................ 68 Figura 5.13. Comparación de la seña {pintar,brocha} realizado por dos personas diferentes ........................................................................................................................ 69 Figura 5.14. Animación de las características en la interfaz de usuario ......................... 70 Figura 5.15. Representación gráfica de las características de la seña (cepillo,peinarse) 70 Figura 5.16. Comparación de los cuadros originales y los animados ............................. 71 Figura 5.17. Representación de objetos unidos .............................................................. 71 Figura 5.18. Señas modelo a buscar en cada secuencia de imágenes ............................. 72 Figura 5.19. Interfaz de Weka 3.5 mostrando distintos tipos de clasificadores ............. 74 Figura 5.20. Ubicación en Weka 3.5 de algoritmo de búsqueda .................................... 74 

vi

Page 10: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

vii

ÍNDICE DE TABLAS Tabla 1. Lenguas habladas en México.............................................................................. 3 Tabla 2. Comparación de tiempo de procesamiento con y sin selección de cuadros clave ........................................................................................................................................ 66 Tabla 3. Clasificación del conjunto de entrenamiento con persona no. 2 ...................... 75 Tabla 4. Resultado de la clasificación perteneciente a la persona a la persona no. 1 ..... 75 Tabla 5. Resultado de la clasificación perteneciente a la persona no. 3 ......................... 75 Tabla 6. Resultado de la clasificación perteneciente a la persona no. 4 ......................... 76 Tabla 7. Resultado de la segunda clasificación perteneciente a la persona no. 2 ........... 76 Tabla 8. Resultado de la segunda clasificación para la persona no. 1 ............................ 77 Tabla 9. Resultado de la segunda clasificación para la persona no. 3 ............................ 77 Tabla 10. Resultado de la segunda clasificación para la persona no. 4 .......................... 77 Tabla 11. Resultado de la tercera clasificación de la persona no. 2 ............................... 78

Page 11: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

CAPÍTULO I

1. INTRODUCCIÓN En este capítulo se define la problemática a tratar en este proyecto, que se encuentra relacionado con la Lengua de Señas Mexicana (LSM). Se describen los objetivos generales y particulares del proyecto, justificación, alcances y limitaciones del mismo. Finalmente se presenta la organización del presente documento.

Page 12: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo I: Introducción

1.1. DESCRIPCIÓN DEL PROBLEMA La lengua de señas surgió por la necesidad natural de las personas con problemas del habla para comunicarse. Dicha lengua se efectúa de manera visual y espacial que se dificulta cuando se quiere llevar acabo una comunicación con personas que utilizan las lenguas orales. En los últimos años ha habido propuestas de desarrollar sistemas computacionales para transcribir la lengua de señas con la finalidad de establecer una comunicación con personas que tienen capacidades diferentes. Estos sistemas han tenido deficiencias en el momento de captar todas las características corporales que utilizan las lenguas de señas, especialmente los elementos no manuales como los gestos. La mayoría de estos se centran en mostrar las letras del abecedario, las cuales no son de gran utilidad para aprender la LSM porque la comunicación de la lengua de señas no se realiza deletreando las palabras [1]. Este trabajo se enfoca en la caracterización de señas manuales con técnicas del área de visión por computadora. La complejidad que presenta la caracterización visual de un conjunto de señas de la lengua de señas mexicana es:

1. el manejo de las dos manos; en algunos trabajos [2] [3] [4] sólo se centran en el tratamiento de una sola mano,

2. la configuración de las imágenes a tratar es compleja. En la LSM se tiene una configuración complicada ya que existe una intersección y/o deformación de las manos o con otras partes del cuerpo,

3. se deben segmentar objetos deformables o alfaflexibles, 4. el seguimiento de objetos. Es necesario llevar a cabo tal proceso ya que

en cada cuadro los objetos cambian de posición y forma. 5. la conformación de la seña. Ya que no existe una duración definida para

realizar cada seña. 1.2. OBJETIVO GENERAL El objetivo principal de este trabajo es realizar una caracterización visual, en el área de visión por computadora, de un conjunto de señas (considerando sólo las manos) de la lengua de señas mexicana en secuencias de imágenes con técnicas de procesamiento digital de imágenes. El conjunto lo conforman señas particulares que tienen dos categorías gramaticales: verbos y sustantivos llamados también verbos sustantivados. Este es: (silla, sentarse), (escalera, subir), (cepillo, peinarse), (tijeras, cortar), (brocha, pintar).

2

Page 13: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo I: Introducción

3

1.3. JUSTIFICACIÓN Y BENEFICIOS En México a las personas con problemas del habla, en particular los sordo-mudos, no se les ha dado la atención debida manteniéndolos al margen de la sociedad con poca oportunidad de progreso. Sin embargo, el 10 de junio de 2005 se decretó la Ley general de las personas con discapacidad donde se reconoce entre otras cosas [5]:

1. Que la LSM es una lengua nacional, al igual que las lenguas

indígenas y el español. 2. El derecho a la educación obligatoria, gratuita y bilingüe en LSM y

español. 3. El derecho a la interpretación y la estenografía proyectada

(subtítulos) en toda la televisión educativa, en noticieros y boletines de urgencia nacional, regional o local.

4. El derecho a acceder a la jurisdicción del estado por medio de intérpretes de la LSM, así como de estenografía proyectada [6].

Con la caracterización visual, que se pretende en el presente trabajo, se obtendría un apoyo en el tratamiento digital de imágenes de la lengua de señas. En particular, los datos generados en la caracterización darán paso al reconocimiento digital de las señas y retroalimentarán a otro sistema1 para que en conjunto se obtenga una herramienta de apoyo al proceso enseñanza/aprendizaje de la LSM.

La lengua de señas ha cobrado gran importancia en los últimos años, ya que la población que utiliza dicha lengua, se ha incrementado considerablemente. A continuación se presentan estadísticas con las diferentes lenguas que actualmente se hablan en México [7], cabe mencionar que existen lenguas que por ser minoritarias aún no se ha realizado una evaluación de la misma.

Tabla 1. Lenguas habladas en México Hablantes Lengua

87,000-100,000 Lenguajes de señas

1,697,000 Náhuatl

1,695,000 Maya

596,000 Otopame

531,000 Zapoteca

362,000 Mixteca

272,500 Totonaca

205,000 Popoloca

170,000 Mixe-Zoque

126,000 Taracahita

120,000 Tarasca

75,000 Tlapaneca

68,300 Chinanteca

35,000 Corachol

28,000 Amuzga

24,000 Pimana

18,400 Huave

4,550 Tequistlateca

1 Tesis en desarrollo “Herramienta para el manejo de objeto y movimiento en lengua de signos”.

Page 14: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo I: Introducción

4

820 Yumana

700 Seri

300 Algonquina

En la tabla 1 se observa el número de hablantes que tiene la lengua de señas, resaltando que dicha lengua se encuentra entre las diez más habladas, por tal motivo tiene una gran importancia en la sociedad mexicana. Como consecuencia de dicha importancia se redactó, como ya se mencionó, la Ley general de las personas con discapacidad, publicada en el Diario Oficial de la Federación el 10 de junio de 2005 [5].

Así se puede decir que es realmente indispensable hacer un estudio para la Lengua de Señas Mexicana (LSM), ya que estas personas con capacidades diferentes también forman parte de nuestra sociedad y no se han desarrollado estudios informáticos adecuados para la LSM. 1.4. ALCANCES Y LIMITACIONES Los alcances

Realizar un análisis del estado del arte para definir el conjunto de rasgos que caracterizarán las señas manuales.

El presente trabajo se aplica al siguiente conjunto de señas de la LSM: (silla, sentarse), (escalera, subir), (cepillo, peinarse), (tijeras, cortar), (brocha, pintar).

Se trabaja con secuencias de imágenes. Dentro del procesamiento digital de imágenes sólo se realiza la

caracterización2. El formato del archivo que contiene las imágenes es AVI (Audio Video

Interleaved). Se creará una base de conocimientos, conteniendo las características

de las señas manuales (anteriormente mencionadas) en la lengua de señas mexicana.

La caracterización será invariante a la escala. Entre las limitaciones de este proyecto se ha considerado:

No se realiza el reconocimiento. No se trabaja en tiempo real. La iluminación y objetos de la escena son controlados. Se usa una cámara digital fija.

2 Las características adecuadas para describir algún fenómeno dado.

Page 15: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo I: Introducción

5

1.5. ORGANIZACIÓN DE LA TESIS El documento de tesis se encuentra organizado de la siguiente forma: En el capítulo 2 se presenta el estado del arte. Se mencionan los trabajos que están relacionados con la extracción de características de diferentes lenguas de señas como la americana y japonés entre otras. De igual forma se presenta el estado de la práctica que menciona algunos proyectos desarrollados para la traducción de la lengua de señas. En el capítulo 3 se describe la teoría para el desarrollo de un sistema de caracterización de señas, en el que se estudia la lengua de señas mexicana, las etapas del procesamiento digital de imágenes así como la visión por computadora. En el capítulo 4 se expone el diseño y desarrollo del sistema para realizar la caracterización de señas en la lengua de señas mexicana. En el capítulo 5 se presentan las pruebas y resultados de la caracterización de las señas. Finalmente en el capítulo 6 se expresan las conclusiones del presente proyecto y los trabajos futuros.

Page 16: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

CAPÍTULO II 2. ESTADO DEL ARTE En este capítulo se estudia el estado del arte con referencia a la caracterización y reconocimiento en distintas lenguas de señas, en el cual se destacan las principales características a extraer. De igual forma se revisa el estado de la práctica con relación a distintas lenguas de señas.

Page 17: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

2.1. ESTADO DEL ARTE En el estado del arte se encontró que los autores usaron accesorios en las manos como guantes electrónicos o guantes de algodón de colores, sin embargo estudios más recientes el proceso de reconocimiento se hace de una manera más natural, es decir, ya no se usan accesorios en las manos. Por otra parte, algunos autores le dan mayor relevancia a la identificación y seguimiento del objeto que a la tarea del reconocimiento de la seña. RECONOCIMIENTO DE VIDEOS DE LA LENGUA DE SEÑAS AMERICANA EN TIEMPO REAL USANDO MODELOS OCULTOS DE MARKOV [8] Presenta un sistema con el uso de una cámara de video a color para el seguimiento de las manos, y para interpretar el lenguaje de señas americano se usaron los modelos ocultos de Markov. Este trabajo no pretendió realizar un seguimiento de las manos muy estricto ya que se asegura que una información detallada no es necesaria para la interpretación de la lengua de señas, es decir, se considera la descripción del curso de la forma de la mano, su orientación y la trayectoria. El objetivo de dicho trabajo es la creación de un sistema, garantizando que cada componente (seguimiento, análisis y reconocimiento) se ejecuten en tiempo real. En donde la prioridad es obtener un bajo porcentaje de error para poder reconocer palabras como: pronombres, verbos y sustantivos. El señante usó un guante de color para cada mano (amarillo para la mano derecha y anaranjado para la mano izquierda) y tiene que estar sentado en una silla de frente a la cámara. El video se obtuvo en formato NTSC a 5 fps (por sus siglas en inglés, cuadros por segundo) con un tamaño de 320x243 píxeles.

Para la extracción de características se consideraron los siguientes aspectos:

• Posición (x,y) del centroide de la mano. • Excentricidad de la mano. • Ángulo del eje de menos inercia de la mano.

En las pruebas se encontraron algunos problemas atribuidos a la iluminación pero no fue un factor que ocasione errores mayores en el sistema. Usando los modelos ocultos de Markov entrópicos se realizaron los pasos básicos del modelado de HMM y las tareas de entrenamiento, finalmente para el reconocimiento se utilizó el algoritmo Viterbi. El entrenamiento se hizo con 395 oraciones y 99 para la etapa de pruebas; es importante mencionar que las oraciones para las pruebas no fueron utilizadas en el entrenamiento. Finalmente se comprobó que el sistema tiene una eficacia del 99.2%.

7

Page 18: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

CARACTERÍSTICAS RELEVANTES PARA EL RECONOCIMIENTO DE LA LENGUA DE SEÑAS BASADO EN VIDEOS [9]

Se recuerdan las características manuales y no manuales de la lengua de señas alemana, estas son: forma de la mano, orientación de la mano, localización, movimiento, la mirada, expresiones faciales, movimiento de la boca, posición y movimiento de la cabeza. Es elemental mencionar que, a la mano que realiza los movimientos de la seña se le llama mano dominante, y la otra mano es llamada mano no dominante. Un punto importante es que las oraciones en las lenguas orales es lineal (una palabra seguida de otra) y en donde en las lenguas de señas existe una estructura espacial y temporal, y que además no es tan estricta como en las lenguas habladas. Para facilitar la extracción de características se utilizó un guante de algodón de colores, en donde se usaron 7 colores diferentes, uno por cada dedo y otros dos para la palma y el dorso de la mano respectivamente. El guante de colores se utilizó para la mano dominante y se utilizó un guante de color uniforme para la mano no dominante.

Las características que se extrajeron son:

1. Localización: a. Coordenadas (x,y) del centro de gravedad de la mano con

respecto a los ejes del cuerpo (obtenidos con clasificador basado en reglas).

2. Forma de la mano: a. Posición de los centros de gravedad de los colores, solo de

la mano dominante. 3. Orientación:

a. Ángulos de los dedos (mano dominante) con respecto al eje x del cuerpo.

Cabe mencionar que los tiempos de las señas de las personas llegan a variar hasta con la misma persona, por tal motivo, se implementó una topología más a los HMM (modelos ocultos de Markov). Dentro de los HMM existe un modelo llamado “Bakis”, que permite la transición de un estado a otro. Con esta estructura, junto con los HMM, el sistema es capaz de compensar los diferentes tiempos de las señas.

En los experimentos se utilizó una cámara a color para obtener la secuencia de imágenes, en donde se obtenían 13 fps (cuadros por segundo). Además, algunas restricciones de la adquisición del video fueron la ropa de la persona señante y el fondo de la escena ya que debía tener un color uniforme. También el rango para cada oración fue de 2 a 9 señas. El sistema realizó el entrenamiento en 3.5 hrs. y 0.5 hrs. para probar los datos que fueron grabados para una base de datos de 52 señas y el doble de tiempo para 97 señas.

Se logró obtener una clasificación correcta del 94% (utilizando todas las características) a un 2.2% (utilizando solo características de la mano no dominante) dependiendo de las características utilizadas. Donde el atributo que

8

Page 19: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

obtiene un mayor porcentaje es: el tamaño de las áreas, es decir, el tamaño de los colores de ambas manos. EXTRACCIÓN DE CARACTERÍSTICAS DE LA MANO PARA EL RECONOCIMIENTO DE LA LENGUA DE SEÑAS [10] Se propone un método para obtener las características de la mano obtenidas de una secuencia de imágenes, esto es utilizando la lengua de señas japonesa (JSL) en escenarios complejos, y finalmente reconocer las palabras en JSL.

En el proceso de segmentación de las partes (manos y cara) se utilizó el modelo de color HSV, pero para evitar que los objetos de fondo de la imagen no afecten la extracción de la persona se pasó el modelo de HSV a coordenadas x, y, z. Para el proceso de seguimiento de las manos se predice la posición de cada mano con respecto a su posición anterior, velocidad y aceleración. Además, se obtienen las texturas de la cara y de las manos, con la intención de usarla en caso de que haya un traslape de los objetos. Las características extraídas fueron:

• El radio de la elipse, que contiene a la mano, en su eje menor. • Posición del centro de la mano con respecto a la región de la cara. • Área de la región de la mano. • Dirección del movimiento de la mano en las coordenadas de la imagen. • Dirección de la región de la mano en las coordenadas de la imagen. • Número de elementos salientes (dedos).

En la etapa de reconocimiento se utilizaron los modelos ocultos de Markov (HMM) con ayuda del algoritmo Viterbi. Es importante mencionar que las muestras (señales) están divididas una por una, es decir, el sistema no identificó de manera automática dónde iniciar y detener la secuencia de imagen de una palabra o seña, sino que cada palabra ya se encontraba aislada.

En los experimentos se utilizaron 70 palabras y la velocidad de las señas fueron realizadas para usuarios de nivel intermedio. Después de experimentar con las palabras, y de utilizar 6 características de la mano, sólo se reconocieron 65 palabras (92.8%), donde dichas palabras contienen traslapes con la cara y las mismas manos. Es importante mencionar que no se utilizó ningún accesorio en las manos, sino que se identificaron las áreas de la piel.

9

Page 20: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

VECTOR CARACTERÍSTICO LINGÜÏSTICO PARA LA INTERPRETACIÓN DE LA LENGUA DE SEÑAS [11]

El objetivo es de reconocer señas en la lengua de señas británica (BSL), en secuencia de imágenes usando una alta clasificación y un mínimo de datos de entrenamiento. Se presenta una aproximación capaz de alcanzar niveles altos de reconocimiento con un simple entrenamiento de la seña (palabra). Lo anterior se logró utilizando características especificas de la mano, apoyado con los modelos ocultos de Markov (HMM) y el análisis del componente independiente (ICA). En la primera fase se describen las características que se extraen de la mano y que a continuación se mencionan:

• HA: Las posiciones de la mano respecto una de la otra, que se determinan a partir de los centroides de cada mano.

• TAB: La posición de las manos categorizadas en términos de su proximidad a regiones claves del cuerpo (como el pecho, cabeza, hombros, etc.) usando la distancia de Mahalanobis.

• SIG: Movimiento de las manos junto con su respectivo tamaño. • DEZ: Formas de la mano, que para el caso de la lengua de señas

británica (BSL) se encuentran agrupados en 22 categorías. En la segunda fase se hace la descripción del modelo que se utiliza para la extracción de características de las señas, además, con el Análisis del Componente Independiente (por sus siglas en inglés, Independent Component Analysis) se logra quitar el ruido que se presenta en las señales y se evita que se guarden datos innecesarios, finalmente se utilizan los HMM para clasificar las señas. Se utilizaron 49 señas manuales que fueron repetidas 5 veces, en promedio, para formar un total de 249 muestras. De éstas, sólo se tomaron 49 para el entrenamiento y 200 para las pruebas. Los resultados arrojaron un 84% en la clasificación y, por otro parte,en una segunda prueba en que las muestras no contenían señas ambiguas se logró obtener 97.67% en la clasificación. Finalmente se demostró que las características HA, TAB y SIG son suficientes para discriminar las palabras en una base de datos de 49 palabras. Este trabajo demostró la alta clasificación que se puede llegar a obtener con un entrenamiento simple para cada seña, esto es gracias al conjunto de características extraídas y a la metodología que se utilizó para clasificar las señas. Sin embargo este trabajo no aborda los problemas de segmentación y seguimiento de los objetos (manos, cabeza, etc.), se da por hecho que se hacen de forma correcta.

10

Page 21: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

CLASIFICADOR CON ARQUITECTURA MULTICAPA BASADO EN HMM Y SVM PARA EL RECONOCIMIENTO DE LA LENGUA DE SEÑAS CHINA USANDO UN VOCABULARIO AMPLIO [12]

Se utilizaron los clasificadores de HMM (modelos ocultos de Markov) y SVM (maquinas de soporte vectorial) para desarrollar un sistema híbrido. Se obtuvo un conjunto de señas confundibles de la lengua de señas china (CSL) y se combinaron HMM y SVM para el reconocimiento de dicho conjunto de señas. En primer lugar los HMM son usados para reconocer las señas comunes, después las señas son procesadas para identificar cuáles son aquellas que generan confusión. Una vez que se ha tenido el conjunto de señas, en las que los HMM no pueden distinguir entre algunas señas, se aplica SVM para resolver la distinción de las señas. Una parte esencial de este trabajo fue el conjunto de datos que se utilizó. En donde es importante hacer notar que, cuando el número de señas se vuelve grande, dichas señas se vuelven muy parecidas y va aumentando la complejidad para distinguir entre cada seña. Esto es un problema que radica principalmente en los HMM, ya que dicho modelo se entrena con las señas por separado utilizando una etiqueta para el entrenamiento.

Para el reconocimiento se hizo una arquitectura multicapa tomando las principales ventajas de cada paradigma. En donde los HMM tienen la ventaja de ser capaces de manejar datos dinámicos pero cuando las muestras no son suficientes este modelo no tiene un buen funcionamiento, y donde esto se convierte en la ventaja de los SVM ya que pueden generalizar y discriminar los datos.

Los datos de prueba consistieron en 59304 muestras, en donde existen 4942 señas que fueron realizadas 2 veces por 6 personas. Se utilizaron 2 guantes electrónicos (cyber gloves) y 3 rastreadores. En donde 2 de los rastreadores se colocaron en las muñecas de las personas a filmar, y uno se fijó en la parte posterior de la persona.

Finalmente se comprobó que con la arquitectura propuesta de multi-capas utilizada en el reconocimiento de señas de la CSL, se incrementó el porcentaje de reconocimiento en un 6.19% llegando a un promedio de 89.40%, con base en una simple HMM. De igual forma se obtiene un 0.4% de incremento en el tiempo de reconocimiento, lo cual se puede decir que es un incremento pequeño. Cabe mencionar que este trabajo utiliza guantes electrónicos y que aún así se obtuvo un porcentaje bajo de reconocimiento, en comparación con aquellos en los que se utiliza totalmente visión por computadora, sin embargo, una ventaja es que utilizan una gran cantidad de muestras.

11

Page 22: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

RECONOCIMIENTO AUTOMÁTICO DE LA LENGUA DE SEÑAS AUSTRALIANA [13] Se desarrolló un sistema de reconocimiento automático de la lengua de señas australiana (ASL). El sistema fue diseñado para seguir los tres objetos (la cabeza y las dos manos) en una secuencia de imágenes, además de extraer las características de las manos. El seguimiento de los objetos (cabeza y manos) consiste en dos etapas: a) detección del color de la piel y b) la segmentación de objetos ocluidos. En primer lugar se detectó el color de la piel usando el análisis del componente principal (PCA) en el espacio de color RGB. Se aplican la distancia de Mahalanobis y la distancia Euclidea, que fueron el umbral para detectar las regiones de piel, y finalmente se aplicaron operaciones morfológicas a las imágenes para obtener contornos limpios en la imagen de salida.

Para la segmentación de objetos ocluidos se realizó un seguimiento del contorno de los objetos en movimiento que se encuentran en un primer plano y separándolos de los objetos del fondo, usando una combinación de señales de movimiento y utilizando el algoritmo snake o modelo de contorno activo.

Una vez que se han identificado los tres objetos clave (cara y manos), se extraen las características para el reconocimiento. Dichas características son invariantes a la escala, la rotación en 2D y la velocidad del señante. Las características utilizan propiedades geométricas relativas a los objetos identificados, específicamente la posición, formas y dirección del movimiento de las manos. Así se obtienen los ángulos de las manos con respecto a la cara y a los brazos, para identificar la velocidad y la dirección de las mismas.

En la etapa de entrenamiento se usó también el algoritmo Viterbi para garantizar que los vectores de entrada contengan el menor ruido posible, y finalmente para la etapa de reconocimiento se utilizaron los HMM (Modelos Ocultos de Markov). En los resultados se reportó que se utilizaron 379 muestras, contenidas en 14 oraciones, de las cuales 216 se utilizaron para el entrenamiento y 163 para las pruebas. El conjunto de pruebas contenían muestras de las 14 oraciones, el sistema alcanzó un 97% de reconocimiento a nivel de oración y un 99% a nivel de palabra.

Este último trabajo ha sido el único en donde se reportó el reconocimiento a nivel de oración y a nivel palabra, y en ambos se presenta una buena aproximación.

12

Page 23: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

RECONOCIMIENTO DE LA LENGUA DE SEÑAS INVARIANTE AL PUNTO DE VISTA [14]

El trabajo propone una nueva metodología para la adquisición de datos a obtener al utilizar la lengua de señas. La principal razón es que en otros métodos se hace el uso de guantes con sensores que resultan ser costosos y fáciles de dañar. Por el contrario con el uso de una cámara de video puede resultar más natural y conveniente a los usuarios. Entonces el objetivo del presente trabajo es el de proponer un marco con las tareas de conversión del espacio temporal de reconocimiento como una tarea de verificación en una visión estéreo. En dicho trabajo se utilizó un guante de algodón, en donde cada dedo tiene un color diferente incluyendo la palma y el dorso. Se hace hincapié en que la lengua de señas siempre existe una mano dominante y la otra tiene un rol de accesorios o un rol no dominante, y por lo general la mano izquierda juega el papel de no dominante. En la adquisición de la secuencia de imágenes (video), la persona se encontraba de frente a la cámara, a estas señas se les denominó señas plantilla. Después se introduce una nueva secuencia de imágenes desconocida, esta secuencia puede ser tomada desde distintos ángulos. En dicho proceso se utiliza la geometría epipolar para emparejar las imágenes, en otras palabras, este método trata de empalmar las imágenes tomando en cuenta la rotación, traslación y escala. Si concuerdan las imágenes (plantilla y la desconocida) quiere decir que la seña desconocida pertenece a la categoría de la plantilla. En donde la distancia métrica entre la entrada desconocida y su correspondiente plantilla, será la más pequeña entre todas las distancias. En los resultados se afirma que se presentó un nuevo método para el reconocimiento de la lengua de señas, en donde principalmente se concentra en el reconocimiento temporal de señas que varían su duración y con diferentes ángulos de vista. Para probar el método se utilizaron 100 diferentes señas de la lengua de señas china (CSL), las señas para las plantillas fueron tomadas de frente al señante (persona) y las señas de entrada de prueba tuvieron un ángulo de 0º +/- 30º. Finalmente la metodología presentada arroja un porcentaje de 97% correcto en el reconocimiento de las señas.

En conclusión la idea básica de este trabajo, es el de trabajar las tareas de reconocimiento como tareas de verificación utilizando una visión estéreo en donde este método puede ser fácilmente usado en otras áreas como en el reconocimiento de la lectura de los labios. Finalmente un punto muy importante que el autor no menciona es la complejidad computacional, ya que existe una sincronización de las señas inherente al método presentado.

13

Page 24: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

MEJORAMIENTO DEL SEGUIMIENTO DEL ROSTRO Y LA MANO PARA EL RECONOCIMIENTO DE LA LENGUA DE SEÑAS [15] El sistema se dividió en 2 etapas: a) inicialización donde las características del color de la piel son seleccionadas, b) seguimiento de la cara y las manos. Para la segmentación del color de la piel se utilizó el modelo de color YCbCr, así se identificó correctamente la cara y manos; se trató de eliminar la mayor cantidad de ruido posible utilizando operaciones morfológicas (dilatación y erosión). Una observación de gran importancia, es que la región de la cara incluyendo el cuello llega a tener 1600 píxeles y las manos sólo 400. Enseguida se separa la región de la cara de toda la cabeza utilizando una detección de borde. Es claro que el conjunto de puntos que conforman la cara tiene movimientos ligeros, mientras que la trayectoria de las manos tiene un amplio espacio donde se mueve verticalmente u horizontalmente. De igual forma es trascendental mencionar que la videocámara de color que se utilizó entrega una secuencia de imágenes en RGB, y que se tiene que hacer la conversión a YCbCr. Para el seguimiento de la cara es fácil ya que tiene poco movimiento pero para el caso de las manos se construyó una estimación usando la velocidad y aceleración entre los cuadros consecutivos. A partir del centroide de cada mano se localizan todos los píxeles correspondientes. Los primeros tres cuadros se usaron para la localización de las manos, además de que se guardan para el cálculo de la velocidad y la aceleración. En la etapa de experimentación se introdujeron los archivos en formato AVI (Audio Video Interleaved), con una frecuencia de 15 fps (cuadros por segundo) y con una dimensión de 320x240 píxeles. El método propuesto fue capaz de disminuir el error de posición en un 96.87%, con un incremento en el tiempo de procesamiento del 4%. Se concluyó que el sistema presentado puede hacer el seguimiento de la cara y de las manos con una gran precisión aunque aumentando ligeramente la complejidad computacional, sin la necesidad de algún accesorio extra en la cara o en las manos (guantes electrónicos o de algodón). Como en casos anteriores no se menciona si el sistema es capaz de hacer el seguimiento y reconocimiento en tiempo real.

SEGUIMIENTO AUTOMÁTICO EN 2D DE LA MANO EN SECUENCIAS DE VIDEO [16] En objetivo fue el proponer un método para el seguimiento de las manos en 2D para ser usado en cualquier lengua de señas, por ejemplo: identificando los bounding box de las dos manos en cada cuadro (de la secuencia de imágenes).

14

Page 25: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

15

El cuerpo y la cara pueden moverse, pero en menor proporción en comparación de las manos, por tal motivo se comparan dos cuadros para calcular los objetos que tenían mayor movimiento. Se propone un método probabilístico para identificar el comienzo y el fin de las trayectorias de las manos, en donde la localización es ambigua (como puede ser en un traslape de las manos). La desventaja con la que cuentan los métodos propuestos hasta ese momento, comenta el autor, es que los métodos necesitan una inicialización manual de los parámetros antes de empezar el seguimiento, además de que fallan cuando el proceso de seguimiento se pierde en un instante dado.

Cuando el proceso de seguimiento es interrumpido en un instante hace una selección de píxeles candidatos para cada uno de los objetos, y la localización de las manos se utilizó el color de la piel ya que el color de fondo era uniforme. El trabajo se basa, esencialmente, en el hecho de que el movimiento de las manos ocasiona residuo3 dando información sobre la trayectoria y la localización de las manos. Es por eso que entre cada cuadro se obtienen los residuos, y por otro lado se menciona que es “fácil” detectar la cara, ya que tiene una gran cantidad de píxeles y no tiene un movimiento tan brusco como el de las manos.

Cuando se van obteniendo los residuos entre los cuadros, se va aplicando el algoritmo Viterbi. Este algoritmo ayuda a seleccionar la mejor trayectoria del objeto, ventaja cuando existía un traslape de las manos, ya que prevenía que el seguimiento fallara. Lo anterior ayuda a que el proceso de seguimiento de los objetos sea robusto.

Para las pruebas se utilizaron secuencias de video con 8 bits en niveles de gris. Fueron utilizados 4 videos con 200 cuadros cada uno, además 2 videos pertenecen a la ASL (american sign language) y 2 videos a la FSL (flemish sign language). Finalmente los resultados arrojan un 90% y un 66.5% para cada video en ASL, mientras que se obtuvo un 75.8% y un 81.8% en FSL. UN SISTEMA UNIFICADO PARA LA SEGMENTACIÓN Y SEGUIMIENTO DEL ROSTRO Y LAS MANOS EN EL RECONOCIMIENTO DE LA LENGUA DE SEÑAS [17] Se hizo una combinación de información de: color, movimiento y posición. Dicha información extraída se utilizó para la segmentación de las manos y cara de una persona (utilizando la lengua de señas), además que se aborda el problema del traslape natural de las manos. Así, el sistema que se propuso estaba integrado por dos áreas principales: a) segmentación de la piel y b) seguimiento del objeto.

La información que se utilizó del color es importante, ya que una vez que se ha obtenido el color de la piel (en manos y cara) se puede diferenciar entre otros

3 Píxeles (al azar) que formaron parte del algún objeto en un cuadro anterior al que se trabaja.

Page 26: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

colores. La información del movimiento fue útil para diferenciar los píxeles del primer plano con los de fondo. Y finalmente, la posición ayuda a reducir el espacio de búsqueda de los objetos (manos y cara).

Para la obtención de diferentes tonos de piel, la información del color, se entrenó una máquina de soporte vectorial que regresa los valores que representan qué tan parecidos son los píxeles de la piel. La información del movimiento es calculada a partir de la diferencia de la imagen anterior con la actual, en donde las imágenes son tratadas en escala de grises. Finalmente para la información de la posición se utilizó un filtro de Kalman que mantiene el seguimiento del objeto, su posición actual y predice su nueva posición en el siguiente cuadro. El problema del traslape se da entre las manos y la cara, esto se debe a la naturaleza inherente del lenguaje de señas.

La etapa de experimentación se utilizó una base de datos de videos (de la lengua de señas), con diferentes personas y en diferentes condiciones de iluminación. En los videos se encontró que el 40% de las imágenes analizadas contenían traslapes de los objetos (entre las manos y la cara) y en donde el error del sistema fue alrededor de un 6.5%.

Este trabajo presentó una forma de combinar la información (color, movimiento y posición) de los objetos, que hace innecesario el uso de guantes electrónicos o con colores. Los resultados mostraron que el porcentaje de error en el seguimiento de los objetos fue bajo, considerando que casi la mitad de las secuencias de imágenes contenían traslapes de los objetos. Así el problema de seguimiento y segmentación ha sido tratado como un problema unificado, donde el seguimiento ayuda a obtener una mejor segmentación y con una buena segmentación se obtiene un mejor seguimiento de los objetos. 2.2. ESTADO DE LA PRÁCTICA La mayoría de las aplicaciones relacionadas con el trabajo de tesis se limitan a ser diccionarios/traductores de una lengua señas a una lengua escrita. Estas aplicaciones pueden encontrarse con dibujos animados [18] o videos reales [19], y sólo algunas aplicaciones tienen ejemplos de cómo utilizar dicha seña dentro de una oración. También se encontró que se siguen desarrollando guantes electrónicos, pero lo que no ha cambiado son las desventajas que estos traen (costos, portabilidad, etc.). De igual forma se observó que la lengua de señas es muy importante para la comunicación entre las personas con capacidades diferentes, y aún mejor, se están utilizando las nuevas tecnologías [18]. 2.2.1. PRODUCTOS COMERCIALES Y NO COMERCIALES [19] es un diccionario bilingüe del español escrito y la lengua de señas mexicana (LSM). Éste muestra al usuario cómo se debe realizar la seña por medio de una secuencia de imágenes (video) en una PC, y también ofrece uno o varios ejemplos de cómo se utiliza le seña dentro de una oración.

16

Page 27: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

Para el vocabulario que incluye DIELSEME [19] se utilizó como referencia la base de Datos del Léxico Infantil de El Colegio de México. Esta base de datos está integrada por 7923 vocablos. De éstos se seleccionaron los primeros 2137, que representan el 26.9% del total, de acuerdo a los criterios de mayor frecuencia y dispersión en la muestra. Este software es distribuido por la Secretaría de Educación Pública (SEP) en México. [20] desarrolló un guante traductor para sordomudos, donde es tratada esencialmente la dactilología, es decir, la representación de una letra en lengua de señas. Algunas funciones fueron agregadas al guante, como es el caso de borrar y espacio, para escribir correctamente las palabras en la computadora. De igual forma se agregó la función, en el software, de convertir el texto proveniente del guante en voz. Los autores comentan que de esta forma se puede llegar a la comunicación entre las personas que hablan lenguas orales y las lenguas de señas. El guante traductor para sordomudos que se presentó sólo aborda la dactilología interpretando letra por letra. Esto representa una desventaja ya que las personas que utilizan las lenguas de señas (como la LSM) no se comunican deletreando las palabras, por el contrario, utilizan señas que representan conceptos. [18] es una página en la Web que presenta un diccionario de la lengua de señas británica. Cuenta con una interfaz gráfica de usuario que muestra, por medio de varios personajes animados, la configuración que debe tener la mano para representar la seña. Este trabajo en la Web no contiene ejemplos de cómo usar la seña dentro de una oración y el número de señas que contiene es limitado, de aproximadamente 212 en 9 categorías (animales, números, colores, etc.). [21] blue sign translator es un traductor del italiano escrito a la lengua de señas italiana (ISL), que utiliza tecnología short message service (SMS) en equipos móviles. El objetivo de dicho software es de traducir los mensajes de texto en mensajes de señas, es decir, en lugar que el usuario reciba mensajes en texto los recibe en dibujos animados (señas). El software aprovecha los avances en tecnologías móviles (celulares y PDA´s –personal digital assistant-), y la comunidad sordomuda se ha visto beneficiada ya que una de las ventajas es la traducción que no se deletrean las palabras del mensaje (dactilología) sino por el contrario, los mensajes son mostrados al usuario en señas que representan un determinado concepto de la lengua de señas italiana. [22] the accele glove es un proyecto desarrollado en la universidad de Washington E.U.A. por José Luis Hernández Rebollar (Mexicano). En este proyecto se desarrolló un guante electrónico que traduce los movimientos de la lengua de señas americana (ASL) en texto o voz.

17

Page 28: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo II: Estado del arte

18

Este proyecto que convierte las señas en conceptos, y no es necesario el deletreo de las palabras (dactilología). Un aspecto importante es que se tomaron en cuenta las dos manos, ya que en ambas se utilizaron sensores. La desventaja que se sigue observando en este tipo de trabajos es que el equipo es costoso, muy frágil e incomodo para los usuarios. 2.3. COMENTARIOS Para encontrar las manos y otras partes del cuerpo dentro de la imagen, se decide trabajar con el color de la piel ya que en pocos trabajos se afronta este problema. Esta propuesta tiene como ventaja evitar el uso de componentes electrónicos que tienen un alto costo y son fáciles de dañar. Se han desarrollado pocos trabajos usando el color de la piel porque la segmentación de la misma presenta una alta dificultad. Dificultad debido a la iluminación no uniforme que se presente en el momento que se adquieran las imágenes y a las diferentes tonalidades de piel que existen en las personas. Al trabajar con el color de la piel se toman en cuenta otras partes del cuerpo, tales como la cabeza que proporciona información importante sobre la posición de las manos, y que en los trabajos con componentes electrónicos se presenta como desventaja ya que no son tomadas en cuenta otras partes del cuerpo. De acuerdo con el estado del arte, las características más importantes que se extraen son: a) la forma de las manos, b) orientación de las manos, c) propiedades (área del objeto, excentricidad, etc.) y d) posición de las manos con respecto a otras partes del cuerpo. No hay trabajos relacionados con el reconocimiento de señas en la lengua de señas mexicana, algunos sólo deletrean las palabras pero la comunicación en dicha lengua no se lleva a cabo con el deletreo, sino con señas que representan un concepto. Finalmente es notable que los casos en lo que se utilizaron accesorios como guantes de algodón de colores o guates electrónicos, se alcanza un alto porcentaje de reconocimiento y en el caso contrario, se hizo la segmentación de piel que presentan un porcentaje de reconocimiento menor.

Page 29: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

CAPÍTULO III

3. MARCO TEÓRICO En este capítulo se estudia la lengua de señas mexicana, denotando la importancia e impacto que tiene ante la sociedad, con el objetivo de conocer la LSM y poder afrontar la problemática que se presenta en este trabajo. Además se revisan algunos de conceptos básicos dentro del procesamiento digital de imágenes para la solución a la problemática del presente trabajo.

Page 30: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

20

3.1. ESTUDIO DE LA LENGUA DE SEÑAS MEXICANA En esta sección se presenta un estudio, de manera breve, de la lengua de señas mexicana. Se define la LSM, se explican conceptos básicos así como su importancia en México. 3.1.1. INTRODUCCIÓN La lengua de señas mexicana (LSM) es la lengua natural de una comunidad de sordos, la cual forma parte de su patrimonio cultural, es tan rica y compleja en gramática y vocabulario como cualquier lengua oral. En esta lengua además de utilizar el movimiento de las manos, también interviene la cara y algunos movimientos corporales. Antiguamente la mayoría de la gente conocía la LSM con diversos nombres como "mímica", "lengua gestual", "lenguaje mímico", etc. Sin embargo, estas denominaciones tenían cierto carácter ofensivo, y no reflejaban la verdadera naturaleza de la lengua de señas. 3.1.2. DEFINICIONES EN LA LENGUA DE SEÑAS Seña4: gesto, movimiento de manos, expresión corporal o combinación de éstos que permiten comunicar o dar a conocer algún mensaje.

Sordo: es aquella persona que no posee la audición suficiente, para sostener una comunicación y socialización natural y fluida en alguna lengua oral, independientemente de cualquier evaluación audiométrica que se le pueda practicar. Sordo señante: aquella persona cuya forma prioritaria de comunicación e identidad social se define en torno al uso de la lengua de señas mexicana y de los valores comunitarios y culturales de la comunidad de sordos. Sordo hablante: es aquella persona que adquirió una primera lengua oral. Esa persona sigue utilizando el español o la lengua nativa. Puede presentar restricciones para comunicarse satisfactoriamente y puede hacer uso de ayudas auditivas. Sordo semilingüe: es todo aquel que no ha desarrollado a plenitud ninguna lengua, debido a que quedó sordo antes de desarrollar una primera lengua oral y a que tampoco tuvo acceso a una lengua de señas. Sordo monolingüe: persona que utiliza y es competente lingüística comunicativamente en la lengua oral o en la lengua de señas. 4 De acuerdo al diccionario de la real academia española [23] un signo es un indicio o una marca, y una seña es un indicio o gesto para dar a entender algo o venir en conocimiento de ello. La lengua de personas con problemas del habla utiliza la palabra seña, ya que este concepto permite dar a conocer o comunicar algo de una manera más completa a diferencia del concepto signo que indica sólo un indicio.

Page 31: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

Sordo bilingüe: Es todo aquel que vive una situación bilingüe en Lengua de Señas Mexicana y español escrito u oral según el caso, por lo cual utiliza dos lenguas para establecer comunicación tanto con la comunidad sorda que utiliza la Lengua de Señas, como con la comunidad oyente que usa el español. 3.1.3. MITOS SOBRE LA LENGUA DE SEÑAS Existen cuatro grandes mitos con referencia a la lengua de señas [1]:

Es universal: la lengua de señas no es estándar. Difiere de un país a otro, e incluso de una región a otra, tal como sucede con las lenguas orales.

Es icónica: basta observar dos personas sordas conversando en lengua

de señas para darse cuenta de que la mayoría de las señas son abstractas y no icónicas.

Son sólo gestos: la lengua de señas además de gestos, tiene

componentes manuales, movimientos corporales, miradas, etc.

No tiene gramática: la lengua de señas está estructurada con los mismos niveles lingüísticos de una lengua oral.

3.1.4. IMPORTANCIA DE LA LENGUA DE SEÑAS EN MÉXICO De acuerdo con [24] en el año 2000 consensó que de 1 795 000 personas con alguna discapacidad (motriz, visual, mental, auditiva y de lenguaje) cerca de 369 770 personas padecen de discapacidades auditivas y/o de lenguaje. De igual forma es importante mencionar que la lengua de señas ha cobrado gran importancia en los últimos años, ya que la población que utiliza dicha lengua, se ha incrementado considerablemente. Según [7] existen cerca de 100,000 hablantes de la LSM. Como se mencionó, se consideró la población que habla la LSM y se redactó la ley general de las personas con discapacidad, publicada en el Diario Oficial de la Federación el 10 de junio de 2005 [5]. 3.1.5. CARACTERÍSTICAS DE LA LENGUA DE SEÑAS MEXICANA La lengua de señas tiene una estructura gramatical y sintáctica tan compleja como las lenguas orales. A diferencia de las lenguas orales, las lenguas de señas consideran esencialmente tres aspectos: a) los movimientos de las manos, b) gestos faciales y c) movimientos corporales.

En la LSM es común llamar a la representación manual de los objetos o situaciones del medio ambiente con el nombre de “señas” o “ideogramas” [25].

21

Page 32: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

Es importante mencionar que las palabras en la lengua de señas no son una concatenación de señas que representan el alfabeto; son señas que representan conceptos. Así mismo es elemental mencionar que la lengua de señas mexicana no es una lengua fija, es decir, como cualquier otra lengua la LSM tiene una evolución natural. En donde se pueden tener nuevas señas o ideogramas, y que estas surgen de la observación de las características físicas de las nuevas cosas que se tratan de describir. Una de las principales características que se encontraron [26] son que las palabras tienen una seña para los femeninos, los plurales y terminaciones como: ra, ro (pandero, cocinero), ria (panadería, lechería, etc.). Para las terminaciones anteriores primero se representa la palabra y al final la seña referente a cada terminación. Es elemental mencionar que la estructura de las oraciones es: sujeto + verbo + objeto + sujeto [27]. En la LSM existen señas que representan dos tipos de categorías gramaticales: verbo y sustantivo (también se llaman verbos sustantivados [27]); por ejemplo: la seña silla, en un discurso, puede estar haciendo referencia al “objeto silla” pero al mismo tiempo también se podría hacer referencia a la acción “sentarse”. En una conversación en lengua de señas es importante saber el significado de las expresiones faciales, movimientos de la cabeza y movimientos corporales. Ya que en la medida que se entiendan los elementos anteriormente mencionados, se tendrá una mejor interpretación sobre las señas que se utilicen [26][25]. En la lengua de señas se hace una diferencia en cómo referirse a las manos, ya que juegan papeles diferentes, a la que representa las señas principales se le llama mano dominante y a la otra mano no dominante o de accesorios. Es muy común encontrar que la mano dominante sea la derecha (existen excepciones en que es la mano izquierda), lo cual con esto se podría relacionar con los diestros y zurdos [8] [9][14]. Finalmente la dactilología es deletreo de las palabras, es decir, el alfabeto del español representado por una seña en la lengua de señas. La dactilología es utilizada esencialmente para los nombres propios, en donde no existe una seña o ideograma para hacer la representación, y también es utilizada para los principiantes en la lengua de señas ya que sirve de apoyo en la comunicación.

22

Page 33: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

3.1.6. CARACTERÍSTICAS DE LAS SEÑAS A TRABAJAR A continuación se presenta una breve descripción de la forma en que se realizan las señas a trabajar de acuerdo con [25]: (silla, sentarse) En esta seña se tienen las dos manos cerradas con los dedos índice y medios estirados, con las palmas hacia abajo y colocan la mano dominante sobre la mano no dominante de forma que queden cruzadas, y por último la mano dominante golpea la mano no dominante (no existe un número definido de cuantas veces se tiene que golpear) [26]. (cepillo, peinarse) Para esta seña se pone la mano en posición de garra y se coloca a lado de la cabeza (a lado de la oreja), haciendo un movimiento de la frente a la nuca varias veces. Con esta seña se simularía el movimiento natural de peinarse, pero se verificaría el contexto de la oración para saber si se refiere al objeto cepillo [26]. (brocha, pintar) Con la mano dominante y teniendo todos los dedos estirados excepto los pulgares, la mano no dominante muestra el dorso hacia enfrente (y verticalmente). La mano dominante con la palma hacia abajo con un movimiento como simulando introduciendo una brocha en el bote de pintura, después se hace el movimiento como si se estuviera pintando algo [26]. (escalera, subir) Se usan las dos manos con el lado de la palma de la mano hacia el frente, teniendo los dedos contraídos. Con un movimiento en el que una mano sube de altura y la otra queda abajo, esto se repite intercalando el lugar de la mano que se queda abajo, simulando que se está subiendo por una escalera [26]. (tijeras, cortar) Esta seña se hace teniendo el dedo índice y medio estirados, de la mano dominante separan los dedos y se juntan, este movimiento se repite varias veces. Se podrá observar que la seña imita los movimientos de unas tijeras que están cortando [26]. Después de haber estudiado la lengua de señas mexicana, y del conjunto de señas a trabajar, se presentan las características deseables a encontrar en cada una de las señas. Dichas características están dadas en diferentes formas y posiciones de la(s) mano(s). En cada descripción se agrega su representación gráfica de cada seña, donde se puede observar claramente que cada seña sería vista como un grafo de estados. A continuación se presentan las características del conjunto de señas a trabajar (junto con una secuencia de imágenes para mayor claridad de la descripción) a

23

Page 34: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

partir del estudio de la LSM. Finalmente es importante observar que cada seña puede ser vista como un ciclo: (cepillo, peinarse) Figura 3.1 La seña se realiza con la mano dominante:

• Descanso: esta posición está dada por los brazos estirados hacia abajo sin movimiento.

• Mano A arriba: se da cuando la mano dominante se encuentra arriba a la altura y con distancia mínima a la cabeza, teniendo el puño cerrado de la mano.

• Mano B arriba: mano dominante a la altura de la cabeza con un incremento de distancia entre el puño de la mano y la cabeza.

• Descenso: la mano derecha disminuye su altura para alcanzar la posición de descanso.

• Descanso: esta posición está dada por los brazos estirados hacia abajo sin movimiento.

Figura 3.1. Representación de estados de la seña cepillo

Figura 3.2. Descripción con imágenes de la seña cepillo

(escalera, subir) Figura 3.3 La seña se hace con ambas manos:

• Descanso: esta posición está dada por los brazos estirados hacia abajo sin movimiento.

• Presencia de dos manos: se presentan ambas manos, aumentando su altura.

• Mano Izq. abierta y Der. cerrada: la mano dominante se presenta cerrada y mano no dominante se presenta abierta (manos con región palmar hacia enfrente).

• Mano Izq. cerrada y Der. abierta: la mano dominante se presenta abierta y mano no dominante se presenta cerrada (manos con región palmar hacia enfrente).

• Descenso: ambas manos disminuyen su altura hasta llegar a la posición de descanso.

• Descanso: esta posición está dada por los brazos estirados hacia abajo sin movimiento.

24

Page 35: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

Figura 3.3. Representación de estados de la seña escalera

Figura 3.4. Descripción con imágenes de la seña escalera

(brocha, pintar) Figura 3.5 La seña se realiza con la mano dominante:

• Descanso: esta posición está dada por los brazos estirados hacia abajo sin movimiento.

• Mano A abierta: la mano dominante se encuentra abierta con la parte palmar hacia enfrente, es decir, los dedos apuntan hacia arriba.

• Mano B abierta: la mano dominante se encuentra abierta con la parte dorsal hacia arriba, es decir, los dedos apuntan hacia enfrente.

• Mano C abierta: la mano se encuentra abierta con la parte dorsal hacia enfrente, es decir, los dedos apuntan hacia abajo.

• Descanso: esta posición está dada por los brazos estirados hacia abajo sin movimiento.

Figura 3.5. Representación de estados de la seña pintar

Figura 3.6. Descripción con imágenes de la seña pintar

(silla, sentarse) Figura 3.7 Con ambas manos:

• Descanso: esta posición está dada por los brazos estirados hacia abajo sin movimiento.

• Mano semi-cerrada: las manos presentan dos dedos estirados y juntos, los demás permanecen cerrados. Además la mano derecha tiene una mayor altura que la mano izquierda.

25

Page 36: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

• Unión de manos: existe un contacto de los dedos estirados de ambas manos.

• Descenso: ambas manos disminuyen su altura hasta llegar a la posición de descanso.

• Descanso: esta posición está dada por los brazos estirados hacia abajo sin movimiento.

Figura 3.7. Representación de estados de la seña silla

Figura 3.8. Descripción con imágenes de la seña silla

(tijeras, cortar) Figura 3.9 La seña se realiza sólo con la mano dominante:

• Descanso: esta posición está dada por los brazos estirados hacia abajo sin movimiento.

• Mano A tijeras: sólo dos dedos se encuentran estirados y juntos, los demás permanecen cerrados. Se muestra la parte dorsal de la mano hacia enfrente.

• Manos B tijeras: sólo dos dedos se encuentran estirados y separados, los demás permanecen cerrados. Se muestra la parte dorsal de la mano hacia enfrente.

• Descenso: ambas manos disminuyen su altura hasta llegar a la posición de descanso.

• Descanso: esta posición está dada por los brazos estirados hacia abajo sin movimiento.

Figura 3.9. Representación de estados de la seña tijeras

Figura 3.10. Descripción con imágenes de la seña tijeras

26

Page 37: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

Es importante mencionar que estas características se obtuvieron manualmente; es decir, con base al estudio de la lengua de señas mexicana y al conjunto de señas a trabajar, se proponen las características deseables a encontrar en cada seña. 3.2. TRATAMIENTO DIGITAL DE IMÁGENES De acuerdo con [33] el proceso del tratamiento digital de imágenes es compuesto por las etapas que se presentan en la Figura 3.11:

Figura 3.11. Etapas fundamentales del procesamiento de imágenes [33]

A continuación por etapa se detallan los procesos que se realizan en cada una de ellas y que son necesarias para los propósitos de este trabajo: 3.2.1. ADQUISICIÓN DE IMÁGENES En esta etapa se realizan los procesos de desentrelazado del video, ya que la mayoría de los dispositivos usados para la adquisición de los videos guardan la información entrelazando el video, esto es, que de dos imágenes llamados campos se forma un cuadro. El entrelazado es una desventaja en el procesamiento digital de imágenes, ya que en las imágenes a trabajar se puede presentar un difuminado de los objetos. En la Figura 3.12 se presenta cómo es conformado un cuadro entrelazado. En el video entrelazado los objetos en la imagen se presentan de forma incompleta o difuminada, lo cual resulta un inconveniente para la extracción de las características en procesos posteriores.

27

Page 38: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

Figura 3.12. Entrelazado de un cuadro

Desentrelazar un video es un proceso en el que se extraen los dos campos que lo conforman dejando sólo uno. El obtener un video desentrelazado puede realizarse de varias formas: a) dispositivo (video cámara) capaz de grabar en modo progresivo, b) configuración de dispositivos de adquisición de video en la PC y c) por software una vez que el video está digitalizado en la PC. Finalmente se optó por desentrelazar el video por software utilizando Virtualdub V.1.6.17. Virtualdub V.1.6.17 permite realizar el desentrelazado de videos usando varios algoritmos. Es importante denotar que hay que tener presente el uso final que tendrán los videos, ya que cada algoritmo funciona mejor dependiendo del objetivo final del video. Para los fines del presente proyecto se escoge el algoritmo de desentrelazado de video basado en área [28], en donde en dicho algoritmo se utiliza una interpolación de los campos en lugar de mezclarlos. En la Figura 3.13 se muestra a la izquierda un objeto de un cuadro entrelazado y a la derecha el resultado del desentrelazado. En el objeto entrelazado se observa que contiene líneas negras, las cuales deberían estar del color de la piel, en este caso se dice que el objeto esta incompleto.

Figura 3.13. a) objeto entrelazado con ausencia de información y b) objeto desentrelazado

3.2.2. PROCESADO En esta etapa se presentan distintos procesamientos a las imágenes con el objetivo de adecuar la imagen para procesos posteriores. A continuación se presentan varios modelos de color el cual uno de ellos será el apropiado para adecuar la imagen. En seguida, se presenta la selección de cuadros en secuencias de imágenes y con ella se dará paso a la siguiente etapa que es la de segmentación.

28

Page 39: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

3.2.2.1. MODELOS DE COLOR MODELO RGB Este modelo está basado en un sistema de coordenadas cartesianas. En donde el subespacio de interés es un cubo en la que los valores RGB están en tres vértices; el cian, magenta y amarillo en otros tres vértices, también el color negro está en el origen y el blanco en extremo opuesto [29]. En este modelo la escala de grises se extiende del negro al blanco a lo largo de una diagonal del cubo y los colores son puntos del cubo o de su interior, definidos por vectores que se extienden desde el inicio. Por conveniencia, se supone que todos los valores de color han sido normalizados [0,1]. La Figura 3.14 muestra la representación del modelo RGB

Figura 3.14. Representación del modelo de color RGB

MODELO HSI Este modelo se basa en el tono (H), saturación (S) y la intensidad (I). En donde el tono es un atributo cromático que describe un color puro, mientras que la saturación proporciona una medida del grado en que un color puro está diluido en luz blanca [29]. Las principales características de este modelo es: a) el componente de intensidad está desacoplada de la información cromática contenida en la imagen y b) los componentes de tono y saturación están íntimamente relacionados con la forma en que los seres humanos percibimos en color. Los colores del modelo HSI, se definen con respecto a los valores normalizados dados los términos del RGB. Finalmente en la Figura 3.15 se muestra la representación espacial del modelo:

Figura 3.15. Representación del modelo de color HSI

29

Page 40: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

MODELO YCbCr El modelo de color fue definido por la Unión internacional de Telecomunicaciones (Internacional Telecommunication Union), y se quedo establecido como ITU-R BT.601. El modelo YCbCr [30] pertenece a la familia de espacios de color en sistemas de video, en donde:

• El componente Y es el luma, que representa el brillo en una imagen (una porción acromática de la imagen).

• El componente Cb representa el croma azul. • El componente Cr representa el croma rojo.

El modelo YCbCr es comúnmente confundido con el espacio de color YUV, y típicamente ambos términos son usados intercambiadamente. De igual forma existe la versión análoga llamada YPbPr. Finalmente se presentan las ecuaciones para obtener los valores de YCbCr a partir del RGB (normalizado) y la representación gráfica del modelo:

BGRCrBGRCb

BGRY

*214.18*786.93*112128*112*203.74*797.37128

*966.24*553.128*481.6516

−−+=++−=

+++= Ecuación 1

Figura 3.16. Representación del modelo YCbCr conteniendo al modelo RGB

MODELO HCL Dicho modelo fue creado tratando de resolver las limitantes que la mayoría de los modelos de color presentan, como el modelo RGB. Éstas son [31]:

• La presencia de la parte negativa del espectro que no permite la representación de ciertos colores.

• La dificultad para determinar las características del color, como la variabilidad de tonos, la presencia o ausencia de un color.

• La inhabilidad de la distancia euclideana para capturar correctamente en el espacio RGB.

Una ventaja de los modelos HSL/HSV sobre el RGB, es la capacidad de reconocer la presencia/ausencia del color en una imagen dada. Pero de

30

Page 41: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

cualquier forma, el lado oscuro de los modelos HSL/HSV concierne a la variación de la iluminación la cual no corresponde a la percepción humana. Así el modelo HCL (tono, croma, luminancia), Figura 3.17, explota las ventajas de cada uno de los modelos HSL/HSV y L*a*b descartando sus lados oscuros. Las ecuaciones 2,3 y 4 calculan HCL a partir de RGB:

( ) ( ) ( )2

,,*1,,* BGRMinQBGRMaxQL −+= Ecuación 2

donde:

ασeQ = es un parámetro que permite el cambio de la variación de luminosidad entre el tono saturado (color) y un tono que contiene una gran cantidad de blanco, y σ es un factor de correlación que vale 3, y que coincide con el utilizado en L*a*b.

( )3

|||* RBBGGRQC

−+−+−= Ecuación 3

Finalmente el valor del tono puede ser obtenido:

GRBGH

−−

= arctan Ecuación 4

Figura 3.17. Representación del modelo de color HCL

3.2.2.2. SELECCIÓN DE CUADROS EN UNA SECUENCIA DE IMÁGENES La secuencia de imágenes de una seña está compuesta de un conjunto de cuadros en donde algunos tienen más relevancia con respecto a la información visual de la seña. Esto se debe a que existen cuadros que muestran cambios significativos en la posición del objeto bajo estudio. Por ejemplo, si se desea analizar el desplazamiento de la mano en 2 segundos se tendrían una secuencia de 60 cuadros que al ser procesados darían información innecesaria. Sin embargo, si se realiza un muestreo de la misma secuencia

31

Page 42: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

32

tomando un cuadro con una frecuencia de 6, se estarían evaluando sólo 10 cuadros que conservan de manera aproximada las posiciones de dicho movimiento y con un menor tiempo de cálculo. Por otro lado, en el presente trabajo se pretende identificar cuáles son las posiciones o fases más relevantes del movimiento de una seña ya que no es posible definirlas de antemano y mucho menos especificar una frecuencia de muestreo, por lo cual se identifican los cuadros clave mediante el cálculo de la energía5 de cada cuadro usando los momentos de Zernike que son monitoreados a través del tiempo para obtener mínimos y máximos locales (ver Figura 4.11) que indican un evento distintivo visual [38]. MOMENTOS DE ZERNIKE [39] Zernike introdujo un conjunto de polinomios complejos formando un conjunto ortogonal completo en el interior de un círculo. Se denota al conjunto de polinomios como { . La forma de estos polinomios está dada en la ecuación 8:

}),( yxVnm

)exp()(),(),( θρθρ jmRVyxV nmnmnm == Ecuación 5

donde: n entero positivo o cero m entero positivo o negativo donde siempre se cumple n - |m| ≥ 0, |m| n ≤ρ longitud del vector del origen (x,y) al píxel θ ángulo entre el vector ρ y el eje x en dirección a las manecillas del reloj

)(ρnmR Polinomio radial definido como:

∑−

=

−−

−+

−⋅−=

2/

0

22

)!2

()!2

(!

)!()1()(mn

s

snnm

smn

smn

s

snR ρρ Ecuación 6

Estos polinomios son ortogonales y satisfacen

[ ]∫ ∫ ≤+

+=

122 1),(),(

yx mqnppqnm ndxdyyxVyxV δδπ

Ecuación 7

con 1 a=b 0 cualquier otro

5 La energía es la información que se presenta en un cuadro. Si la información es relevante la energía es alta, y si la información es no relevante la energía es baja.

Page 43: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

Los momentos de Zernike son la proyección de la función de la imagen sobre estas básicas funciones ortogonales. Los momentos de Zernike de orden n con repetición m para una función de imagen continua dentro de la unidad de círculo es:

),( yxf

∫ ∫ ≤+

∗+=

122),(),(1

yx nmnm dxdyVyxfnA θρπ

Ecuación 8

Para una imagen digital, las integrales son remplazadas por sumatorias y se obtiene

∑∑ ∗+=

x ynmnm VyxfnA ),(),(1 θρ

π Ecuación 9

Para calcular los momentos de Zernike de una imagen dada se encuentra la unidad del círculo, por ejemplo: , y aquellos píxeles que estén fuera del círculo no son usados para el cálculo de los momentos.

122 ≤+ yx

Se usan los momentos de Zernike para representar la actividad del estado que es representado por la posición relativa y la forma de la cabeza y las manos del sujeto [38]. Para realizar la selección de cuadros en la secuencia de imágenes sólo se utilizó un momento de Zernike con n=0 y m=0. De esta forma se guarda la energía obtenida en cada cuadro mostrando la variación temporal de la energía a través del tiempo. Una vez que se tiene una trayectoria de la energía se obtienen los máximos y mínimos locales, que contienen cambios visuales importantes. 3.2.3. SEGMENTACIÓN En la segmentación se divide una imagen en los objetos que lo conforman y aíslan, este proceso ayuda en el tratamiento digital de imágenes ya que sólo se trabaja con el objeto de interés. La umbralización, que se usa en la segmentación, ayuda a encontrar el límite entre dos conjuntos de datos. 3.2.3.1. UMBRALIZACIÓN DE OTSU La segmentación se realiza por medio de la umbralización usando el algoritmo de Otsu [32], a continuación se da una breve descripción del algoritmo. Una imagen es una función bidimensional de la intensidad del nivel de gris, y contiene N píxeles cuyos niveles de gris se encuentran entre 1 y L. El número de píxeles con nivel de gris i se denota como fi, y la probabilidad de ocurrencia del nivel de gris i en la imagen está dada por

33

Page 44: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

Nf

P ii = Ecuación 10

En el caso de la umbralización en dos niveles de una imagen (a veces llamada binarización), los píxeles son divididos en dos clases: C1, con niveles de gris [1, ...., t]; y C2, con niveles de gris [t+1, ...., L]. Entonces, la distribución de probabilidad de los niveles de gris para las dos clases es:

)(,....,

)(:

11

11 t

pt

pC t

ωω Ecuación 11

)(,......

)(:

22

12 t

pt

pC lt

ωω+

Ecuación 12

donde

∑=

=t

iipt

11 )(ω ∑

+=

=L

tiipt

12 )(ω

Es importante mencionar que se realiza un cambio de color en las imágenes, de RGB al YCbCr para aplicar la umbralización de Otsu, una vez hecha la conversión se usa sólo la capa Y. El siguiente proceso es aplicar operaciones morfológicas las cuales se describen a continuación. 3.2.3.2. OPERACIONES MORFOLÓGICAS Las operaciones morfológicas simplifican las imágenes y preservan las formas principales de los objetos. La morfología puede utilizarse para las siguientes tareas [29]:

• Suavizar los bordes de una región. • Separar determinadas regiones que el proceso de segmentación las

presenta unidas. • Unir regiones que han sido separadas durante la segmentación. • Como consecuencia de los dos puntos anteriores facilitar el cómputo de

regiones en una imagen. EROSIÓN Sean A y B conjuntos en Z2. La erosión de A por B, que se expresa como A B, se define como

34

Page 45: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

Esta ecuación indica que la erosión de A por B es el conjunto de todos los puntos z tales que B, trasladado por z, está contenido en A. Generalmente, la erosión disminuye el tamaño de los objetos. Como pasaba en la dilatación, la cantidad y la forma en que se produce esta disminución depende del elemento estructural elegido. DILATACIÓN Sean A y B conjuntos en Z2. La dilatación de A por B, expresada por A B, se define como:

Esta ecuación consiste en obtener la reflexión de B sobre su origen y trasladar esta reflexión por z. La dilatación de A por B es entonces el conjunto de todos los desplazamientos, z, tal que la reflexión de B y A se solapan por al menos un elemento. Teniendo en cuenta lo anterior, la dilatación de A por B también se puede expresar como

En general, la dilatación aumenta el tamaño de un objeto. La cantidad y la forma en que aumenta el tamaño dependen de la elección del elemento estructural. APERTURA La apertura de un conjunto A por el elemento estructural B, se define como

Es decir, la apertura de A por B es la erosión de A por B seguida por la dilatación del resultado por B. La apertura generalmente suaviza los contornos de un objeto y elimina protuberancias finas. 3.2.3.3. LOCALIZACIÓN DE OBJETOS Después de haber realizado las operaciones morfológicas el siguiente paso es la localización de los objetos, que es necesaria para aislar completamente el objeto del resto de la imagen y que a continuación se describe. El rectángulo de límites mínimo (por sus siglas en inglés Minimum bounding rectangle o MBR) es también conocido como rectángulo básico [33], en el que dicho rectángulo ayuda a delimitar el área de trabajo en un objeto. El rectángulo indica la posición general de un objeto dentro de una imagen con uno o varios objetos. Finalmente el MBR se puede considerar un caso (simple) de un volumen de límites, según lo descrito para objetos de n-dimensiones [34].

35

Page 46: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

El proceso es, como se mencionó, encontrar el valor mínimo y máximo en cada eje de coordenadas para cada objeto correspondiente. El objetivo de encontrar el rectángulo básico es limitar el área de trabajo para extraer las características 3.2.4. REPRESENTACIÓN Y DESCRIPCIÓN La representación de una región puede realizarse de dos formas: a) en términos de sus características externas (su contorno) y b) en términos de sus características internas (píxeles que comprender la región). Para el presente trabajo se usan las características externas tomando en cuenta la forma de los objetos. A continuación se presentan las técnicas del procesamiento digital de imágenes para realizar la descripción de los objetos. 3.2.4.1. MOMENTOS INVARIANTES DE HU Los momentos de HU [33] son utilizados para describir la forma de un objeto dado, que en este caso son las manos y la cabeza, además tienen la ventaja de que son invariantes a la traslación, rotación y escalamiento. Esto quiere decir que dos regiones que tengan la misma forma pero que sean de distinto tamaño y que estén ubicados en posiciones y orientaciones distintas en la imagen tendrán momentos invariantes de Hu muy similares [35]. Para una función continua bidimensional f(x,y), el momento de orden (p+q)está definido por [33]:

Ecuación 13

Para p,q =0,1,2.. Para una imagen digital con una intensidad del píxel f(x,y), coordenadas (x,y) y con centroide en ( x , y ), se obtiene:

Ecuación 14

Se presenta el conjunto de los momentos centrales de hasta orden 3:

36

Page 47: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

Finalmente a partir de los momentos de segundo y tercer Hu [33] propuso un conjunto de momentos invariantes a la rotación, escala y traslación: I1 = η20 + η02 I2 = (η20 − η02)2 + (2η11)2 I3 = (η30 − 3η12)2 + (3η21 − η03)2 I4 = (η30 + η12)2 + (η21 + η03)2 I5 = (η30 − 3η12)(η30 + η12)[(η30 + η12)2 − 3(η21 + η03)2] + (3η21 − η03)(η21 +

η03)[3(η30 + η12)2 − (η21 + η03)2] I6 = (η20 − η02)[(η30 + η12)2 − (η21 + η03)2 + 4η11(η30 + η12)(η21 + η03)] I7 = (3η21 − η03)(η30 + η12)[(η30 + η12)2 − 3(η21 + η03)2] − (η30 − 3η12)(η21 +

η03)[3(η30 + η12)2 − (η21 + η03)2]. 3.2.4.2. CIRCULARIDAD Esta es una propiedad de los objetos en donde se indica si este se acerca a la forma de un círculo. Para calcular la circularidad es necesario obtener el contorno del objeto, se realiza la resta de la imagen original con una imagen dilatada del mismo objeto, es decir, se obtiene la dilatación (con un elemento estructural 3x3) del objeto y se hace la resta de las imágenes. En la Figura 3.18 se presenta la imagen a) original, b) la dilatación y c) la obtención del contorno.

Figura 3.18. a) imagen original, b) imagen dilatada y c) resultado de la resta de a y b

La circularidad puede ser expresada como la varianza de la distancia del píxel del contorno del centroide del objeto. Si el objeto es perfectamente circular, la varianza se aproximará a cero[36]. Por ejemplo en la Figura 3.19 se tienen dos objetos, uno presenta un círculo y el otro una elipse. La circularidad del círculo es de 0.702 y de la elipse es de 9.61. Los resultados indican que el círculo es casi perfecto ya que arroja una circularidad cercana al cero, y lo contrario para la elipse que tiene una circularidad más grande.

37

Page 48: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

Figura 3.19. a) circularidad cercana a cero y b) circularidad mayor a uno

3.2.4.3. EXCENTRICIDAD La excentricidad es una propiedad de los objetos, esta trabaja con los contornos e indica si el objeto tiene una forma elíptica En matemáticas y geometría la excentricidad es un parámetro que determina el grado de desviación de una sección cónica con respecto a una circunferencia. Es un parámetro importante en la definición de las elipses. La excentricidad e, puede ser calculada con la ecuación 7, de una elipse de semieje mayor a y semieje menor b es [37]:

2

2

1abe −= Ecuación 15

La excentricidad puede tomar varios valores, dependiendo de la figura que se maneje:

• En una circunferencia es cero. • En una elipse es mayor que cero y menor que uno. • En una parábola es uno • En una hipérbola es mayor a uno

Figura 3.20. Imágenes para obtener excentricidad

En la Figura 3.20 se presentan dos objetos (manos) de los cuales se obtienen la excentricidad de cada uno. Para el objeto a) se tiene una excentricidad de 0.1098 que indica que el objeto podría estar contenido en un círculo y no en una elipse, para el caso b) se tiene una excentricidad de 0.4284123 indicando que sí puede estar contenido en una elipse además que la elipse tendría su eje mayor en el eje de las X.

38

Page 49: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

3.2.4.4. ORIENTACIÓN DEL OBJETO Esta característica indica hacia dónde se encuentra el eje mayor de un objeto, es decir, si el eje mayor se encuentra en el eje de las X (0o) o en el eje de las Y (90o). Para la extracción de dicha característica se usó información del Rectángulo básico o también conocido como Bounding box, en donde se encuentra hacia que eje está la mayor distancia. Para el caso de que la mayor distancia se encuentre en el eje de las X se asigna el valor de uno, si se encuentra en el eje de las Y se asigna el valor de dos y si es el caso de que las distancias sean iguales, indica que se presenta un cuadrado y el valor que es asignado es cero. En la Figura 3.21 se presentan algunos casos donde la distancia mayor se encuentra en alguno de los ejes.

Figura 3.21. a) orientación en el eje de las x´s y b) orientación en el eje de las y´s

La orientación del objeto se obtiene para las manos en el caso de que se encuentre las dos o sólo una, y es agregado al vector de características que se obtiene de los objetos. Esta característica ayuda a discriminar algunas señas del conjunto a trabajar, ya que la forma de la mano puede llegar a parecerse en dos señas distintas pero lo que las distingue es la orientación de las mismas. Es importante recordar que en la LSM la configuración de las manos es la misma para muchas señas; sin embargo, el significado es diferente dependiendo de la orientación y el espacio donde se desarrollan. 3.2.5. RECONOCIMIENTO E INTERPRETACIÓN En la última etapa del procesamiento de imágenes se hace el reconocimiento e interpretación, estos implica asignar una etiqueta a un objeto basa en la información basa en los descriptores y asignar un significado a dichos objetos [33]. Es importante mencionar que esta etapa no se realiza en el presente trabajo, ya que sólo se abarca hasta la etapa de representación y descripción.

39

Page 50: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

3.3. COMENTARIOS En el estudio de la lengua de señas mexicana se encontró que dicha lengua tiene una estructura y gramática tan compleja como la tienen las lenguas orales, además en las lenguas de señas intervienen gestos y/o movimientos corporales. Al igual que las lenguas orales, la lengua de señas varía de país en país e inclusive de una región a otra. Esto es consecuencia de la cultura, incluyendo el vocabulario y/o modismos pertenecientes a cada región. En el estudio del conjunto de señas a trabajar se indaga que las señas pueden ser vistas como un grafo con estados, en donde se pasa un tiempo indefinido en un estado y pasa a otro hasta completar la secuencia de estados. Se decide utilizar el software libre llamado Virtualdub V.1.6.17 para desentrelazar los videos a utilizar. Se realiza el desentrelazado porque en los videos entrelazados se presentan los objetos incompletos y/o difuminados, lo que aumenta la complejidad en las tareas del procesamiento digital de imágenes. Se usa el modelo de color YCbCr para encontrar las partes brillosas de la imagen, las cuales corresponden a las áreas de piel, dicho modelo es el adecuado por las características con las que cuentan los videos a trabajar. Dicho modelo presenta una mejor aproximación en el proceso de segmentación de la piel en comparación con otros modelos de color. Se opta por utilizar la operación morfológica Apertura, porque ayuda a eliminar ruido en la imagen y rellenar huecos presentes en los objetos, además estas operaciones morfológicas simplifican las imágenes y preservan las formas principales de los objetos. El rectángulo de límites mínimo o también conocido como rectángulo básico se utiliza porque ayuda a delimitar el área de trabajo de un objeto ya que en ocasiones no es necesario trabajar con el área total de la imagen, además de ayudar a reducir el tiempo de procesamiento de un cuadro. En la parte correspondiente a la descripción de los objetos, se utilizaron diferentes descriptores algunos usados en el estado del arte y otros no, estos son:

a) Los momentos invariantes de Hu no han sido usados en el estado del arte como características. Estos momentos se usan porque trabajan con la forma del objeto y son invariantes a la escala, rotación y traslación. Dichas propiedades invariantes ayudan a contrarrestar algunos problemas como es la distancia que varía entre la videocámara y el objeto.

b) La circularidad es una propiedad del objeto la cual indica la medida del

objeto que se acerca a una forma circular, puede ser expresada como la

40

Page 51: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo III: Marco teórico

41

varianza del píxel del contorno del centroide del objeto, además si el objeto es perfectamente circular la varianza se aproximará a cero.

c) La excentricidad como propiedad del objeto, da un parámetro que

determina el grado de desviación de una sección cónica con respecto a una circunferencia, es decir, esta propiedad indica si el objeto a tratar puede estar encerrado en una elipse o en un círculo.

d) La orientación del objeto se usa porque ayuda a saber en qué eje

cartesiano se encuentra el eje mayor del objeto. Esta propiedad ayuda en la discriminación de diferentes formas que la mano pueda tener en una determinada seña.

Finalmente, se utiliza la selección de cuadros en una secuencia de imágenes porque en dicha secuencia existen cuadros clave que contienen información relevante. Por lo anterior, no es importante procesar todos los cuadros que contiene una secuencia de imágenes. Además el procesar sólo los cuadros clave se disminuye el tiempo de procesamiento de una secuencia de imágenes y se obtiene un conjunto de vectores característicos reducido sin la pérdida de información relevante.

Page 52: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

CAPÍTULO IV

4. DISEÑO Y DESARROLLO DEL SISTEMA En este capítulo se presenta el diseño y desarrollo del sistema, esto con el objetivo de implementar una herramienta de cómputo la cual realice la extracción de las características de las señas en la lengua de señas mexicana. El resultado de este sistema es un conjunto de vectores que sirvan como datos de entrada para algún sistema de reconocimiento de señas. La selección de los diferentes descriptores es importante, ya que de esto depende que se obtengan los vectores de características que describan correctamente cada seña.

Page 53: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

4.1. CARACTERIZACIÓN Es importante definir el concepto de caracterización, ya que puede interpretarse de dos maneras:

1. De acuerdo con [23] es determinar los atributos peculiares de alguien o de algo, de modo que claramente se distinga de los demás (reconocimiento).

2. Encontrar las características adecuadas para poder describir un fenómeno dado (estudio).

El presente trabajo se desarrolla desde el enfoque de la segunda definición de caracterización, ya que de acuerdo con los estudios hechos acerca de la lengua de señas mexicana y después de haber revisado el estado del arte sobre el reconocimiento visual de señas se propuso un conjunto de descriptores para realizar la caracterización, y que se menciona a continuación:

• Momentos invariantes de Hu. • Circularidad del objeto. • Posición x,y del objeto. • Excentricidad del objeto • Orientación del eje mayor del objeto.

Es importante mencionar que dichas características (véase capítulo III) se extraen para cada objeto que se encuentra en la imagen, es decir, que se extraerán las características para las manos y la cabeza por cada cuadro. Es importante denotar que el resultado será un conjunto de vectores, ya que cada seña está compuesta por varios cuadros en el que varía el número de objetos. Cada descriptor aporta la siguiente información:

• Los momentos invariantes de Hu dan información sobre la forma del objeto, además de ser invariantes a la escala, rotación y traslación.

• La circularidad es una propiedad respecto al contorno de un objeto, ayudando a decir cuándo se acerca más a la forma de un círculo.

• La posición x,y ayuda a identificar a cada objeto para asignarle una etiqueta (mano izq., mano der. y cabeza), además de que indica en dónde se encuentra un objeto con respecto a otro.

• La excentricidad es una propiedad que trabaja con el contorno del objeto y que indica si el objeto tiene una forma elíptica.

• La orientación del eje mayor del objeto indica hacia dónde están apuntando los dedos de la mano, sólo teniendo en cuenta la posición horizontal y vertical.

Por otra parte una vez que se han obtenido las características de los objetos presentes en la imagen se identifican cada uno de ellos, es decir, se etiqueta a cada objeto con: a) mano izquierda, b) mano derecha y c) cabeza. Pero al final el vector característico sólo contendrá los datos de la(s) mano(s), eliminando las de la cabeza, ya que al tener una posición casi constante no proporciona información para identificar una seña y al contrario ocasionaría un traslape

43

Page 54: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

entre todas las señas porque se encuentra presente en todos los cuadros de todas las señas. 4.2. DISEÑO DEL SISTEMA Para la extracción de características de señas de la lengua de señas mexicana fue necesario diseñar un sistema de cómputo, este apoyándose en el tratamiento digital de imágenes y de visión por computadora (véase capítulo III). En la Figura 4.1 se presenta la representación gráfica, de manera general, las etapas que se siguen en el desarrollo del sistema.

Figura 4.1. Sistema propuesto para la extracción de características de señas de la LSM

A continuación se describen a detalle cada una de las etapas que componen el sistema propuesto. 4.3. DESARROLLO DEL SISTEMA A continuación se detalla la información del desarrollo de las etapas involucradas en el proceso de caracterización de señas de la LSM.

44

Page 55: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

4.3.1. ADQUISICIÓN Y DIGITALIZACIÓN En la adquisición de los videos se tomaron en cuenta varios aspectos, esencialmente en la vestimenta del usuario (persona a ser filmada) y los objetos de la escena. 4.3.1.1. VESTIMENTA DEL USUARIO Se usó una vestimenta especial, la cual ayuda al sistema a identificar la cara y manos del señante (la persona a ser filmada). Para la adquisición de las señas, se realizó un estudio para determinar las posiciones necesarias, encontrando que es necesario tener información del señante hasta la cadera. La vestimenta incluye una camisa de color negro de manga larga, y un pantalón de color negro Figura 4.2. De esta forma se asegura que se aprecie de una mejor manera las manos y la cara de la persona.

Figura 4.2. Vestimenta usada para la adquisición de videos

En la figura anterior se observa que se respeta la altura necesaria a filmar, es decir, sólo es necesario obtener información hasta la altura de la cadera 4.3.1.2. OBJETOS EN LA ESCENA Tratando de controlar el medio donde se realiza la adquisición, se controlan los objetos en la escena de los videos de tal forma que se acondiciona la escena para obtener un fondo de color negro, en la Figura 4.2 se puede observar este color de fondo. La iluminación es proporcionada por lámparas de tipo fluorescentes colocadas en la parte superior. Así, se tiene un color uniforme de color negro que ayuda significativamente a procesar los cuadros en etapas posteriores. La digitalización de los videos se realiza con ayuda del software llamado Pinnacle Studio V.9.4, al cual se le asignan las siguientes propiedades al nuevo archivo de video:

45

Page 56: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

46

• Tipo de archivo: AVI (Audio Video Interleaved). • Formato de video: Descomprimido (RGB24). • Tipo de compresión: ninguna. • Cuadros por segundo: 30. • Canal de audio: desconectado. • Dimensiones del cuadro: 320 de ancho por 240 de alto.

El uso de dicho software se debe a que sus características se adaptan a los requerimientos del tipo de archivo de video y en donde se permite el manejo de las propiedades del archivo de video. En la generación de los archivos de video se desconectó el canal de audio, ya que los propósitos de los archivos no contemplan el uso del audio; además, de que ayuda a disminuir el tamaño del archivo final. En la Figura 4.3 se presenta la configuración de las propiedades del software para la obtención del archivo de tipo AVI.

Figura 4.3. Propiedades del archivo resultante de tipo AVI

Se observa en la Figura 4.3 que el formato para el archivo de tipo AVI es sin compresión, esto es con la finalidad de que el archivo de video sea compatible entre las distintas versiones de Windows y sin la necesidad de usar algún codec6. 4.3.2. DESENTRELAZADO DEL VIDEO Como ya se ha mencionado el desentrelazado de los videos ayuda significativamente a los procesos del tratamiento digital de imágenes. Ya que un video entrelazado presenta los objetos de forma incompleta y/o difuminada, efecto que no es percibido por el ojo humano en una secuencia de imágenes a 24 cuadros por segundo. Por los motivos expuestos anteriormente, se realiza el

6 Es la abreviatura de Codificador/Decodificador, que puede codificar la señal y recuperarla del mismo modo para su manipulación en un formato apropiado.

Page 57: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

desentrelazado el video usando el software Virtualdub V.1.6.17. En la Figura 4.4 se presenta el proceso de desentrelazado de videos.

Figura 4.4. Etapas del desentrelazado de videos

Es importante mencionar que el desentrelazado de los videos de tipo AVI no afecta en las propiedades del archivo (dimensiones, duración, formato de archivo, etc.). Finalmente el algoritmo de desentrelazado que se escogió fue el adecuado de acuerdo a la naturaleza de los videos, ya que delimita de una manera correcta los objetos. Como se mencionó anteriormente, se usa un algoritmo de desentrelazado basado en el área. En la Figura 4.5 se muestra la configuración del algoritmo de desentrelazado basado en área que se utiliza.

Figura 4.5. Configuración del algoritmo de desentrelazado basado en el área

En la Figura 4.6 se muestra a la izquierda un cuadro de un video entrelazado en el que se observa que la mano del sujeto se encuentra difuminada o con

47

Page 58: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

ausencia de información, y a la derecha el resultado del desentrelazado que presenta la mano del sujeto de una forma más completa, esto es usando el software VirtualDub V.1.6.17.

Figura 4.6. A la izquierda video entrelazado con ausencia de información y a la derecha video

desentrelazado En la Figura 4.7 se muestra el video de la seña escalera, en donde se observa que las dos manos del sujeto se encuentran difuminadas (imagen a la izquierda) pero al desentrelazar el video (cuadro de la derecha) las manos se presentan de una forma más completa y con los contornos más definidos.

Figura 4.7. A la izquierda video entrelazado y a la derecha video desentrelazado

Se reafirma, con respecto a la figura anterior, que el algoritmo de desentrelazado que se escogió fue el idóneo y esto se refleja en las manos de la persona que se presentan de una forma más completa (imagen a la derecha) en comparación con la imagen original (imagen a la izquierda).

48

Page 59: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

4.3.3. IDENTIFICACIÓN DE CUADROS CLAVE Para la identificación de los cuadros clave se implementaron los momentos de Zernike (véase sección 3.2.2.2), ya que con ayuda de estos se puede obtener la “energía” en cada cuadro la cual al representarla a través del tiempo se observan los cambios que existen dentro de la secuencia de imágenes. Al aplicar máximos y mínimos locales se encuentran los cuadros clave, que contienen información visual distintiva. En la Figura 4.8 se presenta el proceso que se debe seguir para obtener los cuadros clave en una secuencia de imágenes.

Figura 4.8. Proceso para la identificación de cuadros clave

Como se mencionó anteriormente, se realiza la conversión al modelo de color YCbCr en donde sólo se utiliza la capa Y. En la Figura 4.9 se muestra la segmentación de la piel usando la capa Y junto con el algoritmo de umbralización de Otsu.

Figura 4.9. a) imagen original, b) segmentación de la piel y c) resta de a y b

De la Figura 4.9 en b) se observa la segmentación que abarca toda el área de la piel, y finalmente en c) se observa la resta de las dos primeras imágenes, en donde se aprecia perfectamente (en color azul) el área extraída de la piel. De acuerdo con [39] primero se establece un área dónde se calcularán lo momentos de Zernike, ya que no se trabaja con toda el área de la imagen, que en este caso será un círculo y los píxeles que estén fuera del mismo no se tomarán en cuenta para el cálculo del momento, en la Figura 4.10 se presenta un ejemplo gráfico del área que tendría dicho círculo en un cuadro dentro de la secuencia de imágenes:

49

Page 60: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

Figura 4.10. Área de procesamiento de píxeles dentro de la unidad del círculo

Una vez que se ha obtenido el área (círculo), se procede a calcular el momento de Zernike con n=0 y m=0. Los valores calculados en cada cuadro son almacenados temporalmente, y después se encuentran los máximos y mínimos locales. En la Figura 4.11 se muestra el resultado de aplicar el momento de Zernike en cada cuadro y, con cruces se muestra la localización de máximos y mínimos locales.

Figura 4.11. Resultado de momentos de Zernike, además de máximos y mínimos

En la figura anterior se observa que algunos puntos de máximos y mínimos locales se encuentran cerca uno del otro, por lo cual se optó por agregar una condición de una distancia mínima entre los puntos. Esta condición se aplica en tiempo de ejecución del código disminuyendo la cantidad de puntos, ya que cuando se encuentran cerca no existe una diferencia significativa entre ellos. Los puntos finales representan los cuadros clave dentro de la secuencia de imágenes. En la Figura 4.12 se presenta la secuencia completa de imágenes de la seña (cepillo, peinarse), y se presentan remarcados los cuadros clave.

50

Page 61: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

Figura 4.12. Cuadros clave en secuencia de imágenes

Es importante mencionar que los cuadros clave remarcados en la Figura 4.12, se ha aplicado la condición de que existan al menos tres cuadros de diferencia entre cada cuadro clave. El resultado de aplicar los momentos de Zernike, a la secuencia compuesta de 120 cuadros, es de 18 cuadros clave a procesar de toda la secuencia de imágenes. 4.3.4. LOCALIZACIÓN E IDENTIFICACIÓN DE OBJETOS En el proceso de localización e identificación de los objetos presentes en la imagen, primero se realiza la segmentación, en seguida el etiquetamiento de todos los objetos presentes en la imagen, después se revisa si cada objeto encontrado cumple con la condición de tener un área mínima de 60 píxeles y finalmente se obtiene el rectángulo básico del objeto. En la Figura 4.13 se presenta el proceso propuesto para la localización e identificación de los objetos en la secuencia imágenes.

51

Page 62: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

Figura 4.13. Localización e identificación de objetos

Con la condición de un mínimo de área para que sea considerado como una región de interés se elimina el ruido que pueda existir en la imagen a procesar. Para eliminar algunos huecos de la imagen, sin llegar a deformar considerablemente el objeto, se aplican operaciones morfológicas de apertura (véase sección 3.2.3.1). En la Figura 4.14 se presenta un ejemplo del proceso de localización de los objetos en una imagen, de igual forma se presenta ruido en la parte inferior izquierda pero este no es considerado como un objeto y no es aislado en el rectángulo básico.

Figura 4.14. Localización de objetos es una imagen

De la figura anterior es importante notar que el ruido que se presenta en la imagen no es tomado en cuenta, esto hace que el sistema es capaz de funcionar aún con ruido en las imágenes (siempre y cuando se cumplan con las condiciones de adquisición de video).

52

Page 63: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

Finalmente se asigna una etiqueta a cada objeto (mano izq., mano derecha y cabeza) con el uso de la siguiente información a priori:

• La cabeza se encuentra centrada en la parte superior y tiene un área generalmente mayor que los otros objetos.

• La mano derecha inicia sus movimientos al costado derecho de la cabeza (vista desde la perspectiva de la persona a ser grabada en los videos), además se considera como mano dominante en la LSM y por tal motivo si sólo se encuentra una mano en la imagen tendrá la etiqueta de mano derecha.

• La mano izquierda inicia sus movimientos al costado izquierdo de la cabeza, es considerada como mano no dominante y sólo juega un rol de accesorios en las señas (indica que no se usa para todas las señas).

El proceso de identificación se lleva a cabo internamente y se ve reflejado en el área de Representación y almacenamiento de la información, tema que es tratado más adelante, ya que sólo se almacenan los valores de la(s) mano(s) de cada imagen. 4.3.5. EXTRACCIÓN DE CARACTERÍSTICAS De acuerdo con el estudio para la extracción de características de señas, se desarrolló un sistema computacional para la extracción manual de las características. El primer paso es el de cargar un video de tipo AVI al sistema, en seguida se habilita cada uno de los botones disponibles, esto lleva al usuario de manera intuitiva en varios pasos para obtener las características y mostrar los cuadros clave que se han seleccionado. En la Figura 4.15 se muestra la interfaz del sistema.

Figura 4.15. Vista del sistema cuando se carga el video

53

Page 64: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

A continuación se hace una breve descripción de cada uno de los botones presentes en la vista simple del sistema:

• Paso 1: se identifican los cuadros clave de la secuencia de imágenes, después la localización de máximos y mínimos hasta guardar los cuadros resultantes.

• Paso 2: extrae cada cuadro clave de la secuencia de imágenes y obtiene las características en cada cuadro. Además se almacena la información obtenida y la presenta en la pestaña de características.

• Agregar a lista: contiene los cuatro cuadros a caracterizar, es importante mencionar que el botón de Paso 2 necesita de estos cuadros.

• Reproducir video: simplemente reproduce toda la secuencia de imágenes.

Como ya se ha mencionado para la extracción de las características se utiliza una imagen binaria, esto después de haber hecho la transformación al modelo de color YCbCr y aplicado el algoritmo de umbralización de Otsu [32] sólo en la capa Y. Una vez que se han localizado los objetos dentro de una imagen se aísla completamente del resto de la imagen y se obtienen las características propuestas, en la Figura 4.16 se presenta el proceso necesario para la extracción de las características en cada uno de los cuatro cuadros.

Figura 4.16. Proceso de extracción de características

Es importante mencionar que en el rectángulo básico de cada objeto no debe existir traslape de otros objetos o ruido, por tal motivo se limpia el rectángulo y se deja sólo el objeto a tratar (véase sección 3.2.4.2). Finalmente se extrae el conjunto de características propuesto (véase sección 3.2.5). En donde la circularidad y excentricidad son las características sensibles al cambio de escala, pero de gran ayuda para discriminar las señas en el conjunto propuesto a trabajar. El sistema tiene la capacidad de incrementar el conjunto de señas, esto gracias a su Editor de clases. Este ayuda a aumentar o quitar alguna seña, permitiendo la flexibilidad al usuario de poder caracterizar más señas de la lengua señas mexicana o de cualquier otra lengua de señas. En la Figura 4.17 se muestra el editor de clases dentro del sistema.

54

Page 65: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

Figura 4.17. Editor de clases del sistema

4.3.6. REPRESENTACIÓN Y ALMACENAMIENTO DE LA INFORMACIÓN En la representación de los datos, al usuario se le muestran las características que se obtuvieron de los objetos en cada cuadro, que se almacenan en un formato de texto plano. En la Figura 4.18 se presenta la forma en que la información se presenta dentro de la interfaz de usuario.

Figura 4.18. Presentación de las características extraídas en la interfaz de usuario

55

Page 66: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

A continuación se muestra la lista de los datos que se presentan al usuario, y que se obtienen en cada cuadro clave:

• # de cuadro: número de cuadro en la secuencia de imágenes. • HU 5 C: momento de Hu número 5 perteneciente a la cabeza. • HU 6 C: momento de Hu número 6 perteneciente a la cabeza. • HU 7 C: momento de Hu número 7 perteneciente a la cabeza. • Circularidad C: circularidad perteneciente a la cabeza. • Posición X C: posición x de la cabeza con respecto a toda la imagen. • Posición Y C: posición y de la cabeza con respecto a toda la imagen. • Hu 1 C: momento de Hu número 1 perteneciente a la cabeza. • Excentricidad C: excentricidad de la cabeza. • Orientación C: da la orientación de la cabeza con respecto a su eje

mayor. • HU 5 D: momento de Hu número 5 perteneciente a la mano derecha. • HU 6 D: momento de Hu número 6 perteneciente a la mano derecha. • HU 7 D: momento de Hu número 7 perteneciente a la mano derecha. • Circularidad D: circularidad perteneciente a la mano derecha. • Posición X D: posición x de la mano derecha con respecto a toda la

imagen. • Posición Y D: posición y de la mano derecha con respecto a toda la

imagen. • Hu 1 D: momento de Hu número 1 perteneciente a la mano derecha. • Excentricidad D: excentricidad de la mano derecha. • Orientación D: da la orientación de la mano derecha con respecto a su

eje mayor. • HU 5 I: momento de Hu número 5 perteneciente a la mano izquierda. • HU 6 I: momento de Hu número 6 perteneciente a la mano izquierda. • HU 7 I: momento de Hu número 7 perteneciente a la mano izquierda. • Circularidad I: circularidad perteneciente a la mano izquierda. • Posición X I: posición x de la mano izquierda con respecto a toda la

imagen. • Posición Y I: posición y de la mano izquierda con respecto a toda la

imagen. • Hu 1 I: momento de Hu número 1 perteneciente a la mano izquierda. • Excentricidad I: excentricidad de la mano izquierda. • Orientación I: da la orientación de la mano izquierda con respecto a su

eje mayor. • Clase: indica a qué seña pertenece (cepillo, tijeras, etc.) los datos

extraídos La extensión que se da a los archivos para almacenar el conjunto de características será “.LSM”. Este tipo de extensión del archivo podrá ser abierto en cualquier editor de texto. En la Figura 4.19 se observa la extensión que se asigna al archivo que guarda la información de las características extraídas.

56

Page 67: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

Figura 4.19. Almacenamiento de la información

4.3.7. VECTORES CARACTERÍSTICOS Para conformar el vector característico se toman cuatro cuadros, resultado de la selección de cuadros clave, y se extrae el conjunto de características propuesto. Se proponen cuatro cuadros ya que, de acuerdo con el estudio de las señas a trabajar (véase sección 3.1.6), son suficientes para representar las posiciones clave en cada seña. Finalmente es importante mencionar que el vector característico se obtiene con el fin de realizar una clasificación (véase sección 5.3.4). El vector característico obtenido se guarda en un archivo de texto plano. Este archivo tendrá una extensión “.LSMV” modificable para poder ser usado con distintos clasificadores. 4.4. COMENTARIOS La vestimenta del usuario y los objetos en la escena, son considerados correctos ya que ayudan a la localización de los objetos para el proceso de extracción de características. Además, de acuerdo con el análisis de la lengua de señas mexicana, sólo se necesita la información a partir de la cadera del usuario hacia arriba. Para los procesos de adquisición, digitalización y desentrelazado del video se usó software externo, que ayudan significativamente a los procesos del tratamiento digital de imágenes. En donde el algoritmo de desentrelazado escogido fue el idóneo, ya que presenta los objetos de la imagen de una forma más completa.

57

Page 68: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo IV: Diseño y desarrollo del sistema

58

Al cambiar el modelo de color a trabajar, de RGB a YCbCr, y manipular sólo la capa Y se identifican las partes brillosas de la imagen, las cuales corresponden a las áreas de la piel. Esto se debe a las condiciones de la vestimenta del usuario junto con el acondicionamiento de la escena, ayudan a tener contrastada la piel con respecto al resto de la imagen. En las operaciones morfológicas que se aplican (Apertura) se logra eliminar la mayor parte de huecos que se presentan en un objeto, por el contrario el detalle que se pierde con respecto a la forma original del objeto es mínimo. Con la identificación de cuadros clave, a través de los momentos de Zernike, se encuentran los cuadros dentro de la secuencia que contienen una mayor información visual relevante. Con lo anterior, se reduce el número de cuadros de la secuencia de imágenes de un 90% a un 85% sin perder información relevante sobre la seña. Los cuadros clave pueden ser extraídos de cualquier secuencia de imágenes, es decir, de cualquier seña sin importar la duración de la misma. Además las posiciones que se presentan como resultado de la identificación de los cuadros clave en cada secuencia de imágenes, coinciden con las características deseadas a encontrar (véase sección 3.1.6). Lo anterior indica que el estudio sobre las características a extraer se hizo adecuadamente y la identificación de cuadros clave lo confirma. El sistema está preparado para ampliar el conjunto de señas, siempre y cuando se sigan respetando las condiciones de adquisición y digitalización de los videos, gracias a la incorporación de un editor de clases que permita al usuario agregar o quitar clases. Se estableció un número de cuadros (cuatro) para formar el vector característico en cada secuencia de imágenes. En el conjunto de señas propuesto a trabajar sólo son necesarios como máximo tres cuadros.

Page 69: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

CAPÍTULO V

5. PRUEBAS Y RESULTADOS En este capítulo se evalúa el funcionamiento del sistema para cumplir con los objetivos de este trabajo, se llevaron a cabo 4 casos de prueba usando el conjunto de señas propuesto. Finalmente se realiza un reconocimiento con el uso de software externo, para verificar que las características extraídas son las correctas.

Page 70: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

5.1. AMBIENTE DE PRUEBAS En esta sección se describen las condiciones y el equipo (software y hardware) usados para las pruebas.

1. En la adquisición de las secuencias de imágenes (video) se utilizó una videocámara Sony DCR-HC42.

2. La digitalización del video se llevo a cabo con el puerto IEEE1394 en

una computadora Pentium 4 a 3.0 GHZ con 512 Mb en RAM. Además se usó el software llamado Pinnacle Studio V.9.4 bajo el sistema Windows XP (Sp2).

3. El tipo de extensión usado es AVI, con una resolución de 320 x 240

píxeles a una velocidad de 30 cuadros por segundo, además se desconecta el canal de audio.

4. Los equipos en que se ejecutaron las pruebas son:

a. Pentium 4 a 1.8 Ghz con 256 Mb en RAM con el sistema

operativo Windows XP (Sp2). b. Pentium 4 HT a 3.0 Ghz con 512 Mb en RAM con el sistema

operativo Windows XP (Sp2). c. AMD Turion64 X2 a 1.8 Ghz. con 1 Gb en RAM con el sistema

operativo Windows Vista (32 bits).

5. La persona es filmada de frente a la videocámara a partir de la cadera hacia arriba.

6. La vestimenta de la persona debe ser la descrita anteriormente (véase

4.3.1.1) junto con el fondo de color negro. 5.2. PLAN DE PRUEBAS En el plan de pruebas se usaron videos filmados con 4 personas en el que se realizaron las señas propuestas: (silla, sentarse), (escalera, subir), (cepillo, peinarse), (tijeras, cortar), (brocha, pintar). Cada persona repitió la seña de 8 a 20 veces, variando el tiempo de duración en cada seña de 3 a 6 segundos. Además, la distancia entre la persona y la videocámara no es fija sólo se considera que la persona esté al centro de la imagen y se trata de que el área, a los costados y superior, sea suficiente para desarrollar los movimientos de la seña sin que las manos se salgan del cuadro de grabación. En la iluminación se utilizaron lámparas fluorescentes que se encontraban fijas en el techo del edificio (situadas en la parte superior de la persona) y no se manipuló su orientación.

60

Page 71: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

Se tiene como propósito probar la eficiencia del sistema en las condiciones descritas en este trabajo y en condiciones desfavorables, por tal motivo se diseñó el siguiente conjunto de casos de pruebas:

Caso 1. Segmentación con distintos tonos de piel. Caso 2. Selección de cuadros clave usando momentos de Zernike. Caso 3 Caracterización. Caso 4. Clasificación de señas.

5.2.1. SEGMENTACIÓN CON DISTINTOS TONOS DE PIEL En esta sección se presenta la segmentación con distintos tonos de piel, en donde se prueba que el sistema pueda segmentar las regiones de color piel aún y cuando estas varíen. La iluminación es proporcionada por dos lámparas fluorescentes que se encuentra en la parte superior de la persona y aunque estas están fijas no se controló totalmente dicha iluminación. Es importante mencionar que las condiciones de la escena son descritas en la sección 4.3.1. Las pruebas son 4 tonos de piel que empieza con una piel café oscuro (persona No. 1), piel café medio (persona No. 2), piel café medio con barba y bigote (persona No. 3) y finalmente un tono de piel café claro (persona No. 4). Así se varían los tonos para identificar las áreas correspondientes a la piel. En la Figura 5.1 se muestra a la persona no. 1, que realiza la seña de (brocha, pintar), el tono de piel pertenece a un café oscuro. Con la iluminación proporcionada se segmenta la piel exitosamente. Además se observa en la misma figura que los ojos en la imagen segmentada no se toman en cuenta y quedan como huecos negros, indicando que existe una segmentación de la piel a detalle.

Figura 5.1. Persona No. 1 en prueba 1, a) imagen original y b) imagen segmentada

61

Page 72: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

En la Figura 5.2 se presenta un cuadro correspondiente, de la secuencia de imágenes, a la seña (silla, sentarse) y que ésta incluye el movimiento de las dos manos, los cuales tienen una segmentación que abarca toda el área de la piel.

Figura 5.2. Persona No. 1 en prueba 2, a) imagen original y b) imagen segmentada

En la persona de la Figura 5.1 y la Figura 5.2, se observan pequeños huecos en el área de la cabeza y un área ovalada de la cabeza, los huecos se deben a las sombras que llegan a existir pertenecientes a los ojos, gracias a las operaciones morfológicas se llegan a cerrar dichos huecos, y la forma de la cabeza ovalada se debe al corte de cabello que la persona tiene. En la Figura 5.3 y Figura 5.4 se observa a la persona no. 2 que tiene un tono café medio. A la izquierda se observa el cuadro con el tono de piel y a la derecha la imagen segmentada con los objetos aislados. Se observa que al tener un diferente corte de cabello al de la persona no. 1 la forma de la imagen segmentada cambia, además se observa que en la imagen segmentada se distingue la forma de las orejas de la persona, lo cual indica que se abarca correctamente el área de correspondiente a la piel.

Figura 5.3. Persona No. 2 en prueba 1, a) imagen original y b) imagen segmentada

62

Page 73: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

Figura 5.4. Persona No. 2 en prueba 2, a) imagen original y b) imagen segmentada

De la Figura 5.4 se observa que existe un pequeño punto negro en el área de la cara en la imagen segmentada, como se ha mencionado este es causado por el área de los ojos que no tienen el color de piel, esto no impide que se realice la extracción de las características, y sólo se presenta una diferencia mínima la cual no afecta en los resultados. En las pruebas con la persona no. 1 y no. 2, se observa que la diferencia del tamaño del área de la piel que se debe a que la distancia entre la persona y la videocámara al momento en realizar la grabación fue diferente. Otro caso de prueba importante se presenta en la Figura 5.5. En éste, la persona no. 3 tiene un tono de piel café medio con barba y bigote en el área del rostro. Es evidente que el contar con estas condiciones afecta el proceso de segmentación de la piel, sin embargo, el objeto es segmentado perdiendo área del rostro pero es localizado y aislado en la imagen resultante. Se observan que aparecen huecos negros en la imagen resultante, que sigue siendo consecuencia de la barba y bigote. Además, se observa ruido en la parte izquierda inferior, pero éste no se toma en cuenta.

Figura 5.5. Persona No. 3 en prueba 1, a) imagen original y b) imagen segmentada

63

Page 74: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

En la Figura 5.6 se presentan las dos manos, en este caso se observa en la imagen resultante que existe una mayor cantidad de ruido pero este no afecta en el funcionamiento del sistema.

Figura 5.6. Persona No. 3 en prueba 2, a) imagen original y b) imagen segmentada

La ausencia de información del área de la cabeza no representa un problema para el sistema ya que, de igual manera, se extraerán sus características. Además, como se ha mencionado anteriormente, la cabeza se utiliza para identificar cada objeto (mano izquierda y mano derecha). La última prueba de segmentación de la piel se hizo con la persona no. 4, la cual tiene un tono de piel café claro. En esta prueba se verifica que el sistema funciona con distintos tonos de piel café, ya que la persona no. 4 tiene un contraste de piel muy diferente a las personas 1,2 y 3. En la Figura 5.7 se observa que la persona es del sexo femenino, y que en el momento en que se adquirieron los videos tenía puestos accesorios (aretes). En la imagen segmentada (Figura 5.7 b) se distingue un pequeño punto blanco cerca del área correspondiente a la cabeza, dicho punto pertenece al accesorio que en ese momento se utilizaba. Se verifica que el sistema no ocasiona error alguno, ya que el punto blanco no es considerado como un objeto y no afecta a la extracción de características de otros objetos

Figura 5.7. Persona No. 4 en prueba 1, a) imagen original y b) imagen segmentada

64

Page 75: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

De igual forma que con las personas no. 1, 2 y 3, se verifica que se segmenten las dos manos cuando la seña lo requiere ver Figura 5.8. En este caso se presenta que los rectángulos básicos se traslapan, en el proceso interno de identificación se corrige este problema (véase sección 3.2.3.3).

Figura 5.8. Persona No. 4 en prueba 2, a) imagen original y b) imagen segmentada

De igual forma en las figuras de la persona No. 4, se observan algunos huecos en el área de la cabeza y un poco de ruido. Dicho ruido no afecta en la segmentación y localización de los objetos (cabeza y manos) aún y con el tipo de piel clara que tiene la persona. De acuerdo a las pruebas hechas con diferentes personas, se concluye que el sistema es capaz de segmentar y localizar las zonas de piel exitosamente, abarcando gran parte del área de la piel, aún con las siguientes variaciones:

• El tono de piel varia entre las cuatro personas, de un café oscuro a un café claro, específicamente en la persona No. 4.

• La distancia entre la persona y la videocámara. • La persona No. 3 tiene abundante barba y bigote. • La iluminación no fue totalmente controlada

5.2.2. SELECCIÓN DE CUADROS CLAVE A continuación se presenta la selección de cuadros clave usando los momentos de Zernike. Para seleccionar los cuadros clave en la secuencia de imágenes sólo se utilizó un momento de Zernike con n=0 y m=0, la información obtenida es almacenada temporalmente para analizar la información a través del tiempo. Una vez que se grafican los resultados del momento de Zernike, en cada cuadro de la secuencia de imágenes, se obtienen los máximos y mínimos locales (véase Figura 4.11) que indican cambios visuales importantes. En la dos pruebas se comparó el tiempo de procesamiento con y sin la selección de cuadros clave. En la primera prueba se realizó el proceso de selección de cuadros clave y se les extrajeron las características. La segunda sin la selección de cuadros clave, además se procesaron todos los cuadros

65

Page 76: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

pertenecientes a la secuencia de imágenes (video), es decir, se extrajeron las características a todos los cuadros. En la Tabla 2 se presentan los resultados de las pruebas en las que se mide el tiempo de procesamiento usando varias secuencias de imágenes.

Tabla 2. Comparación de tiempo de procesamiento con y sin selección de cuadros clave Seña Núm. de

cuadros Tiempo de

procesamiento con selección de cuadros

clave (segundos).

Tiempo de procesamiento sin

selección de cuadros clave (segundos).

Ahorro de tiempo (%)

Pintar 153 26.61 30.91 13.97 Cepillo 153 26.10 28.01 10.70

Escalera 101 17.16 19.47 11.86 Silla 84 14.05 16.24 13.49

Tijeras 86 14.24 15.99 10.94 Promedio 12.19

Después de algunas pruebas en varias secuencias de imágenes, en las que se extraen las características con y sin selección de cuadros clave, el tiempo de procesamiento varia entre cada secuencia pero en promedio se obtiene un 12.19% de tiempo menos si se aplica la selección de cuadros clave. En la Figura 5.9 se muestra la secuencia de imágenes de la seña (cepillo, peinarse), se marcan los cuadros que se consideran clave después del proceso de selección de cuadros usando los momentos de Zernike.

Figura 5.9. Secuencia de imágenes de la seña cepillo, resaltando cuadros clave

66

Page 77: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

En la figura anterior se presentó la extracción de cuadros en una secuencia de imágenes, se resalta que la secuencia original tiene una duración de 87 cuadros y después de haber aplicado los momentos de Zernike se reducen a sólo 9 cuadros (señalados con un marco negro), lo que indica que se reduce el video en casi un 90%. En la Figura 5.10 se presenta la secuencia de imágenes de la seña tijeras, se aplicaron los momentos de Zernike, en donde se obtienen los cuadros 9 cuadros clave y se reduce la secuencia en un 89%.

Figura 5.10. Secuencia de imágenes de la seña tijeras, resaldanto cuadros clave

Es importante mencionar que en la selección de cuadros no se pierden las características importantes de cada seña, aunque se cambie la persona que realiza la seña. En la Figura 5.11 se muestran los cuadros clave de la seña (cepillo, peinarse) con dos personas, en donde presentan las posiciones muy parecidas como: ascenso de la mano, posición de la mano cerca de la cabeza y el descenso de la misma.

67

Page 78: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

Figura 5.11. Comparativo de la seña {cepillo,peinarse} realizada por dos personas diferentes

Otro caso que se presenta es para la seña (tijeras,cortar) en la Figura 5.12 se presentan los cuadros clave de dicha seña realizada por dos personas diferentes. Destacando de igual forma que las características importantes de la seña se preservan, visualmente se distinguen las posiciones de las manos parecidas entre las dos personas, aún y cuando las secuencias de imágenes tienen diferente duración, es decir, tienen un mayor o menor número de cuadros.

Figura 5.12. Comparativo de la seña {tijeras,cortar} realizada por dos personas diferentes

En la figura anterior se observa cómo se preservan las características de la seña, resaltando que las dos secuencias de imágenes tienen diferente duración. Se observa que en esta seña se busca principalmente los dedos separados y juntos, además del movimiento de traslación que va realizando la

68

Page 79: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

mano. Por otra parte, se observa que en los dos conjuntos de cuadros clave no existe un ascenso de la mano, pero si un descenso. Por último se hace la comparación de los cuadros extraídos con la persona no. 2 y la no. 4. Del cual la persona no. 4 posee poco conocimiento de la lengua de señas mexicana, pero se extraen cuadros clave parecidos a los de la persona No. 2.

Figura 5.13. Comparación de la seña {pintar,brocha} realizado por dos personas diferentes

En la Figura 5.13 se presentan los cuadros clave extraídos con los momentos de Zernike. Las características principales en las dos secuencias presentadas son: ascenso de la mano, mano en la parte superior, mano con la parte palmar hacia abajo, mano en la parte inferior y descenso de la mano. En esta seña en particular se reafirma la eficiencia de la extracción de cuadros clave, ya que una posición y forma importante es la mano con la parte palmar hacia abajo (remarcada en la figura anterior), dicha posición asegura que la mano sólo sube y baja su posición en una dirección vertical. Además, si no se encontrara esta posición indicaría que la mano tuvo otra trayectoria para llegar a la parte superior o a la inferior, y en donde probablemente, el significado de la seña sería diferente al de (pintar,brocha).

69

Page 80: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

5.2.3. CARACTERIZACIÓN Para estas pruebas se extrajeron las características: a) momentos de Hu, b) circularidad, c) excentricidad, d) orientación del objeto y e) posición (x,y) del objeto. Recordar que los objetos a buscar en la escena son las manos y la cabeza. Las pruebas se hicieron con cuatro personas (anteriormente mencionadas). En la Figura 4.18 se mostró la forma en que se presentan los datos pertenecientes a un determinado video de la seña (cepillo, peinarse), que representan las características de la seña. A partir de las características extraídas se hace una animación de dicha seña. En la Figura 5.14 se muestra la animación de las características extraídas del video, observar que el círculo representa la cabeza y el rectángulo la(s) mano(s).

Figura 5.14. Animación de las características en la interfaz de usuario

Así, se interpretan los datos de la caracterización dentro de la animación. A continuación se presenta la seña completa de (cepillo, peinarse) en la animación, además de que estos datos son el resultado de la selección de cuadros clave.

Figura 5.15. Representación gráfica de las características de la seña (cepillo,peinarse)

70

Page 81: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

En la Figura 5.16 se comparan los cuadros clave de un video, y su animación correspondiente (una vez que ya se extrajeron las características) de la seña (tijeras, cortar).

Figura 5.16. Comparación de los cuadros originales y los animados

De la figura anterior se observa cómo la animación se hace de forma correcta, ya que se identifican los objetos, además de que existe una correspondencia entre los cuadros originales y la animación. Ahora en la Figura 5.17 del lado izquierdo se muestran los cuadros clave de la seña escalera y a lado derecho se presenta la animación a partir de las características extraídas de los cuadros originales.

Figura 5.17. Representación de objetos unidos

De la figura anterior es importante observar que en los cuadros de animación existen dos que se encuentran marcados, y se observa el mismo cuadro en los cuadros originales se observa que existen las dos manos pero en la animación no. Lo anterior se debe a que en el proceso de segmentación los objetos se encuentran unidos provocando que se interpreten como un solo objeto, en este caso se toma en cuenta como si fuera el área de la cabeza.

71

Page 82: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

5.2.4. CLASIFICACIÓN DE SEÑAS El objetivo del presente trabajo es realizar una caracterización de las señas, sin embargo, en esta sección se presenta una clasificación con redes de Bayes con la finalidad de verificar que el conjunto de características obtenido fue adecuado para la caracterización. Es importante mencionar que para llegar al reconocimiento de las señas se necesita un estudio más profundo en el algoritmo de clasificación. Una vez que es aplicada la selección de cuadros en una secuencia de imágenes se eliminan el primer y el último cuadro, porque estos son constantes en todas las secuencias de imágenes y ocasionan un traslape entre las clases (las señas a trabajar). Del conjunto de cuadros restante se propone trabajar sólo con cuatro cuadros ya de acuerdo a las posiciones de las señas del conjunto a trabajar sólo serían necesarios cuatro cuadros (véase sección 3.1.6), a estos cuadros se les extraen las características y se forma un solo vector característico que contiene 73 variables (la suma de las características de los cuatro cuadros). A continuación se muestra un ejemplo de los cuadros que se buscaron en cada seña para conformar el vector final característico:

Figura 5.18. Señas modelo a buscar en cada secuencia de imágenes

72

Page 83: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

En la Figura 5.18 se muestran las señas modelo a buscar en el conjunto de cuadros resultantes de la selección de secuencias de imágenes, a los que se extraerán las características para conformar el vector final característico de la secuencia El vector característico contiene las variables que se presentan por cada cuadro, y que se presentan a continuación:

• dh5: momento de Hu número 5 perteneciente a la mano derecha. • dh6: momento de Hu número 6 perteneciente a la mano derecha. • dh7: momento de Hu número 7 perteneciente a la mano derecha. • dcirc: circularidad perteneciente a la mano derecha. • dpx: posición x de la mano derecha con respecto a toda la imagen. • dpy: posición y de la mano derecha con respecto a toda la imagen. • dh1: momento de Hu número 1 perteneciente a la mano derecha. • dexc: excentricidad de la mano derecha. • dori: da la orientación de la mano derecha con respecto a su eje mayor. • ih5: momento de Hu número 5 perteneciente a la mano izquierda. • ih6: momento de Hu número 6 perteneciente a la mano izquierda. • Ih7: momento de Hu número 7 perteneciente a la mano izquierda. • icirc: circularidad perteneciente a la mano izquierda. • ipx: posición x de la mano izquierda con respecto a toda la imagen. • ipy: posición y de la mano izquierda con respecto a toda la imagen. • ih1: momento de Hu número 1 perteneciente a la mano izquierda. • iexc: excentricidad de la mano izquierda. • iori: da la orientación de la mano izquierda con respecto a su eje mayor.

En donde el vector final tendrá cuatro veces el número de características, mencionadas arriba, y una última variable que es la clase a la que pertenece la secuencia. Para comprobar que los vectores característicos extraídos son los correctos, se efectúan algunas pruebas con el software llamado Weka 3.5. En las pruebas se editaron los archivos como se requiere en el software Weka 3.5 de manera manual. Se crearon dos archivos: a) contiene los datos, de todo el conjunto de señas, que se utiliza en el entrenamiento y b) los datos de la seña a clasificar. El software Weka 3.5 es capaz de clasificar usando varios métodos: árboles, reglas, funciones, redes de Bayes, etc. Por la naturaleza del problema que se está tratando, se elije la clasificación con las redes de Bayes. En la Figura 5.19 se muestra la interfaz de Weka 3.5 y en el que se presentan los clasificadores que soporta incluyendo las redes de Bayes.

73

Page 84: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

Figura 5.19. Interfaz de Weka 3.5 mostrando distintos tipos de clasificadores

Es importante mencionar que las redes de Bayes, en Weka 3.5, permiten cambiar el algoritmo de búsqueda seleccionando un método para realizar la búsqueda en las estructuras de la red. En este caso se usó el llamado TAN. La opción de búsqueda TAN construye un árbol que es formado por el cálculo del peso mayor que atraviesa el árbol (se encuentra mayor información en la ayuda del software).En la Figura 5.20 se muestra la opción de TAN en el software, que es la opción que se utilizó a lo largo de las pruebas con los datos del conjunto de las señas.

Figura 5.20. Ubicación en Weka 3.5 de algoritmo de búsqueda

El archivo que contiene los datos del conjunto de señas fue obtenido de la persona No. 2, es decir, que las características extraídas de la persona se introdujeron en el archivo y se usan para el proceso de entrenamiento.

74

Page 85: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

Como primer paso se hace la clasificación usando el mismo conjunto de entrenamiento y se usan 10 videos, los videos pertenecen a la persona No. 2 en la Tabla 3 muestra los resultados.

Tabla 3. Clasificación del conjunto de entrenamiento con persona no. 2 Seña Correctos % Incorrectos %

Cepillo 100 0 Escaleras 100 0 Persona No.2 Pintar 100 0 Sillas 100 0 Tijeras 100 0 Total 100 0

En la clasificación se obtuvo un 100% de instancias correctamente clasificadas, es decir, las 50 secuencias de imágenes se clasificaron correctamente A continuación se hicieron pruebas de clasificación usando un el conjunto de señas de la persona No. 2 para el entrenamiento. Para la etapa de clasificación se obtienen 37 secuencias de video de la persona No. 1.Las secuencias abarcan el conjunto de señas propuesto a trabajar.

Tabla 4. Resultado de la clasificación perteneciente a la persona a la persona no. 1 Seña Correctos % Incorrectos % Cepillo 25 75 Escaleras 100 0 Persona No.1 Pintar 100 0 Sillas 100 0 Tijeras 100 0 Total 85 15

En la Tabla 4 se obtiene un 85% de clasificación correcta para la persona No. 1 y un 15% de error. Se observa que la seña cepillo existe un alto porcentaje de error del 75%, lo que no sucede en las demás señas. En la siguiente clasificación con la persona No. 3 se usan 7 secuencias imágenes, de igual forma se usaron los datos de la persona No. 2 para el entrenamiento, los resultados son los siguientes:

Tabla 5. Resultado de la clasificación perteneciente a la persona no. 3 Seña Correctos % Incorrectos % Cepillo 100 0 Escaleras 100 0 Persona No.3 Pintar 100 0 Sillas 100 0 Tijeras 50 50 Total 90 10

En la Tabla 5 se observa que se obtiene un 90% en las secuencias de imágenes correctas y un 10% de error. Es importante que en la seña Tijeras se

75

Page 86: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

encuentra un alto porcentaje de error y que las demás señas son clasificadas correctamente. Por último se clasifican las secuencias de imágenes correspondientes a la persona No. 4, en la que se usan 10 secuencias de imágenes distribuidas en el conjunto de señas a trabajar.

Tabla 6. Resultado de la clasificación perteneciente a la persona no. 4 Seña Correctos % Incorrectos % Cepillo 50 50 Escaleras 50 50 Persona No.4 Pintar 100 0 Sillas 100 0 Tijeras 100 0 Total 80 20

En la Tabla 6 se observa que se alcanza un 80% total en la clasificación correcta de las secuencias de imágenes y un 20% de error. Se observa que las señas (cepillo, peinarse) y (escalera, subir) ocasionan una mala clasificación. Es importante notar que de las diferentes clasificaciones hechas, la seña (cepillo, peinarse) es la que tiene el mayor porcentaje de error. Esto se debe a la subjetividad que existe en el momento que se escogen los cuatro cuadros a los que se extraen las características, ya que los usados para el entrenamiento pueden no estar contemplando algunas formas que estén presentes en los vectores a clasificar. Otra prueba de clasificación de las señas, en la que se usan 50 secuencias de imágenes, diferentes a los usados anteriormente, para el entrenamiento. La primera clasificación se usó el conjunto de datos, para el entrenamiento y la clasificación, pertenecientes a la persona No. 2.

Tabla 7. Resultado de la segunda clasificación perteneciente a la persona no. 2 Seña Correctos % Incorrectos % Cepillo 100 0 Escaleras 100 0 Persona No.2 Pintar 100 0 Sillas 100 0 Tijeras 100 0 Total 100 0

En la Tabla 7 se observa que en la clasificación se obtienen resultados satisfactorios, recordando que los datos de clasificación son los mismos de entrenamiento, es decir, sólo se usaron los datos de una sola persona. En la siguiente clasificación se usan los datos de la persona No. 1, que en total se tiene 37 secuencias de imágenes para el conjunto de señas a trabajar.

76

Page 87: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

Tabla 8. Resultado de la segunda clasificación para la persona no. 1 Seña Correctos % Incorrectos % Cepillo 12.5 87.5 Escaleras 85.7 14.3 Persona No.1 Pintar 75 25 Sillas 100 0 Tijeras 100 0 Total 74.64 25.36

De la Tabla 8 se obtiene un 74.64% de secuencias de imágenes clasificadas correctamente y un 25.36% de error. Se observa que la seña cepillo tiene el mayor porcentaje de error en comparación con las señas pintar y escalera que también presentan una clasificación incorrecta. En la siguiente clasificación se usaron 7 secuencias de imágenes, pertenecientes a la persona No. 3, entre todo el conjunto de señas.

Tabla 9. Resultado de la segunda clasificación para la persona no. 3 Seña Correctos % Incorrectos % Cepillo 0 100 Escaleras 100 0 Persona No.3 Pintar 100 0 Sillas 100 0 Tijeras 50 50 Total 70 30

Se observa en la Tabla 9 que el porcentaje que se alcanza es de 70% para las secuencias clasificadas correctamente y un 30% de error. De igual forma que en casos anteriores, la seña (cepillo, peinarse) es la que obtiene un alto porcentaje de error, debido a que los resultados de la descripción de la forma (momentos de Hu [35]) del objeto es muy parecida en algunas otras señas. Para la clasificación de secuencias de imágenes de la persona No. 4 se usan 10 secuencias repartidas equitativamente entre el conjunto de señas a trabajar.

Tabla 10. Resultado de la segunda clasificación para la persona no. 4 Seña Correctos % Incorrectos % Cepillo 0 100 Escaleras 50 50 Persona No.4 Pintar 50 50 Sillas 50 50 Tijeras 100 0 Total 50 50

De la Tabla 10 se observa un porcentaje del 50% para las secuencias clasificadas correctamente, y se acentúa aún más la mala clasificación de la seña (cepillo, peinarse).

77

Page 88: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

Por último se clasifican los datos correspondientes a la persona No. 2 pero usando un conjunto de secuencias distinto al usado en el entrenamiento, y los resultados son los siguientes:

Tabla 11. Resultado de la tercera clasificación de la persona no. 2 Seña Correctos % Incorrectos % Cepillo 90 10 Escaleras 90 10 Persona No.2 Pintar 100 0 Sillas 100 0 Tijeras 100 0 Total 96 4

En la Tabla 11 se obtiene un 96% de secuencias de imágenes correctamente clasificadas y un 4% de error. Las señas (cepillo, peinarse) y (escalera, subir) muestran un 10% de error, y como se observó en las pruebas anteriores, la seña (cepillo, peinarse) marca un porcentaje de error más alto en comparación con las otras señas. En la segunda clasificación, a partir de la Tabla 7 en adelante, se obtiene un alto porcentaje de secuencias de imágenes clasificadas incorrectamente. Como se mencionó anteriormente la selección de los cuatro cuadros (para el vector característico) es realizada manualmente, lo cual lleva a tener un rango de error mayor. se debe a la subjetividad que se tiene en la selección de los cuatro cuadros a conformar el vector característico de la secuencia de imágenes, ya . Es importante notar que en la Tabla 10 se obtiene un porcentaje alto en comparación con las pruebas anteriores, y aunque las secuencias de imágenes son hechas por la misma persona, no se usa el mismo conjunto de datos para el entrenamiento y para la clasificación. 5.3. COMENTARIOS En el proceso de la segmentación de las áreas correspondientes a la piel se obtienen resultados satisfactorios gracias al uso del modelo YCbCr en la capa Y, además de que existen imágenes en las que se extrae a detalle las áreas correspondientes a la piel. Las áreas donde se encuentra dificultad para la segmentación de la piel es cuando se presenta barba y/o bigote en la persona, ya que no es visible el color de la piel. Sin embargo lo anterior no afecta de manera dramática al sistema, ya que el área de la cabeza siempre es localizada e identificada correctamente con la parte de piel que se tenga. Los momentos de Zernike ayudan a reducir los cuadros en una secuencia de imágenes, ya que seleccionan los cuadros clave donde existe información visual importante. Además los cuadros obtenidos extraen de una manera muy similar, la información visual, aun y cuando se aplique en diferentes personas.

78

Page 89: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo V: Pruebas y resultados

79

Una ventaja que se presenta con el proceso de selección de cuadros clave, es la de reducir el tiempo de procesamiento con un promedio de 12.19% en cada secuencia de imágenes. Para la etapa de clasificación de las señas se usó el software Weka 3.5 con el algoritmo de redes de Bayes, el porcentaje de clasificación en algunas ocasiones es alto y en otras muy bajo. Lo anterior se debe a la subjetividad que existe en la selección de los cuadros a conformar el vector característico final de la secuencia de imágenes, ya que las formas de las manos que se extraen en algunos vectores pueden no estar consideradas en el conjunto de vectores de entrenamiento. Por otra parte, un fenómeno que se presentó y que se esperaba, es que al clasificar un conjunto de datos diferente al del entrenamiento pero con la misma persona realizando las señas, se obtiene un alto porcentaje de clasificación correcto.

Page 90: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

CAPÍTULO VI 6. CONCLUSIONES En este capítulo se presentan algunos comentarios a manera de conclusión general, de igual forma se comentan las aportaciones y los posibles trabajos futuros del presente proyecto.

Page 91: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo VI: Conclusiones

81

6.1. COMENTARIOS FINALES Se desarrolló el presente trabajo ya que existe una dificultad en el proceso de comunicación entre las lenguas de señas y las lenguas orales. En México algunos autores han comenzado a desarrollar sistemas informáticos pero estos sólo se limitan a trabajar con la dactilología7, lo cual no es de gran ayuda porque en la LSM la comunicación es a través de señas que representan conceptos. La lengua de señas mexicana, al igual que las lenguas orales, varía de una región a otra debido a la cultura, inclusive la lengua de señas cambia de un país a otro y por lo tanto sólo se trabajó con la lengua de señas que se habla en el estado de Morelos. En este trabajo se realizó la caracterización de un conjunto de señas de la LSM, es decir, se describió el fenómeno de las señas con la implementación de algunos procedimientos y se usaron diferentes técnicas del área de procesamiento digital de imágenes. El primer procedimiento fue el del proceso de adquisición de las secuencias de imágenes (videos) donde se especificaron las condiciones en las que se debe efectuar dicho proceso. El desentrelazado de los videos ayuda significativamente a la extracción de los objetos, ya que en un video entrelazado los objetos se presentan de forma incompleta y/o difuminado. Así el desentrelazado junto con el algoritmo basado en el área mejoran los resultados del tratamiento digital de imágenes. De acuerdo con las características de adquisición y digitalización de los videos, el modelo de color YCbCr es el que presenta una extracción casi total de las áreas de color piel e incluyendo que la iluminación no fue totalmente controlada y variando los tonos de piel. El resultado no pudo ser superado, con las mismas condiciones, con otros modelos de color como: RGB, HCL y HSI. Los momentos de Zernike fueron implementados con el objetivo de reducir los cuadros a procesar dentro de la secuencia de imágenes, los resultados son satisfactorios ya que se extraen cuadros clave que contienen información visual relevante. Además dichos cuadros obtenidos conservan las características cuando se varía la persona que realiza la seña. Los resultados de la localización e identificación de los objetos en una imagen son satisfactorios, aún y cuando exista ausencia de información ocasionada por la barba y/o bigote. De acuerdo con los porcentajes bajos obtenidos en la clasificación, en algunos casos, se debe principalmente a que las redes de Bayes no son la herramienta adecuada para la clasificación, y se está de acuerdo con la revisión del estado del arte [9][10][11][12][13], en que la mejor herramienta para el reconocimiento de las señas son los Modelos Ocultos de Markov (HMM).

7 La dactilología es el deletreo de las palabras, es decir, es la representación de gráfica de una letra.

Page 92: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo VI: Conclusiones

En general y de acuerdo con los casos de prueba se concluye lo siguiente:

a) La adquisición y digitalización de las secuencias de imágenes son etapas en las que se obtienen resultados satisfactorios.

b) El proceso de segmentación del color de la piel es satisfactorio.

c) La localización e identificación de los objetos son satisfactorios.

d) La selección de cuadros clave usando los momentos de Zernike se

realiza satisfactoriamente.

e) La extracción de características es satisfactoria.

f) La clasificación con el uso del software WeKa 3.5 no es satisfactoria ya que el porcentaje de error es alto para algunas señas (véase sección 5.2.4).

6.2. APORTACIONES

El objetivo de este proyecto era caracterizar un conjunto de señas, sin embargo, el sistema está preparado para aumentar y/o modificar el conjunto de señas gracias al editor de clases que posee el sistema.

Los archivos de las características obtenidos pueden ser fácilmente

modificados para su uso con algún software de reconocimiento, ya que se guardan en un archivo de texto plano.

El proceso de caracterización puede efectuarse manualmente o

automáticamente con posibilidad a usar secuencias de imágenes de varios tipos de señas.

El sistema está abierto para modificaciones al código, además de poder

agregar nuevos métodos para el reconocimiento de las señas.

Se implementaron los momentos de Zernike para la selección de cuadros en una secuencia de imágenes, y que al mismo tiempo los cuadros seleccionados sirven como cuadros clave de la secuencia.

Se propuso un conjunto de descriptores para caracterizar las formas y

posiciones de las manos (algunos invariantes a la rotación, traslación y escala).

El principal problema en los proyectos desarrollados en México radica en

que sólo trabajan la dactilología con equipos electrónicos costosos, pero hasta el momento no existía implementación que trabajaran con señas de alguna palabra.

82

Page 93: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

Capítulo VI: Conclusiones

83

Se presenta un sistema computacional para la extracción de características de la lengua de señas mexicana.

6.3. TRABAJOS FUTUROS Realizar la segmentación de la piel en ambientes no controlados, es decir, identificar las áreas pertenecientes a la piel dentro de la imagen pero con un ambiente donde no existan restricciones sobre el lugar, objetos o vestimenta del usuario. Además de tratar el tema de traslapes de lo objetos, ya que por la naturaleza de la lengua de señas existen contactos y/o traslapes con las manos o con la cabeza de la persona. Optimización de la extracción de las características para hacer un reconocimiento de las señas en tiempo real, ya que si se desea usar para una traducción en tiempo real se necesita mejorar el tiempo de procesamiento en todas las etapas (desde la captura del video hasta la extracción de características) sin la necesidad de equipos costosos. Una vez obtenidos los vectores característicos de forma automática en un conjunto de señas, el siguiente proceso sería la etapa de reconocimiento de dichas señas para poder aplicarlo en un dialogo en la LSM. Además, se requiere de un estudio profundo y detallado de la estructura gramatical de la lengua de señas mexicana.

Page 94: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

REFERENCIAS [1] La lengua de signos. Sitio we:

http://www.asorvigo.org/contenidosasv/lse.htm. Fecha de revisión: Febrero 2006.

[2] Fillbrandt H., Akyol S., Kraiss K., “Extraction of 3D shape and posture from image sequences for sign language recognition”. IEEE International Workshop on Analysis and Modeling of Faces and Gestures (AMFG) , pp. 181-186, IEEE Computer Society, ISBN 0-7695-2010-3. Octubre 2003.

[3] Cohen I., “3D hand and fingers reconstruction”. University of southern

California, USA. 2002. [4] Aran O., Keskin C., Akarun L., “Sign Language Tutoring Tool“. European

Signal Processing Conference, EUSIPCO ´05, Antalya, Turkey, Septiembre 2005.

[5] Diario Oficial de la Federación No. 45.995 de 09 de agosto de 2005.

Disponible en: http://www.secretariasenado.gov.co/leyes/L0982005.HTM. Fecha de consulta: marzo de 2006.

[6] Foro por los derechos de los sordos. “La lengua de señas mexicana

habla”, 28 de noviembre de 2005. [7] Instituto lingüístico de verano, A.C. Disponible en:

http://www.sil.org/MEXICO/24e-Poblacion.htm. Fecha de consulta: marzo de 2006.

[8] Starner, T. and Pentlad, A. “Real-time American Sign Language

Recognition from Video Using Hidden Markov Models”. Proceedings of the international symposium on computer vision. IEEE computer society. Page(s): 265-270. 1995.

[9] Bauer B., Hienz H. “Relevant features for video-based continuous sign

language recognition”. Fourth IEEE international conference on automatic face and gesture recognition. Page(s): 440-445. March 2000.

[10] Tanibata N., Shimada N. and Shirai Y., “Extraction of hand features for

recognition of sign language”. 15th internacional conference on vision interface. Pp. 391-398. 2002

[11] Bowde R., Windridge D., Kadir T., Zisserman A., Brady M., “A linguistic

feature vector for the visual interpretation of sign language”. In the 18th European conference on computer vision, Pp. 391-401, 2004.

[12] Ye J., Yao H., Jiang F. “Based on HMM and SVM multilayer architecture

classifier for Chinese sign language recognition with large vocabulary”. Fifth IEEE international conference on automatic face and gesture recognition. Page(s): 297-302. May 2005

84

Page 95: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

[13] Holden E., Lee G., Owens R., "Automatic Recognition of Colloquial

Australian Sign Language". IEEE Workshop on Motion and Video Computing (WACV/MOTION'05), pp. 183-188 - Volume 2, 2005.

[14] Wang, Q., Chen X., Zhang L., Wang C., Gao W. “Viewpoint invariant sign

language recognition”. IEEE international conference on image processing. Page(s): 281-284. September 2005.

[15] Soontranon N., Aramvith S. and Chalidabhongse T.H. “Improved face and

hand tracking for sign language recognition”. Internacional conference on information technology: coding and computing. Page(s): 141-146 Vol. 2. April 2005.

[16] Yuan Q., Sclaroff S., Athitsos V. “Automatic 2D hand tracking in video

sequences”. Proceedings of the seventh IEEE workshops on application of computer vision. Pp. 250-256 – volume 1, ISBN: 0-7695-2271-8-1, 2005.

[17] Awad G., Han J. and Sutherland A. “A unified system for segmentation

and tracking of face and hands in sign language recognition”. 18th internacional conference on pattern recognition. Page(s):239-242 Volume 1. August 2006.

[18] British Sign Language. Sitio web: http://www.learnbsl.org/. Fecha de

revisión: Octubre 2006. [19] Diccionario Español - Lengua de Señas Mexicana. CD-ROM, ISBN-970-

18-8538-4, México 2004. [20] Oviedo H. J. y Torres D., “Guante traductor para sordomudos”. Sitio web:

http://oncetv-ipn.net/noticias/index.php?modulo=despliegue&dt_fecha=2006-05-04&numnota=21. Fecha de revisión: Octubre 2006.

[21] Blue sign translator. Sitio web:http://bluesign.dii.unisi.it/. Fecha de

revisión: Octubre 2006 [22] The Accele Glove. George Washington University. Sitio web:

http://www.gwu.edu/~research/accele.htm. Fecha de revisión: Noviembre 2006.

[23] Real Academia Española, “Diccionario de la lengua española”. Editorial:

Espasa. 2001. ISBN:84-239-6813-8 [24] Instituto nacional de estadística, geografía e informática. Sitio web:

http://cuentame.inegi.gob.mx/poblacion/discapacidad.aspx?tema=P. Fecha de revisión: noviembre 2006.

85

Page 96: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

[25] Serafin E., Comunicación manual. Tomo 1,México, 1990. [26] Clases de lenguaje de señas mexicana. Instituto: Centro de Atención

Múltiple No.6 Cuernavaca, Mor., México, 2006. [27] Lopéz L., Rodríguez R., Zamora M., San Esteban S., Mis manos que

hablan, lenguaje de señas para sordos. Edit: Trillas.2004. [28] Virtualdub Filtres. Sitio web: http://www.guthspot.se/video/index.htm.

Fecha de revisión: Mayo 2007. [29] Pajares G., De la Cruz J., Visión por Computador, 2002, Edit:

Alfaomega. ISBN: 970-15-0804-1, ISBN: 958-682-552-3. [30] Szedo G. “Color-space converter: RGB to YCbCr”. Application note,

Xilinx. 2006. [31] Sarifuddin M., Missaoui R., “A new perceptually uniform color space with

associated color similarity measure for contend based image and video retrieval”. Workshop on multimedia information retrieval, Pp. 1-8, 2005.

[32] Segmentación por umbralización – Método de Otsu. Sitio web:

http://iaci.unq.edu.ar/Materias/vision/apuntes.htm. Fecha de revisión: Enero 2007

[33] González R., Woods R. “Tratamiento Digital de Imágenes”. Editorial:

Addison-esley/Diaz de Santos, 1996. ISBN 0-201-62576-8. [34] Rectángulo básico. Sitio web:

http://en.wikipedia.org/wiki/Minimum_bounding_rectangle. Fecha de revisión: Marzo 2007.

[35] Momentos Invariantes de Hu. Sitio web:

http://en.wikipedia.org/wiki/Image_moments. Fecha de revisión: Marzo 2007.

[36] Myler H. R., Weeks A.R., The Pocket Handbook of Image Processing

Algorithms in C. Prentice Hall PTR.1993. [37] Eccentricity. Sitio web:

http://en.wikipedia.org/wiki/Eccentricity_%28mathematics%29. Fecha de revisión: Mayo 2007.

[38] Kosmopoulos D.I.,Doulamis A., Doulamis N., “Gesture-based video

summarization”. IEEE international conference on image processing. Page(s) :111-120. 2005.

[39] Khotanzad A., Hong Y., “Invariant image recognition by Zernike

moments”. IEEE transactions on pattern analysis and machine intelligence.Page(s) : 489-497.1990.

86

Page 97: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

ANEXO A BASE DE VIDEOS En este anexo se presentan las personas que ayudaron como sujetos de prueba dentro del presente trabajo.

87

Page 98: TESIS DE MAESTRÍA EN CIENCIAS - CENIDET

88

Perla Aurora Troncoso Rey Arturo Guzmán Obispo

Rubén Zárate Ledesma Gerardo Acevedo Vega