UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS
COMPUTACIONALES
SISTEMA DE DETECCIÓN DE PALABRAS COMPLEJAS EN ESPAÑOL APLICANDO
ESTRATEGIAS DE SIMPLIFICACIÓN LÉXICA PARA CONTRIBUIR A LA
COMPRENSIÓN LINGÜÍSTICA DE LOS ESTUDIANTES
UNIVERSITARIOS
PROYECTO DE TITULACIÓN
Previa a la obtención del Título de:
INGENIERO EN SISTEMAS COMPUTACIONALES
AUTORES:
NÉSTOR DANIEL CRUZ QUEZADA
JOSEPH HARI RODRÍGUEZ AVELLÁN
TUTORA:
MSc. JENNY ORTIZ ZAMBRANO
GUAYAQUIL – ECUADOR
2020 - 2021 CICLO
I
REPOSITORIO NACIONAL EN CIENCIAS Y TECNOLOGÍAS
FICHA DE REGISTRO DE TRABAJO DE TITULACIÓN
TÍTULO: “Sistema de Detección de Palabras Complejas en Español Aplicando Estrategias de
Simplificación Léxica para Contribuir a la Comprensión Lingüística de los Estudiantes Universitarios”
AUTORES:
Néstor Daniel Cruz Quezada
Joseph Hari Rodríguez Avellán
REVISORA:
PhD. Elsy Rodríguez Revelo
INSTITUCIÓN: Universidad de Guayaquil FACULTAD: Ciencias Matemáticas y Físicas
CARRERA: Ingeniería en Sistemas Computacionales
FECHA DE PUBLICACIÓN: 14 de octubre de 2020
N° DE PAGS: 138
AREA TEMÁTICA: Procesamiento de lengua natural
PALABRAS CLAVES: Simplificación léxica, palabras complejas, procesamiento del lenguaje natural.
RESUMEN: El presente proyecto de titulación abordó la problemática referente a la complejidad con
la que están escritos los textos académicos y la dificultad que presentan los estudiantes al no comprender
su contenido. Esto puede obedecer a diferentes factores, tales como: el empleo de un vocabulario
especializado, uso de palabras poco frecuentes, oraciones muy largas, entre otros, lo cual se torna en una
barrera para el aprendizaje. El objetivo de este proyecto fue desarrollar un software de simplificación
léxica para aportar a la comprensión lingüística de los estudiantes de la Carrera de Software de la
Facultad de Ciencias Matemáticas y Físicas de la Universidad de Guayaquil. La Simplificación Léxica
consiste en la sustitución de las palabras complejas por su sinónimo más simple convirtiendo un texto a
otro más fácil de comprender. Se aplicó la metodología de desarrollo Scrum en la cual se elabora un
producto mediante ciclos de desarrollo cortos. La población y muestra se tomó de la carrera antes
mencionada, en el período 2020 – 2021 CI, para la recolección de datos se realizaron dos encuestas, la
primera demostró que el 90% de los encuestados consideran que los textos académicos contienen
palabras que no conocen, además, el 49% de los encuestados indicaron tener algún tipo de problema de
recepción o comprensión de datos, visibilizando la existencia de la problemática. La segunda fue la
encuesta de satisfacción la cual demostró que el 88% de los encuestados consideran que la herramienta
desarrollada fue de gran ayuda para comprender mejor los textos. Estos resultados contestan a la
pregunta científica planteada en este proyecto, pues el sistema desarrollado aportó una solución que
disminuye la barrera que presentan los estudiantes con los textos académicos complejos.
Palabras clave: Simplificación léxica, palabras complejas, procesamiento del lenguaje natural.
N° DE REGISTRO: N° DE CLASIFICACIÓN:
DIRECCIÓN URL: (PROYECTO DE TITULACION EN LA WEB)
ADJUNTO PDF SI NO
CONTACTO CON AUTORES:
Néstor Daniel Cruz Quezada
Joseph Hari Rodríguez Avellán
Teléfono:
0996774598
0979258167
Email:
CONTACTO DE LA INSTITUCIÓN Nombre: Ab. Juan Chávez Atocha
Teléfono: 2307729
Email: [email protected]
X
II
APROBACIÓN DEL TUTOR
En mi calidad de Tutor(a) del Trabajo de Titulación, “SISTEMA DE DETECCIÓN DE
PALABRAS COMPLEJAS EN ESPAÑOL APLICANDO ESTRATEGIAS DE
SIMPLIFICACIÓN LÉXICA PARA CONTRIBUIR A LA COMPRENSIÓN LINGÜÍSTICA
DE LOS ESTUDIANTES UNIVERSITARIOS” elaborado por los Sres. NÉSTOR DANIEL
CRUZ QUEZADA y JOSEPH HARI RODRÍGUEZ AVELLÁN, estudiantes no titulados
de la Carrera de Ingeniería en Sistemas Computacionales, Facultad de Ciencias Matemáticas y
Físicas de la Universidad de Guayaquil, previo a la obtención del Título de Ingeniero en
Sistemas Computacionales, me permito declarar que luego de haber orientado, estudiado y
revisado, la apruebo en todas sus partes.
Atentamente,
MSc. Jenny Ortiz Zambrano.
TUTORA
III
DEDICATORIA
Dedico esta tesis a mi madre que me ha brindado
su apoyo incondicional y con mucho esfuerzo me
ha acompañado día y noche en este largo camino
para alcanzar mis metas académicas.
Néstor Daniel Cruz Quezada
A Dios, a mis padres por haberme forjado como
la persona que soy, a mi hermana por apoyarme
en todo, a quienes hoy están lejos, pero siempre
los llevo en mi corazón, espero que la fortuna o
el azar me den la oportunidad de volverlos a ver.
Sin ustedes nada hubiese sido posible.
Joseph Hari Rodríguez Avellán
IV
AGRADECIMIENTO
Agradezco a mi madre, tíos y hermanos quienes me han
apoyado y alentado de forma constante en mi preparación
académica y personal. Agradezco también a MSc. Jenny
Ortiz que con su experiencia, conocimiento y dedicación
guío el desarrollo de esta tesis.
Néstor Daniel Cruz Quezada
Agradezco a Dios, a mis padres por ser un pilar
fundamental en mi vida, a todas las personas que
aportaron su granito de arena para que este momento sea
una realidad. Agradezco de manera muy especial a la
MSc. Jenny Ortiz quien además de apoyarme de manera
personal e institucional dirigió esta tesis, y me alentó a
concluir el presente proyecto.
Joseph Hari Rodríguez Avellán
V
TRIBUNAL PROYECTO DE TITULACIÓN
Ing. Fausto Cabrera Montes, M.Sc.
DECANO DE LA FACULTAD
CIENCIAS MATEMÁTICAS Y FÍSICAS
Ing. Gary Reyes Zambrano, Mgs.
DIRECTOR DE LA CARRERA DE
INGENIERÍA EN SISTEMAS
COMPUTACIONALES
MSc. Jenny Ortiz Zambrano
PROFESORA TUTORA DEL PROYECTO
DE TITULACIÓN
PhD. Elsy Rodríguez Revelo
PROFESORA REVISORA DEL
PROYECTO
DE TITULACIÓN
Ab. Juan Chávez Atocha, Esp.
SECRETARIO
VI
DECLARACIÓN EXPRESA
“La responsabilidad del contenido de este Proyecto de
Titulación, nos corresponde exclusivamente; y el
patrimonio intelectual de la misma a la UNIVERSIDAD
DE GUAYAQUIL”.
NÉSTOR DANIEL CRUZ QUEZADA
JOSEPH HARI RODRÍGUEZ AVELLÁN
VII
CESIÓN DE DERECHOS DE AUTOR
Ingeniero
Fausto Cabrera Montes, M.Sc.
DECANO DE LA FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
Presente.
A través de este medio indico a usted que procedo a realizar la entrega de la cesión de
derechos de autor en forma libre y voluntaria del trabajo de titulación “SISTEMA DE
DETECCIÓN DE PALABRAS COMPLEJAS EN ESPAÑOL APLICANDO ESTRATEGIAS
DE SIMPLIFICACIÓN LÉXICA PARA CONTRIBUIR A LA COMPRENSIÓN
LINGÜÍSTICA DE LOS ESTUDIANTES UNIVERSITARIOS”, realizado como requisito
previo para la obtención del Título de Ingeniero en Sistemas Computacionales de la
Universidad de Guayaquil.
Guayaquil, 14 de octubre de 2020
Néstor Daniel Cruz Quezada
C.I. N° 0929319879
Joseph Hari Rodríguez Avellán
C.I. N° 0920249869
VIII
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
SISTEMA DE DETECCIÓN DE PALABRAS COMPLEJAS EN ESPAÑOL APLICANDO
ESTRATEGIAS DE SIMPLIFICACIÓN LÉXICA PARA CONTRIBUIR A LA
COMPRENSIÓN LINGÜÍSTICA DE LOS ESTUDIANTES UNIVERSITARIOS
Proyecto de Titulación que se presenta como requisito para optar por el título de
INGENIERO EN SISTEMAS COMPUTACIONALES
Autores: Néstor Daniel Cruz Quezada
C.I. N° 0929319879
Joseph Hari Rodríguez Avellán
C.I. N° 0920249869
Tutora: MSc. Jenny Ortiz Zambrano
Guayaquil, 14 de octubre de 2020
IX
CERTIFICADO DE ACEPTACIÓN DEL TUTOR
En mi calidad de Tutora del Proyecto de Titulación, nombrado por el Consejo Directivo de la
Facultad de Ciencias Matemáticas y Físicas de la Universidad de Guayaquil.
CERTIFICO:
Que he analizado el Proyecto de Titulación presentado por los estudiantes NÉSTOR
DANIEL CRUZ QUEZADA y JOSEPH HARI RODRÍGUEZ AVELLÁN, como requisito
previo para optar por el Título de Ingeniero en Sistemas Computacionales cuyo proyecto es:
SISTEMA DE DETECCIÓN DE PALABRAS COMPLEJAS EN ESPAÑOL
APLICANDO ESTRATEGIAS DE SIMPLIFICACIÓN LÉXICA PARA
CONTRIBUIR A LA COMPRENSIÓN LINGÜÍSTICA DE LOS ESTUDIANTES
UNIVERSITARIOS
Considero aprobado el trabajo en su totalidad.
Presentado por:
0929319879
Cruz Quezada Néstor Daniel Cédula de identidad N°
0920249869
Rodríguez Avellán Joseph Hari Cédula de identidad N°
Tutora: ____________________________
Firma
Guayaquil, 14 de octubre de 2020
X
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
AUTORIZACIÓN PARA PUBLICACIÓN DE PROYECTO DE TITULACIÓN EN
FORMATO DIGITAL
1. Identificación del Proyecto de Titulación
Nombre del Estudiante: Néstor Daniel Cruz Quezada
Dirección: Durán, Av. Samuel Cisneros Primero de mayo y Los Ríos
Teléfono: 0996774598 Email: [email protected]
Nombre del Estudiante: Joseph Hari Rodríguez Avellán
Dirección: Alborada Décima etapa Mz. 503 villa 24
Teléfono: 0979258167 Email: [email protected]
Facultad: Ciencias Matemáticas y Físicas
Carrera: Ingeniería en Sistemas Computacionales
Proyecto de Titulación al que opta: Desarrollo
Profesora Tutora: MSc. Jenny Ortiz Zambrano
Título del Proyecto de Titulación: Sistema de Detección de Palabras Complejas en Español Aplicando
Estrategias de Simplificación Léxica para Contribuir a la Comprensión Lingüística de los Estudiantes
Universitarios
Palabras Claves: Simplificación léxica, sistema identificador, palabras complejas
2. Autorización de Publicación de Versión Electrónica del Proyecto de Titulación
A través de este medio autorizo a la Biblioteca de la Universidad de Guayaquil y a la Facultad de Ciencias
Matemáticas y Físicas a publicar la versión electrónica de este Proyecto de Titulación.
Publicación Electrónica:
Inmediata X Después de 1 año
Firma Estudiante:
0929319879
Cruz Quezada Néstor Daniel Cédula de identidad N°
0920249869
Rodríguez Avellán Joseph Hari Cédula de identidad N°
3. Forma de envío:
El texto del Proyecto de Titulación debe ser enviado en formato Word, como archivo .docx, .RTF o Puf
para PC. Las imágenes que la acompañen pueden ser: .gif, .jpg o .TIFF.
DVDROM CDROM
XI
ÍNDICE GENERAL
FICHA DE REGISTRO DE TRABAJO DE TITULACIÓN .................................................................. I
APROBACIÓN DEL TUTOR............................................................................................................... II
DEDICATORIA ................................................................................................................................... III
AGRADECIMIENTO .......................................................................................................................... IV
TRIBUNAL PROYECTO DE TITULACIÓN ...................................................................................... V
DECLARACIÓN EXPRESA ............................................................................................................... VI
CESIÓN DE DERECHOS DE AUTOR .............................................................................................. VII
CERTIFICADO DE ACEPTACIÓN DEL TUTOR............................................................................. IX
AUTORIZACIÓN PARA PUBLICACIÓN DE PROYECTO DE TITULACIÓN EN FORMATO
DIGITAL ............................................................................................................................................... X
ÍNDICE GENERAL ............................................................................................................................. XI
ÍNDICE DE TABLAS ........................................................................................................................ XV
ÍNDICE DE FIGURAS ..................................................................................................................... XVII
ABREVIATURAS .......................................................................................................................... XVIII
SIMBOLOGÍA .................................................................................................................................. XIX
RESUMEN ......................................................................................................................................... XX
ABSTRACT ....................................................................................................................................... XXI
INTRODUCCIÓN .................................................................................................................................. 1
CAPÍTULO I .......................................................................................................................................... 3
PLANTEAMIENTO DEL PROBLEMA ............................................................................................... 3
Descripción de la Situación Problemática .............................................................................................. 3
Ubicación del Problema en un Contexto ............................................................................................ 3
Situación Conflicto Nudos Críticos .................................................................................................... 5
Delimitación del Problema ................................................................................................................. 5
Evaluación del Problema .................................................................................................................... 6
Causas y Consecuencias del Problema ................................................................................................... 7
Formulación del Problema ...................................................................................................................... 7
XII
Objetivos del Proyecto ............................................................................................................................ 8
Objetivo General ................................................................................................................................. 8
Objetivos Específicos ......................................................................................................................... 8
Alcances del Problema ............................................................................................................................ 8
Justificación e Importancia ..................................................................................................................... 9
Limitaciones del Estudio ....................................................................................................................... 10
CAPÍTULO II ....................................................................................................................................... 12
MARCO TEÓRICO .............................................................................................................................. 12
Antecedentes del Estudio ...................................................................................................................... 12
Fundamentación Teórica ....................................................................................................................... 14
Lingüística ........................................................................................................................................ 15
Competencia Lingüística .................................................................................................................. 16
Procesamiento de Lenguaje Natural ................................................................................................. 16
Machine Learning ............................................................................................................................. 16
Corpus de Referencia del Español Actual ........................................................................................ 16
Métricas de Complejidad Léxica ...................................................................................................... 17
Complejidad Léxica ..................................................................................................................... 17
Complejidad de Oraciones ........................................................................................................... 17
Legibilidad de Spaulding ............................................................................................................. 18
Medidas de Rendimiento .................................................................................................................. 19
Matriz de Confusión ..................................................................................................................... 19
Precisión ....................................................................................................................................... 19
Recall............................................................................................................................................ 20
F-Measure .................................................................................................................................... 20
Herramientas Tecnológicas .............................................................................................................. 20
Python .......................................................................................................................................... 20
API ............................................................................................................................................... 20
JavaScript ..................................................................................................................................... 21
JSON ............................................................................................................................................ 21
HTML .......................................................................................................................................... 21
CSS ............................................................................................................................................... 21
Material Design ............................................................................................................................ 21
Node JS ........................................................................................................................................ 22
Framework ................................................................................................................................... 22
XIII
Electron JS ................................................................................................................................... 22
Visual Studio Code ...................................................................................................................... 22
Librería spaCy .............................................................................................................................. 22
Librería NLTK ............................................................................................................................. 23
Librería Pattern ............................................................................................................................. 23
Librería Gensim ........................................................................................................................... 23
Metodologías .................................................................................................................................... 23
Investigación Básica ..................................................................................................................... 23
Investigación Aplicada ................................................................................................................. 24
Scrum ........................................................................................................................................... 24
Pregunta Científica a Contestarse ......................................................................................................... 26
Definiciones Conceptuales .................................................................................................................... 26
CAPÍTULO III ...................................................................................................................................... 28
PROPUESTA TECNOLÓGICA .......................................................................................................... 28
Análisis de Factibilidad ......................................................................................................................... 28
Factibilidad Operacional ................................................................................................................... 28
Factibilidad Técnica ......................................................................................................................... 29
Factibilidad Legal ............................................................................................................................. 30
Factibilidad Económica .................................................................................................................... 30
Metodologías del Proyecto ................................................................................................................... 32
Metodología de Investigación........................................................................................................... 33
Población y Muestra ..................................................................................................................... 33
Procesamiento y Análisis ............................................................................................................. 34
Metodología de Desarrollo de Proyecto ........................................................................................... 46
Scrum ........................................................................................................................................... 46
Roles del Proyecto ........................................................................................................................ 47
Historias de Usuario ..................................................................................................................... 48
Product Backlog ........................................................................................................................... 51
Estimación del Backlog ................................................................................................................ 52
Definición de los Sprint................................................................................................................ 53
Sprint 1 ......................................................................................................................................... 54
Sprint 2 ......................................................................................................................................... 56
Sprint 3 ......................................................................................................................................... 58
Sprint 4 ......................................................................................................................................... 60
XIV
Beneficiarios Directos e Indirectos ....................................................................................................... 62
Directos ............................................................................................................................................. 62
Indirectos .......................................................................................................................................... 62
Entregables del Proyecto ....................................................................................................................... 63
Propuesta ............................................................................................................................................... 63
Criterios de Validación de la Propuesta ................................................................................................ 67
Resultados ............................................................................................................................................. 74
CAPÍTULO IV...................................................................................................................................... 77
CONCLUSIONES Y RECOMENDACIONES .................................................................................... 77
Criterios de Aceptación del Producto o Servicio .................................................................................. 77
Conclusiones ......................................................................................................................................... 78
Recomendaciones ................................................................................................................................. 79
Trabajos Futuros ................................................................................................................................... 80
REFERENCIAS BIBLIOGRÁFICAS .................................................................................................. 81
ANEXOS .............................................................................................................................................. 85
Anexo 1. Planificación de Actividades del Proyecto ....................................................................... 85
Anexo 2. Geo-localización del Problema ........................................................................................ 86
Anexo 3. Fundamentación Legal ...................................................................................................... 87
Anexo 4. Criterios Éticos a Utilizarse en el Desarrollo del Proyecto .............................................. 89
Anexo 5. Formatos de Técnicas de Recolección de Datos Aplicadas para Variables ..................... 90
Anexo 6. Validación de expertos. .................................................................................................... 92
Anexo 7. Acta de Entrega y Recepción Definitiva ........................................................................... 98
Anexo 8. Certificado de Aceptación del Producto ........................................................................... 99
Anexo 9. Manual Técnico............................................................................................................... 100
Anexo 10. Manual de Usuario ........................................................................................................ 108
XV
ÍNDICE DE TABLAS
Tabla 1 Delimitación del Problema ......................................................................................... 5
Tabla 2 Causas y consecuencias del problema ........................................................................ 7
Tabla 3 Índice de legibilidad de Spaulding ........................................................................... 18
Tabla 4 Matriz de confusión................................................................................................... 19
Tabla 5 Etiquetado POS ......................................................................................................... 26
Tabla 6 Recursos Tecnológicos.............................................................................................. 29
Tabla 7 Talento humano ........................................................................................................ 30
Tabla 8 Costos de hardware .................................................................................................. 31
Tabla 9 Costos de software .................................................................................................... 31
Tabla 10 Gastos adicionales .................................................................................................. 32
Tabla 11 Costo del proyecto .................................................................................................. 32
Tabla 12 Pregunta 1: Tabla de frecuencias ........................................................................... 36
Tabla 13 Pregunta 2: Tabla de frecuencias ........................................................................... 37
Tabla 14 Pregunta 3: Tabla de frecuencias ........................................................................... 38
Tabla 15 Pregunta 4: Tabla de frecuencias ........................................................................... 39
Tabla 16 Pregunta 5: Tabla de frecuencias ........................................................................... 40
Tabla 17 Pregunta 6: Tabla de frecuencias ........................................................................... 41
Tabla 18 Pregunta 7: Tabla de frecuencias ........................................................................... 42
Tabla 19 Pregunta 8: Tabla de frecuencias ........................................................................... 43
Tabla 20 Pregunta 9: Tabla de frecuencias ........................................................................... 44
Tabla 21 Pregunta 10: Tabla de frecuencias ......................................................................... 45
Tabla 22 Roles del proyecto ................................................................................................... 47
Tabla 23 Historia de usuario N° 1 ......................................................................................... 48
Tabla 24 Historia de usuario N° 2 ......................................................................................... 48
Tabla 25 Historia de usuario N° 3 ......................................................................................... 49
XVI
Tabla 26 Historia de usuario 4 .............................................................................................. 49
Tabla 27 Historia de usuario 5 .............................................................................................. 49
Tabla 28 Historia de usuario 6 .............................................................................................. 50
Tabla 29 Historia de usuario 7 .............................................................................................. 50
Tabla 30 Historia de usuario 8 .............................................................................................. 50
Tabla 31 Historia de usuario 9 .............................................................................................. 51
Tabla 32 Product backlog ...................................................................................................... 51
Tabla 33 Criterios de estimación ........................................................................................... 52
Tabla 34 Estimación del Sprint N° 1 ...................................................................................... 52
Tabla 35 Estimación del Sprint N° 2 ...................................................................................... 52
Tabla 36 Estimación del Sprint N° 3 ...................................................................................... 53
Tabla 37 Estimación del Sprint N° 4 ...................................................................................... 53
Tabla 38 Taskboard al finalizar el Sprint N° 1 ...................................................................... 54
Tabla 39 Taskboard al finalizar el Sprint N° 2 ...................................................................... 56
Tabla 40 Taskboard al finalizar el Sprint N° 3 ...................................................................... 58
Tabla 41 Taskboard al finalizar el Sprint N° 4 ...................................................................... 60
Tabla 42 Pregunta 1: Tabla de frecuencias ........................................................................... 68
Tabla 43 Pregunta 2: Tabla de frecuencias ........................................................................... 69
Tabla 44 Pregunta 3: Tabla de frecuencias ........................................................................... 70
Tabla 45 Pregunta 4: Tabla de frecuencias ........................................................................... 71
Tabla 46 Pregunta 5: Tabla de frecuencias ........................................................................... 72
Tabla 47 Pregunta 6: Tabla de frecuencias ........................................................................... 73
Tabla 48 Evaluación del identificador ................................................................................... 75
Tabla 49 Criterios de aceptación ........................................................................................... 77
XVII
ÍNDICE DE FIGURAS
Figura 1 Pregunta 1: Análisis Gráfico .................................................................................. 36
Figura 2 Pregunta 2: Análisis gráfico ................................................................................... 37
Figura 3 Pregunta 3: Análisis gráfico ................................................................................... 38
Figura 4 Pregunta 4: Análisis gráfico ................................................................................... 39
Figura 5 Pregunta 5: Análisis gráfico ................................................................................... 40
Figura 6 Pregunta 6: Análisis gráfico ................................................................................... 41
Figura 7 Pregunta 7: Análisis gráfico ................................................................................... 42
Figura 8 Pregunta 8: Análisis gráfico ................................................................................... 43
Figura 9 Pregunta 9: Análisis gráfico ................................................................................... 44
Figura 10 Pregunta 10: Análisis gráfico ............................................................................... 45
Figura 11 Flujo de procesos .................................................................................................. 47
Figura 12 Burndown chart del Sprint N° 1 ............................................................................ 55
Figura 13 Burndown chart del Sprint N° 2 ............................................................................ 57
Figura 14 Burndown chart del Sprint N° 3 ............................................................................ 59
Figura 15 Burndown chart del Sprint N° 4 ............................................................................ 61
Figura 16 Arquitectura del sistema ........................................................................................ 64
Figura 17 Pregunta 1: Análisis gráfico ................................................................................. 68
Figura 18 Pregunta 2: Análisis gráfico ................................................................................. 69
Figura 19 Pregunta 3: Análisis gráfico ................................................................................. 70
Figura 20 Pregunta 4: Análisis gráfico ................................................................................. 71
Figura 21 Pregunta 5: Análisis gráfico ................................................................................. 72
Figura 22 Pregunta 6: Análisis gráfico ................................................................................. 73
XVIII
ABREVIATURAS
BGU Bachillerato General Unificado
CREA Corpus de Referencia del Español Actual
CSS Hoja de Estilo en Cascada
GUI Interfaz Gráfica de Usuario
HTML Lenguaje de Marca de salida de Hyper Texto
IA Inteligencia Artificial
Ing. Ingeniero
MSc. Máster
NEE Necesidades educativas especiales
NLTK Herramientas de Lenguaje Natural
NMC Nivel Mínimo de Competencia
OCDE Organización para el Desarrollo Económico
PLN Procesamiento de Lenguaje Natural
SEPLN Sociedad Española para el Procesamiento del Lenguaje Natural
UG Universidad de Guayaquil
UIS Instituto de Estadística de la UNESCO
UNESCO Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura
VYTEDU Video y Texto Educativos
XIX
SIMBOLOGÍA
ASL Longitud Promedio de Oración (Anula)
cs Oraciones complejas
cw Palabra compleja
D Coeficiente de densidad
e Margen de error
FN Falso Negativo
FP Falso Positivo
k Nivel de confianza
L Longitud promedio de oración (Spaulding)
LC Complejidad Léxica
LDI Índice de distribución léxica
ILFW Índice de Palabra de Baja Frecuencia
N Población
N(cs) Número de oraciones complejas
N(dcw) Número de palabras de contenido
N(lfw) Número de palabras de baja frecuencia
N(s) Número de oraciones
N(w) Número de palabras
n Muestra
p Probabilidad de éxito
q Probabilidad de fracaso
SCI Índice de oración compleja
SSR Legibilidad en Español de Spaulding
VN Verdadero Negativo
VP Verdadero Positivo
XX
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
SISTEMA DE DETECCIÓN DE PALABRAS COMPLEJAS EN ESPAÑOL APLICANDO
ESTRATEGIAS DE SIMPLIFICACIÓN LÉXICA PARA CONTRIBUIR A LA
COMPRENSIÓN LINGÜÍSTICA DE LOS ESTUDIANTES UNIVERSITARIOS
Autores: Néstor Daniel Cruz Quezada
C.I. N° 0929319879
Joseph Hari Rodríguez Avellán
C.I. N° 0920249869
Tutora: MSc. Jenny Ortiz Zambrano
RESUMEN
El presente proyecto de titulación abordó la problemática referente a la complejidad con la que
están escritos los textos académicos y la dificultad que presentan los estudiantes al no
comprender su contenido. Esto puede obedecer a diferentes factores, tales como: el empleo de
un vocabulario especializado, uso de palabras poco frecuentes, oraciones muy largas, entre
otros, lo cual se torna en una barrera para el aprendizaje. El objetivo de este proyecto fue
desarrollar un software de simplificación léxica para aportar a la comprensión lingüística de
los estudiantes de la Carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de
la Universidad de Guayaquil. La Simplificación Léxica consiste en la sustitución de las
palabras complejas por su sinónimo más simple convirtiendo un texto a otro más fácil de
comprender. Se aplicó la metodología de desarrollo Scrum en la cual se elabora un producto
mediante ciclos de desarrollo cortos. La población y muestra se tomó de la carrera antes
mencionada, en el período 2020 – 2021 CI, para la recolección de datos se realizaron dos
encuestas, la primera demostró que el 90% de los encuestados consideran que los textos
académicos contienen palabras que no conocen, además, el 49% de los encuestados indicaron
tener algún tipo de problema de recepción o comprensión de datos, visibilizando la existencia
de la problemática. La segunda fue la encuesta de satisfacción que demostró que el 88% de la
muestra encuestada considera que la herramienta desarrollada es de gran ayuda para
comprender mejor los textos académicos. En conclusión, el aplicativo creado aporta una
solución que disminuye la barrera que presentan los estudiantes en la comprensión de textos
académicos.
Palabras clave: Simplificación léxica, palabras complejas, procesamiento del lenguaje natural.
XXI
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
SISTEMA DE DETECCIÓN DE PALABRAS COMPLEJAS EN ESPAÑOL APLICANDO
ESTRATEGIAS DE SIMPLIFICACIÓN LÉXICA PARA CONTRIBUIR A LA
COMPRENSIÓN LINGÜÍSTICA DE LOS ESTUDIANTES UNIVERSITARIOS
Autores: Néstor Daniel Cruz Quezada
C.I. N° 0929319879
Joseph Hari Rodríguez Avellán
C.I. N° 0920249869
Tutora: MSc. Jenny Ortiz Zambrano
ABSTRACT
The present degree project addressed the problem regarding the complexity with which
academic texts are written and the difficulty that students present when not understanding their
content. This can be due to different factors, such as: the use of a specialized vocabulary, use
of infrequent words, very long sentences, among others, which becomes a barrier to learning.
The objective of this project was to develop lexical simplification software to contribute to the
linguistic understanding of the students of the Software Career of the Faculty of Mathematical
and Physical Sciences of the University of Guayaquil. Lexical Simplification consists of
substituting complex words for their simplest synonym, converting a text to another easier to
understand. The Scrum development methodology was applied in which a product is made
through short development cycles. The population and sample was taken from the
aforementioned career, in the period 2020 - 2021 CI, for data collection, two surveys were
carried out, the first one showed that 90% of the respondents consider that academic texts
contain words they do not know, in addition, 49% of the respondents indicated having some
type of reception or comprehension problem. data, making the existence of the problem visible.
The second was the satisfaction survey that showed that 88% of the surveyed sample considers
that the tool developed is of great help to better understand academic texts. In conclusion, the
application created provides a solution that reduces the barrier presented by students in
understanding academic texts.
Key words: Lexical simplification, complex words, natural language processing.
1
INTRODUCCIÓN
La forma en la que están escritos los textos académicos, para muchos estudiantes,
resulta difícil de comprender, creando una barrera en el aprendizaje en aquellos que presentan
limitadas competencias lingüísticas, necesidades educativas especiales (NEE), extranjeros,
entre otros. (Saggion et al., 2015)
En Latinoamérica el 36% de los niños y adolescentes no alcanzan el nivel mínimo de
competencia (NMC) en lectura (Instituto de Estadística de la UNESCO, 2017). En el Ecuador
el 16,9% de los estudiantes que rinden el examen de admisión a las universidades, obtienen
una calificación insuficiente en el dominio lingüístico (Instituto Nacional de Evaluación
Educativa, 2018), estos resultados muestran la necesidad de mejorar la calidad de educación
tanto a nivel regional como nacional.
Una forma de mitigar este problema es la simplificación de los textos, la técnica más
recurrente para esta tarea es sustituir las palabras complejas por un sinónimo más simple, en
un contexto determinado (Saggion et al. 2015). Este proceso de simplificación léxica se
subdivide en tres etapas: Identificación de palabras complejas, generación de sustitutos y
selección de sustitutos (Paetzold y Specia, 2015). El presente trabajo de titulación sigue este
mismo enfoque para desarrollar un sistema de detección automática de palabras difíciles
dirigido al lenguaje español, apoyándose, además, de recursos lingüísticos gratuitos y así
transformar textos complejos a accesibles para contribuir a la competencia lingüística de los
estudiantes.
Uno de los recursos fundamentales para la creación del sistema de simplificación léxica
fue el corpus VYTEDU (Videos y Transcripciones en el ámbito Educativo), el cual posee 55
archivos provenientes de transcripciones de videos académicos realizados dentro de las aulas
de varias carreras de la Universidad de Guayaquil (Ortiz y Montejo, 2017). Estos archivos de
textos fueron analizados con la finalidad de poder identificar cuáles son las palabras complejas.
2
Para poder determinar qué palabra es difícil, se hace uso de otro recurso, el VYTEDU-CW
(Videos y Transcripciones en el ámbito Educativo-Complex Word), está compuesto de las
palabras que fueron identificadas y anotadas como difíciles, por estudiantes universitarios,
realizado en los textos del corpus VYTEDU. (Zambrano et al., 2019)
A continuación, se detallan los capítulos que componen esta investigación:
• Capítulo I: Se describe la problemática general, el contexto que la rodea, sus causas y
consecuencias, se establece los objetivos del proyecto, así como sus alcances y
limitaciones.
• Capítulo II: Se muestran las investigaciones previas que sirven como antecedentes de
estudio en la actual investigación, también brinda todos los conceptos en los que se
fundamentan este proyecto.
• Capítulo III: Aquí se describe la propuesta tecnológica para solventar la problemática
establecida en el capítulo I y la factibilidad del mismo, además se muestra de forma
detallada la metodología tanto de investigación y de desarrollo que sigue este proyecto.
• Capítulo IV: Muestra los criterios de aceptación del prototipo, las conclusiones y
recomendaciones que se obtuvieron a partir de la investigación y ejecución del proyecto
3
CAPÍTULO I
PLANTEAMIENTO DEL PROBLEMA
Descripción de la Situación Problemática
Ubicación del Problema en un Contexto
El Instituto de Estadística de la UNESCO (UIS) en el año 2017 presentó datos
alarmantes donde más de 617 millones de niños y adolescentes no están alcanzando los niveles
mínimos de competencia (NMC), esto quiere decir que no son capaces de leer o realizar
matemáticas básicas con competencia, en los datos por región de la UIS, indica que América
Latina y el Caribe el 36% de niños y adolescentes no alcanzan los NMC en lectura.
El 16,9% de los estudiantes de 3. ° del Bachillerato General Unificado (BGU), que
rinden el examen Ser Bachiller en el Ecuador, poseen una calificación insuficiente en el área
del dominio lingüístico y el 41,6% una calificación regular; en la provincia del Guayas el 41,9
% de los estudiantes aprueban el examen con la nota mínima y el 32,3% lo reprueba. (Instituto
Nacional de Evaluación Educativa, 2018)
Esto deja en evidencia que el rendimiento de los estudiantes es regular y que el
porcentaje de personas que presentan dificultades en el dominio lingüístico es un valor a
considerar y que debe ser tomado en cuenta para proyectos inclusivos con el fin de disminuir
este porcentaje.
Los estudiantes con Necesidades Educativas Especiales de los países que conforman la
Organización para el Desarrollo Económico (OCDE), representan solo una pequeña parte de
la población universitaria, es decir, siguen estando subrepresentados en la educación superior.
(Naciones Unidas, 2015)
4
La Convención de los derechos humanos de las personas con discapacidad en su Art. 2
declara entre otras cosas, que la comunicación debe incluir dispositivos multimedia de fácil
acceso, visualización de textos, los sistemas auditivos, los sistemas de voz digitalizada, y otros
modos, medios y formatos aumentativos, o alternativos de comunicación, incluida las
tecnologías de información y comunicación de fácil acceso.
La Constitución de la República del Ecuador (2013) contempla en el Art. 26 el deber
ineludible e inexcusable del estado de garantizar el derecho a la educación para todas las
personas a lo largo de su vida. Además, en el Ecuador se busca la inclusión, maximizando la
presencia, la participación y el éxito académico de todos los estudiantes, respondiendo a la
diversidad de las necesidades. (Ministerio de Educación, 2016)
En la Universidad de Guayaquil, la inclusión es una realidad, pero la institución no
posee los recursos tecnológicos, ni los especialistas necesarios para poder realizar un
acompañamiento a los estudiantes que presentan dificultades o poseen algún tipo de
impedimentos que dificultan su aprendizaje.
Torunoglu-Selamet et al., (2016) Afirman que los textos académicos están
desarrollados con un vocabulario sofisticado y especializado, además de usar oraciones
estructuradas de manera compleja, lo que provoca una barrera en el aprendizaje de los
estudiantes que tienen una limitada competencia lingüística y más aún en los que tienen una
discapacidad intelectual.
La comunicación habitual de los jóvenes suele ser con oraciones simples y de fácil
entendimiento, por lo que enfrentarse a textos académicos con un alto nivel léxico, hará que
los estudiantes no comprendan a plenitud su contenido. (Torunoglu-Selamet et al., 2016).
Este escenario provocará que los estudiantes no lleven un correcto desarrollo
académico, afectando gravemente su futuro como profesionales.
5
Situación Conflicto Nudos Críticos
En la Carrera de Software como en otras carreras de las distintas facultades de la
Universidad de Guayaquil, existen estudiantes que presentan limitadas competencias
lingüísticas y otros con necesidades educativas especiales (NEE), entre las cuales se puede
mencionar, las NEE permanentes como la discapacidad intelectual, discapacidad física,
discapacidad visual, las NEE transitorias como la dislexia, entre otros.
La Carrera de Software posee un área para la atención de estudiantes con NEE, cuya
denominación es Bienestar Estudiantil. El trabajo que realizan los docentes encargados de esta
área es netamente llevar un control y seguimiento a los estudiantes que presentan algún tipo de
NEE o que están cursando su tercera matrícula, es decir, seguimiento a los estudiantes que
están propensos a perder la carrera; cabe recalcar que los estudiantes con limitadas
competencias lingüísticas no están comprendidos en este conglomerado, sin embargo, forman
parte de la problemática, estos últimos pueden pasar desapercibidos pues en ocasiones
presentan niveles moderados o leves de competencia lingüística. A todo esto, se suma que hasta
el momento no cuentan con ningún tipo de herramienta tecnológica que aporten al aprendizaje
de estas personas.
Delimitación del Problema
Tabla 1
Delimitación del Problema
Delimitador Descripción
Campo Simplificación Automática de Texto
Área Simplificación Léxica
Aspecto Desarrollo de Sistemas
Tema
Sistema de detección de palabras complejas en español
aplicando estrategias de simplificación léxica para contribuir a
la comprensión lingüística de los estudiantes universitarios.
Nota: La tabla contiene las delimitaciones de la problemática. Elaboración: Néstor Daniel Cruz Quezada y
Joseph Hari Rodríguez Avellán. Fuente: Datos de la Investigación.
6
Evaluación del Problema
• Concreto: El sistema logrará la transformación de textos complejos a accesibles los
cuales permitirán contribuir a la comprensión lingüística de los estudiantes
universitarios.
• Delimitado: Las experimentaciones se realizaron basadas en un corpus de archivos de
texto de transcripciones de videos académicos realizados dentro de las aulas de
diferentes carreras que conforman la universidad de Guayaquil. El corpus se denomina
VYTEDU.
• Claro: La dificultad que tienen estudiantes universitarios al leer textos académicos con
contenido complejo.
• Evidente: Desde el punto de vista que existe una problemática evidenciada en un
estudio realizado donde se demuestran las barreras en el contenido de las
transcripciones de vídeos que fueron filmados dentro de las aulas de las diferentes
facultades de la Universidad de Guayaquil.
• Relevante: Es importante porque mediante una aplicación informática se puede
transformar un texto, cuyo contenido es complejo, en otro diferente que sea
accesible, contribuyendo a la comprensión lingüística de los estudiantes de la Carrera
de Software logrando derribar las barreras o dificultades que presentan los textos.
• Factible: Este trabajo es posible, viable, realizable porque la totalidad del desarrollo
del software está en herramientas de software libre lo que facilita el desarrollo del
aplicativo propuesto desde su inicio hasta su final.
7
Causas y Consecuencias del Problema
Tabla 2
Causas y consecuencias del problema
Causa Efecto
Textos académicos con contenido
lingüístico complejo.
La información no es comprendida eficazmente
por los estudiantes, especialmente por aquellos
que tienen NEE, limitada competencia
lingüística o desconocimiento del léxico.
Carencia de herramientas informáticas
que contribuyan a los estudiantes en la
compresibilidad del contenido de los
textos, especialmente en aquellos
estudiantes con NEE.
Los estudiantes no pueden despejar sus dudas
de forma inmediata, por lo que su desarrollo
académico presentaría dificultades, dejando
vacíos que podrían ser el punto de partida para
su bajo rendimiento.
Falta de programas de fomento de la
lectura en centros educativos.
Poco interés en la lectura como cultura
educativa.
Dificultades que presentan los estudiantes
en el aprendizaje o asimilación del
contenido de los textos
Olvidar con facilidad la información obtenida
de los textos.
El uso de un vocabulario elegante,
refinado, y especializado con el que
muchos docentes imparten sus clases
Los estudiantes no logran comprender
eficazmente el contenido del tema.
Nota: La tabla indica 5 causas y efectos que producen la no comprensión adecuada de los textos, también se
menciona la falta de herramientas que ayuden a mitigar la problemática de la limitada competencia
lingüística. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de
la Investigación.
Formulación del Problema
Comprender el contenido de los textos es una tarea que para muchas personas les resulta
difícil de realizar. ¿Un sistema de detección de palabras complejas identificará las palabras
dificultosas que contienen los textos académicos en español, y que causan barreras en el
aprendizaje de los estudiantes de la Universidad de Guayaquil?
8
Objetivos del Proyecto
Objetivo General
Desarrollar un sistema de detección de palabras complejas en español aplicando
estrategias de simplificación léxica para contribuir a la comprensión lingüística de los
estudiantes de la Carrera de Software de la Facultad de Ciencias Matemáticas y Física de la
Universidad de Guayaquil.
Objetivos Específicos
• Desarrollar un módulo de detección de palabras complejas mediante la utilización del
Corpus de Referencia del Español Actual (CREA), para la identificación de las palabras
difíciles en español del Corpus VYTEDU.
• Analizar los resultados alcanzados de la detección de palabras difíciles mediante la
aplicación de las medidas de rendimiento para determinar la eficacia del identificador
de palabras complejas.
• Aplicar estrategias de simplificación léxica para la transformación de textos complejos
a accesibles.
Alcances del Problema
Este proyecto de titulación busca desarrollar un sistema de detección de palabras
complejas en español aplicando estrategias de simplificación léxica para contribuir a la
comprensión lingüística de los estudiantes universitarios. Tiene los siguientes alcances:
• Desarrollo de un sistema de escritorio, usando framework Electron y el lenguaje de
programación Python.
• Para medir la complejidad de los textos, se usará las métricas de complejidad léxica
propuesta por Anula (2008), Spaulding (1956). Cabe mencionar que la identificación
de palabras complejas es parte de las métricas propuestas por Anula.
9
• El sistema será puesto a prueba y para ello se hará uso del corpus VYTEDU (Videos y
textos educativos) que cuenta con cincuenta y cinco archivos en formato TXT que
fueron transcrito de videos filmados dentro de varias facultades de la universidad de
Guayaquil.
• Para comprobar la efectividad del sistema identificador de palabras complejas, se
tomará como referencia el recurso VYTEDU-CW (Videos y textos educativos -
Palabras complejas) que son las palabras que un grupo de estudiantes, identificaron
como complejas en el Corpus VYTEDU.
• Realizar la sustitución de las palabras complejas con técnicas de simplificación léxica,
mostrar sinónimos y una definición de la palabra compleja.
Justificación e Importancia
La Constitución del Ecuador en el Art. 26 declara a la educación como un derecho de
las personas a lo largo de su vida y un deber ineludible e inexcusable del Estado, lo que significa
que todas las personas tienen derecho a la educación, es decir también es derecho de las
personas con habilidades diferentes.
El artículo 24 de la Convención de las Naciones Unidas sobre los derechos de las
personas discapacitadas estipula que “los Estados Parte asegurará que las personas
discapacitadas puedan acceder a una enseñanza primaria y secundaria inclusiva, de calidad y
gratuita, en igualdad de condiciones con los demás y en las comunidades en que vivan”
(UNESCO, 2017)
El 15% de la población mundial experimenta algún tipo de discapacidad y una quinta
parte de la población mundial estimada en 110 y 190 millones de personas, experimenta
discapacidades significativas. (Moreno et al., 2018)
10
Otro punto a remarcar es el libre acceso a la información, constituido como un derecho
humano; la información a la que se hace mención puede viajar por medios tradicionales
(Periódicos, Libros, Revistas, etc.), digitales, entre otros.
Teniendo en cuenta lo antes mencionado la distribución de la información académica y
científica que viaja específicamente en formato de texto, puede estar escrita de forma compleja
o contener palabras difíciles de entender. Esto, en algunas personas, puede ocasionar una
barrera que dificulta la comprensión de los textos.
Al reducir la dificultad de los textos, aplicando un método de simplificación léxica, se
contribuye en el aprendizaje de las personas que tengan una limitada competencia lingüística,
usando como medio la presentación de sinónimos más simples y definiciones que facilitarán la
comprensión de textos académicos.
Limitaciones del Estudio
• El sistema analizará específicamente los archivos de textos que componen el corpus
VYTEDU teniendo este actualmente un límite de 55 textos transcritos.
• El recurso VYTEDU-CW que será usado para evaluar el rendimiento del sistema, fue
creado con la participación de estudiantes con distintos tipos de formación educativa,
esto ocasiona que algunas palabras sencillas sean etiquetadas como complejas, lo que
podría provocar que el sistema tenga un mayor número de falsos negativos.
• El sistema de simplificación léxica está sujeto a las limitaciones de los servicios web,
por lo que los textos grandes podrían no llegar a simplificarse en su totalidad.
• Al utilizar diferentes recursos tecnológicos, más robustos y complejos, serán necesarios
equipos más potentes, en caso de no disponer de estos últimos podría afectar al
rendimiento del sistema de simplificación léxica.
• No está dirigido para personas con NEE.
11
• Al ser la primera versión de este sistema, no se ha considerado la incorporación de
componentes de software accesibles como: comandos por voz, IA de reconocimiento
de imágenes y entorno gráfico, entre otros.
• No se realizarán pruebas específicas a personas con NEE.
• El proyecto no abarca la etapa de implementación en la Carrera de Software de la
Facultad de Ciencias Matemáticas y Física de la Universidad de Guayaquil.
12
CAPÍTULO II
MARCO TEÓRICO
Antecedentes del Estudio
La simplificación léxica consiste en la transformación de un texto a otro equivalente, el
cual tiene la ventaja de ser mucho más comprensible para el lector (Bott et al., 2012). Debido
a esto, los sistemas de simplificación léxica han aparecido poco a poco, aunque la mayoría de
estos están dedicados al idioma inglés. En el año 2012 se consolidó LexSiS, un sistema de
simplificación léxica el cual hace uso de tres técnicas: modelo vectorial, frecuencia de palabra
y longitud de palabra, con el fin de hallar un sinónimo más simple, además, usa recursos web
libres como diccionarios en línea y corpus en español. (Bott et al., 2012)
Otro sistema dedicado a la simplificación léxica es Simplext que tuvo su aparición en
el año 2015 y toma como base el sistema LexSiS adhiriendo nuevas funcionalidades como la
eliminación de información innecesaria, reescribir números y normalizar verbos, para obtener
una mayor simplificación para el lector. (Saggion et al., 2015)
En el TALN (Natural Language Processing Research Group, Grupo de Investigación
en Procesamiento del Lenguaje Natural, en español) de la Universidad de Pompeu Fabra (UPF)
desarrollaron tecnologías robustas de Procesamiento de Lenguaje Natural (PLN) para producir
versiones simplificadas de documentos, tanto a nivel léxico como sintáctico.
Existe también el VYTEDU-CW (Videos y textos educativos - Palabra compleja), un
corpus en español, contiene las palabras complejas identificadas y etiquetadas por los
estudiantes. Para conformar este corpus se trabajó con estudiantes de diferentes carreras de la
13
Universidad de Guayaquil (UG); se seleccionaron de acuerdo a el nivel de estudios con
respecto al contenido de los textos en el corpus, evitando así que el texto no sea muy fácil para
estudiantes de niveles superiores. (Zambrano et al., 2019)
Este nuevo corpus tuvo su origen en el corpus VYTEDU, cuya demostración se realizó
en el congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)
(Murcia-España, 2017) y en él se llevaron a cabo varios experimentos (Ortiz y Montejo, 2017).
Este trabajo consistió en el reconocimiento y etiquetado de las palabras complejas contenidas
en los diferentes textos que componen el corpus VYTEDU.
Actualmente, VYTEDU-CW está siendo utilizado para continuar avanzando en
investigaciones en el área de la Simplificación Léxica en el campo del PLN, como es el caso
de la primera edición del taller ALexS 2020, siendo un workshop de carácter internacional,
como parte de la segunda edición IberLEF (Iberian Language Evaluation Forum) que se llevará
a cabo en la ciudad de Málaga el 22 de septiembre del año en curso, que ha reunido a
investigadores de varios países del mundo para poder demostrar mediante experimentaciones
científicas, los avances en la identificación de las palabras complejas tomando como referencia
el recurso en español VYTEDU-CW (disponible en https://www.alexs-sepln-
2020.org/evaluation).
En un estudio realizado a 99 personas para medir el efecto que tiene un algoritmo de
simplificación de texto en la comprensión, el aprendizaje y la retención de la información
(Leroy et al., 2013) se encontró que los participantes al leer textos simplificados pudieron
comprender mejor el contenido con un 11% más de respuestas correctas sobre preguntas
relacionadas al texto (63% correctas) en comparación con el texto original (52% correctas). En
cuanto al aprendizaje se obtuvo un 18% más de respuestas correctas después de leer un texto
simplificado, en comparación al original que fue de 9%. Con respecto a la retención de la
14
información no se encontró un efecto estadísticamente significativo después de leer un texto
simplificado.
Este hallazgo muestra los beneficios de la simplificación de un texto generando una
mejor comprensión del contenido y un impacto inmediato en el aprendizaje del mismo.
Fundamentación Teórica
La simplificación léxica de este trabajo consiste en reemplazar palabras consideradas
complejas con un sinónimo más simple. Esta tarea tiene una amplia aplicabilidad como
herramienta de ayuda para las personas con limitada competencia lingüística y como
herramienta de procesamiento del lenguaje natural: la identificación de palabras complejas, la
generación de sinónimos y la selección del sinónimo más simple ajustado al contexto de la
lectura. (Paetzold y Specia, 2016)
Los textos que presentan las instituciones de educación superior pueden llegar a ser
difíciles de leer y comprender por distintos grupos de personas, por ejemplo, personas que
pueden no tener conocimiento suficiente de la gramática y el léxico del lenguaje español, las
personas con trastornos generalizado del desarrollo como el autismo (Štajner et al., 2012), las
personas afásicas (Carroll et al., 1998), o las personas disléxicas (Rello et al., 2013); esto
afectaría negativamente al aprendizaje.
El acceso a la información es un derecho fundamental para todas las personas, en
particular a las personas con NEE, la Convención Sobre los Derechos de las Personas con
Discapacidad, adoptado por las Naciones Unidas en el año 2006, garantiza el acceso a la
información para este grupo de personas, entonces, es necesario que se produzcan textos
lingüísticamente más accesibles para estas personas.
Existen varias iniciativas sobre cómo producir textos accesibles, pero en el idioma
inglés, por ejemplo “Plain Language” o “Plain English” o el “Basic English” (Ogden, 1930),
una especie de inglés con vocabulario reducido y gramática sencilla. Desde hace ya varios años
15
se viene desarrollando para el inglés la Simple English Wikipedia (SEW), una enciclopedia de
acceso libre y en línea que contiene versiones accesibles de artículos de la Wikipedia en inglés,
siguiendo los lineamientos del “Basic English”.
Existen varias organizaciones como, por ejemplo, la Asociación Lectura Fácil que se
dedican a la elaboración de textos que siguen las recomendaciones de la Fácil Lectura
(Tronbacke, 1997). Sin embargo, producir textos accesibles es muy costoso dado el grado de
especialización requerido por los editores de estos contenidos.
La simplificación automática de textos viene siendo estudiada desde los años noventa,
tiene como objetivo la automatización de esta tarea y podría ayudar a hacer más accesibles los
contenidos textuales existentes y futuros.
Dos aspectos son considerados en la simplificación automática de textos: por un lado,
la simplificación léxica en la que se reemplazan las palabras difíciles por sinónimos más
comunes, generalmente utilizando un diccionario de sinónimos, y la simplificación sintáctica
por la cual las oraciones con construcciones lingüísticas complejas se transforman en oraciones
más simples que no utilizan dichas construcciones. También se puede incluir en el proceso de
simplificación, un proceso de resumen del contenido, en el cual las informaciones superfluas
del texto fuente se eliminan dejando solamente las ideas principales del texto. (Chandrasekar,
Doran, & Srinivas, 1996; A. Siddharthan, 2002)
El proyecto Simplext fue el primero en desarrollar este tipo de tecnología de
simplificación de textos para el español financiado por el plan Avanza, Simplext desarrolló
esta herramienta dirigida a personas con síndrome down. (Saggion et al., 2011; Bott y Saggion,
2014)
Lingüística
Disciplina que estudia el lenguaje humano, así como los aspectos históricos y sociales
que la conforman; en sus inicios la lingüística se enfocaba exclusivamente en el análisis
16
gramatical y la manera correcta de hablar una lengua (Hualde et al., 2010); con el pasar de los
años ha ido evolucionando, convirtiéndose en una disciplina que abarca muchas áreas como la
lingüística cognitiva, lingüística computacional, lingüística de corpus, entre otros.
Competencia Lingüística
La competencia lingüística se refiere al conjunto de conocimientos y habilidades que
permite el uso correcto del código oral y escrito con el objetivo de poder escuchar y hablar,
leer y escribir de forma competente (Rayzábal, 2012). Esto es imprescindible para cualquier
individuo de cualquier cultura que busca un desempeño socialmente aceptable tanto a nivel
personal como laboral, pues es necesaria para la convivencia y para el correcto aprendizaje.
Procesamiento de Lenguaje Natural
El procesamiento de lenguaje natural (PLN) son técnicas que le permite a la
computadora interpretar el lenguaje de las personas (lenguaje natural); dentro de sus
aplicaciones están: facilitar el flujo de información entre persona-máquina, mejorar la
comunicación de persona-persona o el estudio de la lingüística. (Matthews, 2016)
Machine Learning
Machine Learning es una rama de la Inteligencia Artificial (IA) que puede definirse
como un método de análisis que otorga a un sistema la capacidad de descubrir patrones,
tendencias y relaciones en los datos de manera autónoma. (SAS, s.f.)
Corpus de Referencia del Español Actual
Corpus de Referencia del Español Actual (CREA) es un recurso lingüístico, compuesto
por textos escritos (libros, periódicos y revistas) y orales (documentos sonoros de audio y
televisión) del cual se puede obtener información sobre las palabras, su significado y su
contexto. (RAE, 2008)
17
Métricas de Complejidad Léxica
Complejidad Léxica
Métrica propuesta por Anula en el año 2007 que mide la complejidad de los textos
literarios. (Saggion et al., 2015)
La fórmula es:
𝐿𝐶 = 𝐿𝐷𝐼 + 𝐼𝐿𝐹𝑊
2
Para calcular ILFW y LDI se aplica las siguientes fórmulas:
𝐼𝐿𝐹𝑊 = 𝑁(𝑙𝑓𝑤)
𝑐𝑤∗ 100
𝐿𝐷𝐼 = 𝑁(𝑑𝑐𝑤)
𝑁(𝑠)
Las palabras de baja frecuencia (lfw) son aquellas palabras cuyo rango de frecuencia
en el Corpus referencial del Español Contemporáneo es inferior a 1000. (Saggion et al., 2015)
Complejidad de Oraciones
Métrica propuesta por Anula (2008), consiste en hallar el número de palabras por
oración y el número de frases complejas por oración. (López et al., 2018)
Su fórmula es:
𝑆𝐶𝐼 = 𝐴𝑆𝐿 + 𝐶𝑆
2
Los valores ASL (Average Sentence Length, Promedio de Longitud Oracional, en
español) y PCS (Percentage Complex Sentence, Porcentaje de Oraciones complejas, en
español) se calcula con las siguientes fórmulas:
𝐴𝑆𝐿 = 𝑁(𝑤)
𝑁(𝑠)
𝑃𝐶𝑆 = 𝑁(𝑐𝑠)
𝑁(𝑠)
18
Una oración compleja (complex sentence, en inglés y abreviado como cs) es aquella
que está compuesta por más dos grupos de verbos adyacentes. (Saggion et al., 2015)
Legibilidad de Spaulding
Esta medida fue propuesta por Spaulding (1959), también es conocida como SSR
(Spaulding’s Spanish Readability). Consiste en evaluar las palabras y las oraciones de un texto
y obtener la dificultad relativa de legibilidad en los textos. (López et al. 2018)
Su fórmula es:
𝑆𝑆𝑅 = 1.609(𝐿) + 331.8(𝐷) + 22.0
L es la longitud promedio de oraciones, este valor se obtiene al dividir el total de
palabras entre el total de oraciones y D es el coeficiente de densidad, para obtener este valor se
debe comprobar si las palabras del texto se encuentran en la Lista de Densidad de Palabras
propuesta por Buchanan y contabilizar solo las que no estén, el resultado obtenido será dividido
entre el número total de palabras en el texto. (Ramsay et al., 1975)
En la Tabla 3 se indican los valores correspondientes al rango de legibilidad de
Spaulding.
Tabla 3
Índice de legibilidad de Spaulding
Índice Dificultad
0-40 Primer nivel elemental
41-60 Muy fácil
61-80 Fácil
81-100 Relativamente fácil
101-120 Difícil
121 o más Sumamente Difícil
Nota: La tabla muestra el rango de dificultad para los índices que se obtienen en la legibilidad de
Spaulding. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: (Ramiro,
1959)
19
Medidas de Rendimiento
Matriz de Confusión
Corso (2009) afirma que “una matriz de confusión nos permite visualizar mediante una
tabla de contingencia la distribución de errores cometidos por un clasificador”. De esta manera
se puede visualizar y clasificar los resultados obtenidos de un sistema clasificador para su
posterior análisis. En la Tabla 4, se muestra el diseño típico de una matriz de confusión.
Tabla 4
Matriz de confusión
Clase real Clase Predicha
Si No
Si VP FN
No FP VN
Nota: Matriz de confusión de dos clases. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez
Avellán. Fuente: (Corso, 2009)
Corso (2009) explica la estructura de la matriz de confusión de la siguiente manera:
• VP (Verdaderos positivos): instancias correctamente reconocidas por el sistema.
• FN (Falsos negativos): instancias que son positivas y que el sistema dice que no lo son.
• FP (Falsos positivos): instancias que son negativas pero el sistema dice que no lo es.
• VN (Verdaderos negativos): instancias que son negativas y correctamente reconocidas
como tales.
Precisión
Mide la exactitud del clasificador al etiquetar un elemento como positivo, es decir, que
porcentaje de elementos etiquetados como positivos son realmente positivos. (Han et al., 2011)
Su fórmula es:
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =𝑇𝑃
𝑇𝑃 + 𝐹𝑃
20
Recall
Mide el porcentaje de positivos etiquetados, es decir, de todos los positivos cuántos
fueron etiquetados correctamente. (Han et al., 2011)
La fórmula es:
𝑟𝑒𝑐𝑎𝑙𝑙 =𝑇𝑃
𝑇𝑃 + 𝐹𝑁
F-Measure
También conocida como F1 score o F-score (puntaje F1 o puntaje F, en español), el
objetivo de esta medida es combinar la precisión y la recuperación en una sola medida. (Han
et al., 2011)
La fórmula es:
𝐹 = 2𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
Herramientas Tecnológicas
Python
Python fue creado por Guido van Rossum, siendo este un lenguaje de alto nivel ya que
contiene implícitas algunas estructuras de datos como listas, diccionarios, conjuntos y tuplas,
que permiten ejecutar algunas tareas complejas en pocas líneas de código y de modo legible.
(Challenger-Pérez et al., 2014)
API
Una API puede definirse como un conglomerado de funciones, procedimientos,
definiciones y protocolos para que estos puedan ser utilizados e integrados por otro software.
Las siglas de API corresponden a “Application Programming Interface” que en su traducción
al Español seria “Interfaz de programación de aplicaciones”. (RedHat, s.f.)
21
JavaScript
Es un lenguaje de programación legalmente registrado por la empresa Sun
Microsystems; está orientado a la creación de páginas web dinámicas, es de tipo interpretado
por lo que no necesita ser compilado para su ejecución. (Pérez, 2019)
JSON
JavaScript Object Notation (Notación de Objetos de JavaScript, en español), permite
intercambiar datos en formato de texto entre plataformas distintas (Bassett, 2015). De este
modo es posible intercambiar información entre dos sistemas sin que estén escritos en el mismo
lenguaje de programación.
HTML
El lenguaje de Marcado de Hipertexto (HTML, por sus siglas en inglés), es el marcado
estándar para el desarrollo de páginas web; usado para definir los elementos que componen la
estructura de una página web como, la cabecera, el cuerpo, el pie, entre otras. (Macaulay, 2017)
CSS
Hojas de estilo en cascada (CSS, por sus siglas en inglés) es un lenguaje de hojas de
estilo, sirve para controlar las propiedades de los elementos HTML como color, posición,
tamaño, entre otras. (Macaulay, 2017)
Material Design
Son lineamientos de diseño publicados por la empresa Google en el año 2014, están
orientados a la creación de aplicaciones de móviles y web; estos lineamientos se han convertido
en una guía para los diseñadores, las consultas más recurrentes sobre material design son la
tipografía, la iconografía y componentes visuales como CardView y FAB. (Vivas et al., 2015)
22
Node JS
Creado para funcionar como un entorno de ejecución del lenguaje de programación
JavaScript que se orienta a eventos asíncronos para la capa del servidor, Node.js está diseñado
para crear aplicaciones network escalables. con E/S de datos en una arquitectura orientada a
eventos y basado en el motor V8 de Google además de ser de código abierto. (Node.js, 2018).
Framework
Es un conjunto de componentes estructurados, configurables, intercambiables y
reutilizables que ayudan a optimizar el desarrollo de un sistema, puede ser considerado como
un software genérico que sirve como base para la creación de otro sistema. (Gutiérrez, 2014)
Electron JS
Framework open source (código abierto) lanzado por la empresa GitHub; permite
desarrollar aplicaciones de escritorio multiplataforma haciendo uso de tecnología web
(HTML5, CSS y JavaScript). (Alkhars y Mahmoud, 2017)
Visual Studio Code
Visual Studio Code es un editor de programación multiplataforma desarrollado por
Microsoft. Es un proyecto de software libre que se distribuye bajo la licencia MIT, aunque los
ejecutables se distribuyen bajo una licencia gratuita no libre. (Bartolomé, 2020)
Librería spaCy
Librería para Python para el Procesamiento de Lenguaje Natural; dentro de sus
características está la tokenización, reconocimiento de entidades nombradas, aprendizaje
profundo, entre otros; spaCy posee modelos pre-entrenados en varios idiomas, entre ellos el
español, gracias a esto es posible obtener un etiquetado POS (Part-Of-Speech) completo de
cada palabra. (Talamé et al., 2019)
23
Librería NLTK
La librería NLTK (Natural Language Toolkit, Herramientas de Lenguaje Natural, en
español) fue creada en el año 2001 por el departamento de Ciencias de la Computación y la
Información de la Universidad de Pennsylvania; esta herramienta lingüística está construida
para ser sencilla: manejo práctico del Procesamiento del Lenguaje Natural (PLN); consistente:
estructura coherente en el área del PLN; extensible: que su funcionalidad crezca con el tiempo
y modular: que cada uno de sus módulos funcionen de forma independiente. (Bird et al., 2009)
Librería Pattern
Librería para Python dentro de sus características está: etiquetado POS, conjugación de
verbos, singularización y pluralización; Pattern funciona para el español (Pattern.es), inglés
(Pattern.en), entre otros. (Talamé, 2019)
Librería Gensim
Es una librería para Python de análisis semántico no supervisado de texto plano en
colecciones digitales; tiene como objetivos la indexación de archivos y la búsqueda de
similitudes. (Řehůřek y Sojka, 2011)
Metodologías
Investigación Básica
La investigación básica también conocida como investigación fundamental, exacta o
investigación pura, es el punto de partida para cualquier otro tipo de investigación (Juárez y
Hernández, 2007), y sirve para construir una base sólida en la que podrá iniciarse la
investigación aplicada en el presente proyecto, con una revisión bibliográfica y un trabajo de
campo.
24
Investigación Aplicada
Tiene como objetivo generar conocimiento llevando a la práctica conceptos o teorías
científicas para posteriormente crear un beneficio social o industrial (Lozada, 2014). A
diferencia de la investigación básica, la investigación aplicada tiene la finalidad de hacer uso
inmediato del conocimiento existente. (Vargas, 2009)
Lozada (2014) explica los procesos de la investigación aplicada de la siguiente forma:
• Proceso de investigación inicial: Consiste en investigar teorías científicas o resultados
de las investigaciones básicas para hallar posibles usos prácticos y aplicabilidad.
• Inclusión de las necesidades sociales o industriales: Consiste en conocer al usuario final
para desarrollar un producto conforme a sus necesidades y, además, crear conceptos
prácticos sobre la teoría.
• Transferencia tecnológica: Es la etapa final; aquí se construyen los prototipos que son
la materialización de la teoría aplicada y serán transferidos a la industria para
convertirse en productos.
Scrum
Es una metodología de desarrollo ágil orientada a la elaboración de un producto
mediante ciclos de desarrollo cortos, gestionados a través de reuniones diarias. (Trigas, 2012)
Schwaber y Sutherland (2017) explican los elementos que componen el Marco de
Trabajo Scrum, a continuación, se exponen de forma breve algunos de los más fundamentales:
Equipo Scrum: El equipo (Scrum Team). Se divide en:
• Dueño del Producto (Product Owner): Es el dueño del producto
• Equipo de Desarrollo (Development Team): Son los encargados de entregar el
incremento del producto terminado.
• Scrum Master: Es el líder a cargo del Equipo de Desarrollo
25
Sprint: Iteración o ciclo de desarrollo no mayor a un mes, en el cual se crea un incremento de
producto terminado y funcional. Cada Sprint está compuesto por:
• Planificación del Sprint (Sprint Planning): Reunión con todo el Equipo Scrum para
definir el trabajo a realizar en el Sprint
• Scrum Diarios (Scrum Daily): Reuniones diarias de 15 minutos por el Equipo de
Desarrollo y que tienen la finalidad de optimizar el trabajo.
• Trabajo de desarrollo: Realizar las tareas asignadas al Sprint.
• Revisión del Sprint (Sprint Review): Reunión al finalizar el Sprint con el fin de verificar
el incremento del producto y evaluar los eventos ocurridos en el Sprint.
• Retrospectiva del Sprint (Sprint Retrospective): Reunion despues de la Revisión del
Sprint, consiste en elaborar un plan de mejora a partir de la experiencia adquirida en el
desarrollo del sprint
Lista de Producto (Product backlog): Lista de las características o funcionalidades que debe
poseer el producto, su contenido es establecido por el Dueño del Producto.
• Historias de usuario: son las funcionalidades que tendrá el sistema; se representa con
una carta donde se establecen criterios como el título de la historia, prioridad,
estimación, descripción, entre otros.
Lista de Pendientes del Sprint (Sprint Backlog): Consiste en tomar elementos de la Lista de
Producto, que sean posible desarrollar en el Sprint y den un incremento al producto.
Incremento: Son todos los elementos desarrollados en el Sprint más la suma de los Sprint
anteriores y tiene como característica fundamental la posibilidad de ser utilizable.
26
Pregunta Científica a Contestarse
¿Un sistema de detección de palabras complejas dirigido al idioma español el cual usa
estrategias de simplificación léxica lograra contribuir a la comprensión lingüística de los
estudiantes universitarios?
Definiciones Conceptuales
• Corpus: Es un conjunto de material escrito o hablado en forma legible, reunido con el
propósito de investigación lingüística. (Oxford University Press (OUP). s. f.).
(disponible en https://www.lexico.com/definition/corpus).
• Corpus Paralelo: Extracción de léxico bilingüe. (Guinovart y Sacau, 2004). El corpus
paralelo se define como un recurso lingüístico consistente en textos de dos idiomas.
• Etiquetado POS (Part-Of-Speech): Consiste en adherir a cada token/palabra la
categoría gramatical (verbo, adjetivo, sustantivo, etc) en función al rol que desempeña
en una oración. (Talamé et al., 2019)
La Tabla 5 muestra un etiquetado POS para la oración “La empresa aumentó sus
ganancias”.
Tabla 5
Etiquetado POS
Token La empresa aumentó sus ganancias
Etiqueta
POS
Artículo
Femenino
Singular
Sustantivo
Femenino
Singular
Verbo
indicativo
Pasado
3era persona
Singular
Pronombre
Posesivo
3era
persona
Plural
Sustantivo
Femenino
Plural
Nota: La etiqueta POS se obtuvo usando la librería spaCy; Elaborado: Néstor Daniel Cruz
Quezada y Joseph Hari Rodríguez Avellán; Fuente: Datos de la investigación
• Lematización: Se puede definir como “el proceso de abstracción que, a partir de las
distintas formas de una palabra, selecciona una como representante de todo ese
paradigma”. (Sanmantín, 2019)
27
• Lenguaje Natural: Hace referencia a la comunicación escrita u oral que usan las
personas para intercambiar información. (Talamé et al., 2019)
• N-gramas (N-grams): consiste en, dada una cadena de texto, crear una secuencia
continua de n elementos. (Islam et al., 2018)
• Palabra Compleja: Se ha demostrado que los textos fáciles contienen términos más
familiares para las personas (Leroy et al., 2012), además también se ha descubierto que
la complejidad de una palabra está estrechamente relacionada con la frecuencia de uso
y que tan bien una persona puede definir su significado (Leroy y Kauchak, 2014). De
este modo una palabra de baja frecuencia puede ser considerada una palabra compleja.
• Simplificación léxica: Tarea de sustitución de palabras, donde el objetivo es encontrar
un sinónimo que sea más simple que la palabra original. (Saggion et al., 2015)
• Tokenización: Consiste en dividir un texto en una cadena de caracteres, descartando
los saltos de líneas o espacios en blancos (Talamé et al., 2019). Ejemplo: “El perro
ladra”, su tokenización producirá tres tokens: [‘El’, ‘perro’, ‘ladra’]
28
CAPÍTULO III
PROPUESTA TECNOLÓGICA
Este proyecto tiene como finalidad construir un software para los estudiantes
universitarios de la Carrera de Software de la Facultad de Ciencias Matemáticas y Física de la
Universidad de Guayaquil que presenten una limitada competencia lingüística y aportar al
aprendizaje de los mismos; para esto se hará uso de herramientas de procesamiento de lenguaje
natural, técnicas de simplificación léxica y tecnología gratuita o de código abierto.
Análisis de Factibilidad
El presente proyecto es viable ya que se fundamenta en trabajos de investigación
realizados en el área de la Simplificación Léxica, cuyos resultados han sido de mucho aporte
en diferentes contextos.
Una de las ventajas del desarrollo del sistema propuesto es que hace uso de tecnologías
y herramientas gratuitas, esto lleva a que los costos se reduzcan radicalmente, además, este
proyecto al estar dirigido a estudiantes de educación superior brinda una contribución en el
aprendizaje, ya que, los estudiantes podrán tener un mejor entendimiento de lo que leen.
Factibilidad Operacional
Este proyecto nació en el año 2016 mediante la propuesta de tema de investigación
doctoral en el área de la Simplificación Léxica en conjunto con una universidad europea. El
proyecto fue presentado a las autoridades de la Universidad de Guayaquil mediante la visita a
los diferentes decanatos, para dar a conocer los beneficios que se obtendrían.
29
Las autoridades brindaron toda la colaboración necesaria para poder realizar las etapas
propias que conllevan a una investigación de carácter científico. Como parte del proceso se
aplicó una encuesta a los estudiantes de diferentes facultades quienes también cooperaron de
forma eficaz con la realización de la misma, y para las diferentes visitas que se llevaron a cabo
como parte de la ejecución de la investigación.
Factibilidad Técnica
Para el desarrollo de este sistema se tiene los recursos necesarios tanto de software
como de hardware, además del talento humano capacitado en el uso de estas tecnologías. Estas
herramientas tecnológicas son gratuitas, a excepción del sistema operativo Windows, el cual
es propiedad de los desarrolladores del proyecto, todas estas herramientas poseen
documentación en línea y una comunidad de desarrolladores activa para la consulta adicional
de posibles inconvenientes que se presenten durante el desarrollo del software.
En la Tabla 6, se muestra las especificaciones de los recursos tecnológicos utilizados
en el desarrollo del sistema propuesto:
Tabla 6
Recursos Tecnológicos
Tipo Detalle
Sistema operativo Windows 10 Education, Windows 10 Pro
Lenguaje de programación Python 3.7.6, JavaScript
Lenguaje de Etiqueta HTML
Entorno de desarrollo Node JS 12.14.1
Framework Electron 9.0.0
Framework CSS Material Design Lite V1.3.0
Editor de código Visual Studio Code 1.48.2
Librería SpaCy 2.3.2, NLTK 3.5, Pattern 3.6, Gensim 3.8.3
APIs Altervista Thesaurus
Nota: La tabla muestra todos los recursos tecnológicos utilizado para la construcción del sistema. Elaborado: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación
30
Factibilidad Legal
Este proyecto es factible legalmente porque no infringe ninguna ley vigente en el
Ecuador. Las herramientas y demás recursos utilizados son de código abierto y/o gratuitos. Al
no incumplir ninguna ley o hacer uso indebido de la propiedad intelectual, el proyecto puede
ser ejecutado sin que su vigencia se vea interrumpida por violaciones a la ley. Toda la
argumentación legal se encuentra detallada en el Anexo 4.
Factibilidad Económica
Para demostrar la factibilidad de económica de este proyecto, se detallarán los valores
de las estimaciones para creación del sistema. La Tabla 7 detalla los valores del Talento
Humano.
Tabla 7
Talento humano
Cargo Costo Cantidad Total
Investigador $700 1 $700
Diseñador $500 1 $500
Desarrollador $1000 2 $2000
Líder del proyecto $1200 1 $1200
$4400 Nota: Los valores presentados en la tabla no son desembolso de dinero en el proyecto, pero debe ser
considerado porque representa esfuerzo y tiempo. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari
Rodríguez Avellán. Fuente: Datos de la investigación.
En la Tabla 8 se detallan los equipos de hardware usados en la construcción del sistema,
cabe mencionar que estos equipos son propiedad de los desarrolladores por lo que no
representaron un desembolso, no obstante, se presentan sus valores.
31
Tabla 8
Costos de hardware
Descripción Costo Cantidad Total
Computador portátil $600 1 $600
Computador de escritorio $500 1 $500
$1100 Nota: Los valores mostrado en esta tabla no representaron un desembolso para la creación del software.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
La mayoría de los recursos de software que formaron parte del desarrollo del sistema
son de uso gratuito a excepción del sistema operativo Windows que funcionaba en los
computadores de los desarrolladores, las adquisiciones de estos sistemas operativos se hicieron
antes del inicio del proyecto, por lo que no significó un costo para llevar a cabo la creación del
sistema propuesto. En la Tabla 9 se muestran estos valores.
Tabla 9
Costos de software
Descripción Costo Cantidad Total
Windows 10 $200 2 $400
Node JS $0 1 $0
Electrón JS $0 1 $0
$400
Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación
Otro factor económico que se consideró fueron los recursos materiales y viáticos a los
que se los denominó como gastos adicionales, la Tabla 10 muestra cuáles fueron estos y el
valor correspondiente de cada uno de ellos.
32
Tabla 10
Gastos adicionales
Descripción Costo Cantidad Total
Materiales de oficina 100 1 $100
Luz eléctrica 30 3 $90
Internet 30 3 $90
Transporte 50 3 $150
Alimentación 100 3 $300
$730 Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación
Con todos los valores resultantes de las tablas anteriores se procedió a hacer la
sumatoria correspondiente y obtener el monto total de la elaboración del sistema para este
proyecto. El resultado se presenta en la Tabla 11.
Tabla 11
Costo del proyecto
Descripción Valor
Recursos Humanos $4400
Costos de Hardware $1100
Costos de Software $400
Gatos Adicionales $730
$6630 Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación
Metodologías del Proyecto
En este proyecto se aplicará la metodología de Investigación Aplicada, debido a que
lleva los conocimientos adquiridos a la práctica, para resolver un problema conocido y generar
un beneficio a la sociedad, además de generar nuevos conocimientos que puedan ayudar a
experimentaciones futuras.
Como metodología de desarrollo se usará Scrum por su adaptabilidad en el proceso de
desarrollo y el control de los mismos. Esta metodología permite al equipo de desarrolladores
funcionar como una unidad auto organizada, además se puede obtener versiones del producto
en tiempos cortos (Sprint de 2 a 4 semanas) a las que se le denomina incremento.
33
Metodología de Investigación
El presente proyecto hace uso de la investigación aplicada sin prescindir de la
investigación básica que permitió obtener y recopilar información. La investigación aplicada
está enfocada en resolver un problema social, por tal motivo se debe conocer las necesidades
reales de los estudiantes de la Carrera de Software para poder realizar un producto conforme a
esas necesidades. Para conocer esta realidad se ha formulado una encuesta, la cual se detalla
en la sección de Procesamiento y Análisis, con esto se pretende garantizar la aceptabilidad y
usabilidad del producto.
Población y Muestra
El estudio científico fue desarrollado en dos etapas. En la primera etapa de recolección
de datos se obtuvo lo siguiente:
Población. Se tomó en consideración la población de los estudiantes legalmente
matriculados en la carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de la
Universidad de Guayaquil en el periodo 2020-2021 CI siendo un total de 660 estudiantes.
Muestra. Para la determinación de la muestra, se establecieron los siguientes
parámetros:
N (Población): 660
e (Margen de Error): 5%
k (Nivel de confianza): 2
p (Probabilidad de éxito): 0.50
q (Probabilidad de fracaso): 0.50
n (Muestra): 249
Fórmula: 𝒏 = k2∗(p∗q)∗N
(e2∗ (N−1))+ k2 ∗ p∗ q
34
𝒏 = 22∗(0.5∗0.5)∗660
(0.052 ∗ 660−1)) + 22∗ 0.5∗ 0.5
n = 249
En la segunda etapa, que comprende una encuesta de satisfacción, se levantó
información con una muestra incidental de un total de 40 estudiantes que pertenecen al curso
SOF-S-NO-1-5 de la Carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de
la Universidad de Guayaquil (Ecuador). El análisis de la encuesta de satisfacción se encuentra
detallada en la página 67.
Procesamiento y Análisis
Técnicas de Recolección de Datos. Como principal método de recolección de datos
usaremos la técnica de la encuesta la cual fue elaborada utilizando la herramienta de creación
de formularios de Google y fue dirigida a estudiantes pertenecientes a la Carrera de Software
de la Facultad de Ciencias Matemáticas y Físicas de la Universidad de Guayaquil; las preguntas
de la encuesta se encuentran en el anexo 5.
Para el tratamiento de los datos recolectados mediante la encuesta se utilizó la
herramienta Microsoft Excel, la cual nos permitió tabular y organizar toda la información, la
misma herramienta fue la encargada de procesar la información, con ella pudimos obtener los
diferentes gráficos, tablas y diagramas los cuales sirven para interpretar de mejor manera los
datos arrojados por la encuesta.
Los resultados vertidos por esta encuesta se verán a continuación analizados y descritos
en este trabajo de titulación.
35
Técnicas Estadísticas para el Procesamiento de la Información. Las técnicas para el
procesamiento de la información que fueron seleccionadas son las siguientes:
• Tablas de Frecuencia: La tabla de frecuencia es una técnica básica para resumir
información a partir de una muestra, su implementación es bastante sencilla para grupos
de datos de mediano o gran tamaño, realizar los cálculos necesarios pueden significar
mucho tiempo, pero con el uso de programas como SPSS o Excel los tiempos pueden
acortarse de manera significativa.
• Diagrama de barras o Columnas: Para representar variables cualitativas se puede
utilizar el diagrama de barras que también se puede usar para variables cuantitativas
discretas.
Estos diagramas se crean a partir de dos ejes (X, Y) (Horizontal, Vertical).
En el eje X se colocan las variables y en el eje Y la escala de frecuencia que parte de 0.
La altura del valor de cada variable tiene una relación directamente proporcional con la
frecuencia de cada variable, es decir a mayor frecuencia mayor altura.
• Gráfico de Pastel: Conocido también como “Diagrama de sectores” o simplemente
“Sectores circulares”. Este gráfico se implementa dividiendo en sectores los 360° de un
círculo de manera proporcional, cada sector debe ajustarse a la frecuencia o intensidad
de aparición de los valores de la variable estudiada que presenta el fenómeno de estudio,
generalmente se expresa en porcentajes.
Análisis de Encuesta
La encuesta N°1 aplicada a la muestra obtenida se realizó a estudiantes legalmente
matriculados en la Carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de la
Universidad de Guayaquil. Se utilizó la herramienta Formularios de Google para crearla y
llevarla a cabo. El análisis de los resultados se presenta detallados a continuación.
36
Pregunta 1: ¿Presentas algún problema de recepción o comprensión de datos?
Tabla 12
Pregunta 1: Tabla de frecuencias
Frec.
absoluta
Frec.
acumulada
Frec.
Relativa
Frec.
Relativa
Acumulada
Frec.
Porcentual
Frec.
% acum.
SI 121 121 0.484 0.484 48.40% 48.40%
NO 116 237 0.464 0.948 46.40% 94.80%
PREFIERO NO
CONTESTAR 13 250 0.052 1 5.20% 100.00%
TOTAL 250 1 100.00%
Nota: Tabla de frecuencia de los datos recolectados en la encuesta respecto a la pregunta 1.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta.
Figura 1
Pregunta 1: Análisis Gráfico
Nota: Figura en la que se detalla en forma de grafico los porcentajes que representan cada respuesta en la
pregunta 1. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de
la Encuesta.
Análisis: De acuerdo con la Figura 1 se determina que el 49% de la población encuestada
indica a través de esta encuesta que presenta algún tipo de problema que les impide receptar o
comprender datos. Entre las razones que mencionaron los encuestados las más mencionadas
son: Léxico poco comprensible, palabras desconocidas, poca retentiva. El 46% de los
encuestados indico que no presentan problema alguno y el 5% prefirió no responder.
Sí49%No
46%
Prefiero no contestar5%
Sí
No
Prefiero no contestar
37
Pregunta 2: ¿Te gusta leer?
Tabla 13
Pregunta 2: Tabla de frecuencias
Frec.
absoluta
Frec.
acumulada
Frec.
Relativa
Frec.
Relativa
Acumulada
Frec.
Porcentual
Frec.
% acum.
SI 101 101 0.404 0.404 40.40% 40.40%
NO 40 141 0.16 0.564 16.00% 56.40%
A VECES 109 250 0.436 1 43.60% 100.00%
TOTAL 250 1 100.00%
Nota: Tabla de frecuencia de los datos recolectados en la encuesta respecto a la pregunta 2.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta.
Figura 2
Pregunta 2: Análisis gráfico
Nota: Figura en la que se detalla en forma de grafico los porcentajes que representan cada respuesta en la
pregunta 2. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de
la Encuesta.
Análisis: La Figura 2 nos muestra en forma de gráfico de pastel las respuestas recogidas en
esta encuesta respecto a la pregunta ¿Te gusta leer? El mayor porcentaje se ve en la alternativa
“A veces” con un 44% le sigue el 40% que indicaron que “Sí” les gusta leer. Por último, un
16% indico que “No”. Podemos concluir que la mayoría de los encuestados disfruta el hábito
de la lectura.
Sí40%
No16%
A veces44%
Sí
No
A veces
38
Pregunta 3: ¿Comprendes lo que lees?
Tabla 14
Pregunta 3: Tabla de frecuencias
Frec.
absoluta
Frec.
acumulada
Frec.
Relativa
Frec.
Relativa
Acumulada
Frec.
Porcentual
Frec.
% acum.
SI 96 96 0.384 0.384 38.40% 38.40%
NO 5 101 0.02 0.404 2.00% 40.40%
A VECES 149 250 0.596 1 59.60% 100.00%
TOTAL 250 1 100.00%
Nota: Tabla de frecuencia de los datos recolectados en la encuesta respecto a la pregunta 3.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta.
Figura 3
Pregunta 3: Análisis gráfico
Nota: Figura en la que se detalla en forma de grafico los porcentajes que representan cada respuesta en la
pregunta 3. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de
la Encuesta.
Análisis: La Figura 3 muestra las diferentes alternativas que se encontraban en la pregunta
¿Comprendes lo que lees? El 38% indico que “Sí” comprende lo que lee, el 2% dijo “No” y el
60% de los encuestados que contestó “A veces”, este último valor puede representar que los
encuestados están leyendo, en algunas ocasiones, textos de nivel léxico muy alto y otras veces
unos más bajo, esto demostraría que los textos no están siendo construido para todo tipo de
personas, lo que ocasionará barreras en el aprendizaje de las personas.
Sí38%
No2%
A veces60%
Sí
No
A veces
39
Pregunta 4: ¿Consideras que el contenido de los textos académicos tiene ciertas palabras que
no conoces?
Tabla 15
Pregunta 4: Tabla de frecuencias
Frec.
absoluta
Frec.
acumulada
Frec.
Relativa
Frec.
Relativa
Acumulada
Frec.
Porcentual
Frec.
% acum.
SI 237 237 0.948 0.948 94.80% 94.80%
NO 13 250 0.052 1 5.20% 100.00%
TOTAL 250 1 100.00%
Nota: Tabla de frecuencia de los datos recolectados en la encuesta respecto a la pregunta 4.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta.
Figura 4
Pregunta 4: Análisis gráfico
Nota: Figura en la que se detalla en forma de grafico los porcentajes que representan cada respuesta en la
pregunta 4. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de
la Encuesta.
Análisis: La Figura 4 representa los valores correspondientes a la pregunta “¿Consideras que
el contenido de los textos académicos tiene ciertas palabras que no conoces?”; la inclinación
del abrumadora del 95% por la alternativa “Sí” demuestra que la mayoría está de acuerdo con
que los textos académicos utilizan en gran medida un léxico sofisticado y poco comprensible
para todas las personas. Solamente el 5% indico que “No”.
Sí95%
No5%
Sí
No
40
Pregunta 5: ¿Te gustaría que mediante un aplicativo el contenido de un texto pueda ser
transformado en otro que sea fácil de comprender?
Tabla 16
Pregunta 5: Tabla de frecuencias
Frec.
absoluta
Frec.
acumulada
Frec.
Relativa
Frec.
Relativa
Acumulada
Frec.
Porcentual
Frec.
% acum.
SI 245 245 0.98 0.98 98.00% 98.00%
NO 5 250 0.02 1 2.00% 100.00%
TOTAL 250 1 100.00%
Nota: Tabla de frecuencia de los datos recolectados en la encuesta respecto a la pregunta 5.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta
Figura 5
Pregunta 5: Análisis gráfico
Nota: Figura en la que se detalla en forma de grafico los porcentajes que representan cada respuesta en la
pregunta 5. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de
la Encuesta.
Análisis: La figura 5 indica que el 98% de los encuestados “Sí” les gustaría que mediante un
aplicativo los textos difíciles puedan ser convertidos en otros sencillos de comprender y solo
el 2% indico que “No”; una amplia mayoría de personas esta interesados en herramientas que
facilite la compresión del contenido de los textos.
Sí98%
No2%
Sí
No
41
Pregunta 6: ¿Te gustaría mediante un aplicativo conocer de forma automática el significado
de las palabras consideradas complejas que están en un texto?
Tabla 17
Pregunta 6: Tabla de frecuencias
Frec.
absoluta
Frec.
acumulada
Frec.
Relativa
Frec.
Relativa
Acumulada
Frec.
Porcentual
Frec.
% acum.
SI 248 248 0.992 0.992 99.20% 99.20%
NO 2 250 0.008 1 0.80% 100.00%
TOTAL 250 1 100.00%
Nota: Tabla de frecuencia de los datos recolectados en la encuesta respecto a la pregunta 6.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta.
Figura 6
Pregunta 6: Análisis gráfico
Nota: Figura en la que se detalla en forma de grafico los porcentajes que representan cada respuesta en la
pregunta 6. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de
la Encuesta.
Análisis: En el 99% de los encuestados indican que “Sí” les gustaría que un aplicativo les
muestre de manera automática el significado de las palabras consideradas complejas en un
texto, solo el 1% indico que “No” le gustaría este tipo de ayuda.
Sí99%
No1%
Sí
No
42
Pregunta 7: ¿Te gustaría que el aplicativo presente de forma automática los sinónimos de las
palabras que te resulten difícil de comprender?
Tabla 18
Pregunta 7: Tabla de frecuencias
Frec.
absoluta
Frec.
acumulada
Frec.
Relativa
Frec.
Relativa
Acumulada
Frec.
Porcentual
Frec.
% acum.
SI 241 241 0.964 0.964 96.40% 96.40%
NO 9 250 0.036 1 3.60% 100.00%
TOTAL 250 1 100.00%
Nota: Tabla de frecuencia de los datos recolectados en la encuesta respecto a la pregunta 7.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta.
Figura 7
Pregunta 7: Análisis gráfico
Nota: Figura en la que se detalla en forma de grafico los porcentajes que representan cada respuesta en la
pregunta 7. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de
la Encuesta.
Análisis: Figura 7 detalla que al 96% de la población encuestada “Sí” les gustaría que un
aplicativo les muestre de forma automática los sinónimos de las palabras consideradas
complejas en un texto, el 4% indicó “No” estar de acuerdo con este tipo de ayuda.
Sí96%
No4%
Sí
No
43
Pregunta 8: ¿Consideras que los estudiantes que tengan bajo nivel de comprensión lectora o
posean algún tipo de discapacidad cognitiva se beneficiarían con este aplicativo?
Tabla 19
Pregunta 8: Tabla de frecuencias
Frec.
absoluta
Frec.
acumulada
Frec.
Relativa
Frec.
Relativa
Acumulada
Frec.
Porcentual
Frecuencia
% acum.
SI 230 230 0.92 0.92 92.00% 92.00%
NO 20 250 0.08 1 8.00% 100.00%
TOTAL 250 1 100.00%
Nota: Tabla de frecuencia de los datos recolectados en la encuesta respecto a la pregunta 8.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta.
Figura 8
Pregunta 8: Análisis gráfico
Nota: Figura en la que se detalla en forma de grafico los porcentajes que representan cada respuesta en la
pregunta 8. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de
la Encuesta.
Análisis: El 92% de los encuestados considera que este aplicativo “Sí” sería de gran ayuda
para los estudiantes que tengan bajo nivel de comprensión lectora o posean algún tipo de
discapacidad cognitiva, el 8% indicó que el aplicativo “No” los beneficiaría.
Sí92%
No8%
Sí
No
44
Pregunta 9: ¿Conoces de un aplicativo que te permita transformar o convertir un texto difícil
a otro sencillo que sea fácil de comprender?
Tabla 20
Pregunta 9: Tabla de frecuencias
Frec.
absoluta
Frec.
acumulada
Frec.
Relativa
Frec.
Relativa
Acumulada
Frec.
Porcentual
Frec.
% acum.
SI 33 33 0.132 0.132 13.20% 13.20%
NO 217 250 0.868 1 86.80% 100.00%
TOTAL 250 1 100.00%
Nota: Tabla de frecuencia de los datos recolectados en la encuesta respecto a la pregunta 9.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta.
Figura 9
Pregunta 9: Análisis gráfico
Nota: Figura en la que se detalla en forma de grafico los porcentajes que representan cada respuesta en la
pregunta 9. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de
la Encuesta.
Análisis: En la Figura 9 muestra que el 87% de la población encuesta desconoce por completo
algún aplicativo que permita convertir un texto difícil en otro sencillo de comprender, el 13%
indico que si conoce entre sus respuestas más relevantes están Simplext y Resoomer.
Sí13%
No87%
Sí
No
45
Pregunta 10: ¿Te gustaría que este aplicativo pueda ser utilizado por los estudiantes de la UG
para facilitar el aprendizaje de las asignaturas?
Tabla 21
Pregunta 10: Tabla de frecuencias
Frec.
absoluta
Frec.
acumulada
Frec.
Relativa
Frec.
Relativa
Acumulada
Frec.
Porcentual
Frec.
% acum.
SI 248 248 0.992 0.992 99.20% 99.20%
NO 2 250 0.008 1 0.80% 100.00%
TOTAL 250 1 100.00%
Nota: Tabla de frecuencia de los datos recolectados en la encuesta respecto a la pregunta 10.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta.
Figura 10
Pregunta 10: Análisis gráfico
Nota: Figura en la que se detalla en forma de grafico los porcentajes que representan cada respuesta en la
pregunta 10. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos
de la Encuesta.
Análisis: Los valores representados en la Figura 10 indican que el 99% de la población
encuestada sí le gustaría que este aplicativo sea utilizado por los estudiantes de la Universidad
de Guayaquil para facilitar su aprendizaje. Solamente el 1% indico “No” estar de acuerdo.
Sí99%
No1%
Sí
No
46
Análisis General Encuesta 1: De acuerdo al análisis de los resultados vertidos por la encuesta
N° 1 se observa que más del 90% de los encuestados consideran que los textos académicos
contienen palabras que no conocen, esto se debe a que en muchas ocasiones los textos
académicos hacen uso de vocabulario especializado dificultando la comprensión de los
mismos.
Además, el 49% de los encuestados reconocen que, si posee algún problema de recepción o
comprensión de datos, lo cual es una cifra alarmante ya que la frecuencia con que se registran
estos resultados indica que seguirán en aumento. Por último, se determina que el 99% de la
muestra encuestada presenta gran interés en utilizar este aplicativo en la UG para facilitar el
aprendizaje de sus asignaturas, con lo antes mencionado se puede concluir que el lenguaje
utilizado con el que están escritos muchos textos académicos se convierte en una barrera que
evita el correcto aprendizaje y obtención de competencias lingüísticas de los estudiantes,
justificando de esta forma el propósito u objetivo del presente proyecto.
Metodología de Desarrollo de Proyecto
Scrum
El presente proyecto consiste en desarrollar un sistema capaz de ayudar a las personas
que tengan una limitada competencia lingüística mediante la simplificación de texto. Para la
creación de este software se hará uso de tecnología de PLN que se encargan del análisis de la
estructura lingüística. demás, será desarrollado en ambiente de escritorio, con la finalidad de
que, en futuras investigaciones, pueda ser implementado en los laboratorios informáticos de la
Universidad de Guayaquil. La Figura 11 muestra el flujo del proceso de la simplificación
léxica.
47
Figura 11
Flujo de procesos
Nota: La figura muestra únicamente el flujo de proceso de la simplificación léxica. Elaboración: Néstor
Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la investigación
Roles del Proyecto
El Equipo Scrum de este proyecto son: El Scrum Master y el Equipo de Desarrollo
(Development Team, en inglés). La Tabla 22 muestras las personas asignadas a los roles.
Tabla 22
Roles del proyecto
Rol Persona
Scrum Master Jenny Ortiz Zambrano
Development Team Néstor Daniel Cruz Quezada, Joseph Hari Rodríguez Avellán
Nota: En la tabla se detallan los roles y las personas que ocupan los cargos. La elaborado por los
investigadores del proyecto. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la investigación
48
• Scrum Master: Gestiona el proyecto, lleva a cabo la planificación, da seguimiento al
proyecto, realiza informes y garantiza el cumplimiento de los Sprint.
• Development Team: Encargados del desarrollo de los Sprint en el tiempo indicado.
Historias de Usuario
Las historias de usuario generadas son resultado de todo el Equipo Scrum. Para hacer
más fácil el desarrollo, las historias de usuario se encuentran divididas en etapas: interfaz
gráfica, análisis léxico, identificador de palabras complejas, generador de sustitutos y selección
de sustitutos. Las historias de usuario son las siguientes:
Tabla 23
Historia de usuario N° 1
Historia de Usuario
Numero: 1 Usuario: Cliente
Nombre de historia: Maquetación
Prioridad: Media
Puntos estimados: 5 Etapa asignada: Interfaz gráfica
Descripción: Elaborar una maqueta del diseña del sistema
Observación: Nota: Tabla correspondiente a la historia de usuario N° 1 asignada a la etapa de la de interfaz gráfica.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
Tabla 24
Historia de usuario N° 2
Historia de Usuario
Número: 2 Usuario: Cliente
Nombre de historia: Desarrollo de interfaz de Usuario
Prioridad: Media
Puntos estimados: 13 Etapa asignada: Interfaz gráfica
Descripción: Elaborar una maqueta del diseño del sistema.
Observación: Nota: Tabla correspondiente a la historia de usuario N° 2 asignada a la etapa de la interfaz gráfica
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
49
Tabla 25
Historia de usuario N° 3
Historia de Usuario
Numero: 3 Usuario: Cliente
Nombre de historia: Métricas de Anula
Prioridad: Media
Puntos estimados: 5 Etapa asignada: Interfaz gráfica
Descripción: Elaborar una maqueta del diseña del sistema
Observación: Nota: Tabla correspondiente a la historia de usuario N° 3 asignada a la etapa de análisis léxico.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
Tabla 26
Historia de usuario 4
Historia de Usuario
Numero: 4 Usuario: Cliente
Nombre de historia: Métricas de Spaulding
Prioridad: Alta
Puntos estimados: 8 Etapa asignada: Análisis léxico
Descripción: Métrica para determinar la complejidad de legibilidad
Observación: Nota: Tabla correspondiente a la historia de usuario N° 4 asignada a la etapa de análisis léxico
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
Tabla 27
Historia de usuario 5
Historia de Usuario
Numero: 5 Usuario: Cliente
Nombre de historia: Procesamiento de texto
Prioridad: Alta
Puntos estimados: 13 Etapa asignada: Identificador de palabras
Descripción: Tokenizar, lematizar, realizar análisis morfosintáctico y crear los N-gramas
Observación: Nota: Tabla correspondiente a la historia de usuario N° 5 asignada a la etapa de identificador de palabras.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
50
Tabla 28
Historia de usuario 6
Historia de Usuario
Numero: 6 Usuario: Cliente
Nombre de historia: Consulta a la API de sinónimos
Prioridad: Alta
Puntos estimados: 8 Etapa asignada: Generación de sustitutos
Descripción: Proceso de conexión y consulta para la obtención de posibles sustitutos
Observación: Nota: Tabla correspondiente a la historia de usuario N° 6 asignada a la etapa de generación de sustitutos
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
Tabla 29
Historia de usuario 7
Historia de Usuario
Numero: 7 Usuario: Cliente
Nombre de historia: Conjugación de los sustitutos
Prioridad: Alta
Puntos estimados: 13 Etapa asignada: Generación de sustitutos
Descripción: Conjuga los posibles sustitutos a la forma y tiempo de la palabra identificada
Observación: Nota: Tabla correspondiente a la historia de usuario N° 7 asignada a la etapa de generación de sustitutos.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
Tabla 30
Historia de usuario 8
Historia de Usuario
Numero: 8 Usuario: Cliente
Nombre de historia: Sustituto más similar
Prioridad: Alta
Puntos estimados: 8 Etapa asignada: Selección de sustituto
Descripción: Proceso de comparación entre la palabra identificada con los sustitutos
Observación: Nota: Tabla correspondiente a la historia de usuario N° 8 asignada a la etapa de selección de sustituto.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
51
Tabla 31
Historia de usuario 9
Historia de Usuario
Numero: 9 Usuario: Cliente
Nombre de historia: Definición de palabras
Prioridad: Media
Puntos estimados: 8 Etapa asignada: Selección de sustituto
Descripción: Presenta una definición de la palabra identificada
Observación: Nota: Tabla correspondiente a la historia de usuario N° 9 asignada a la etapa de selección de sustituto.
Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
Product Backlog
La Tabla 32 muestra las historias de usuario ordenadas por prioridad.
Tabla 32
Product backlog
Etapas Historia de usuario Prioridad Puntos estimados
Análisis léxico Métricas de Anula Alta 13
Análisis léxico Métrica de Spaulding Alta 8
Identificador de palabra Procesamiento de texto Alta 13
Generación de sustituto Consulta a la API de sinónimos Alta 8
Generación de sustituto Conjugación de sustitutos Alta 13
Selección de sustituto Sustituto más similar Alta 8
Selección de sustituto Definición de palabras Media 8
Interfaz gráfica Maquetación Media 5
Interfaz gráfica Desarrollo de interfaz de Usuario Media 13
Nota: En la tabla se refleja las historias de usuario ordenadas por su nivel de prioridad Elaboración: Néstor
Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la investigación.
52
Estimación del Backlog
Se realizó un análisis sobre la iteración de un Sprint con base al tiempo para realizar el
proyecto (9 semanas) y la disponibilidad del equipo de desarrollo. La Tabla 33 indica los
resultados obtenidos tras el análisis.
Tabla 33
Criterios de estimación
Tamaño de Sprint Horas por día Horas por semana Total de horas por Sprint
2 semanas (10 días) 4 20 40
Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
Para la estimación de cada Sprint se usó la técnica de Estimación Aproximada que
consiste en debatir la cantidad de historias de usuario que pueden realizarse en cada sprint. Se
obtuvieron las siguientes estimaciones:
Tabla 34
Estimación del Sprint N° 1
Etapa Historia de usuario Prioridad Puntos
estimados
Tiempo
estimado
Análisis léxico Métricas de Anula Alta 13 6 días
Análisis léxico Métrica de Spaulding Alta 8 4 días
Total de días del sprint 10 días
Nota: Tabla del tiempo estimado del Sprint N° 1. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari
Rodríguez Avellán. Fuente: Datos de la investigación.
Tabla 35
Estimación del Sprint N° 2
Etapa Historia de usuario Prioridad Puntos
estimados
Tiempo
estimado
Identificación de
palabras Procesamiento de texto Alta 13 6 días
Generación de sustitutos Consulta a la API de
sinónimos Alta 8 4 días
Total de días del sprint 10 días Nota: Tabla del tiempo estimado del Sprint N° 2. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari
Rodríguez Avellán. Fuente: Datos de la investigación.
53
Tabla 36
Estimación del Sprint N° 3
Etapa Historia de usuario Prioridad Puntos
estimados
Tiempo
estimado
Generación de
sustitutos
Conjugación de los
sustitutos Alta 13 6 días
Selección de
sustituto Sustituto más similar Alta 8 4 días
Total de días del sprint 10 días
Nota: Tabla del tiempo estimado del Sprint N° 3. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari
Rodríguez Avellán. Fuente: Datos de la investigación.
Tabla 37
Estimación del Sprint N° 4
Etapa Historia de usuario Prioridad Puntos
estimados
Tiempo
estimado
Selección de
sustituto Definición de palabra Media 8 4 días
Interfaz gráfica Maquetación Media 5 2 días
Interfaz gráfica Diseño de Interfaz
gráfica Media 8 4 días
Total de días del sprint 10 días
Nota: Tabla del tiempo estimado del Sprint N° 4. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari
Rodríguez Avellán. Fuente: Datos de la investigación.
Definición de los Sprint
Para el desarrollo de cada Sprint se han planificado revisiones y entregables para validar
los avances obtenidos del desarrollo programado. Cada sprint consta de las siguientes fases:
• Planificación del Sprint (Sprint Planning)
• Trabajo de desarrollo
• Revisión del Sprint (Sprint Review)
Dentro de la Planificación del Sprint se establece el Objetivo del Sprint (Sprint Goal) y
el Sprint Backlog correspondiente, de este último se optó por usar la herramienta de Taskboard.
54
Sprint 1
Tabla 38
Taskboard al finalizar el Sprint N° 1
Objetivo: Aplicar las métricas de complejidad léxica
Inicio: 27/7/2020 Fin: 7/8/2020
Sprint Pendiente En curso Finalizado
1 Métricas de Anula
1 Métrica de Spaulding
Procesamiento de texto
Consulta a la API de sinónimos
Conjugación de sustitutos
Sustituto más similar
Definición de palabras
Maquetación
Desarrollo de interfaz gráfica
Nota: Sprint backlog muestra las historias de usuarios finalizadas en el Sprint 1 y las tareas pendientes que
se desarrollarán en los próximos Sprint. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari
Rodríguez Avellán. Fuente: Datos de la Investigación.
55
Figura 12
Burndown chart del Sprint N° 1
Nota: Burndown chart que indica el desempeño de los desarrolladores a largo de la elaboración del Sprint
1. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
Revisión del Sprint
• Las historias de usuario asignadas al Sprint fueron finalizadas en el tiempo estimado.
• Los pequeños retrasos con las tareas durante los primeros días del sprint fueron a causa
del desconocimiento de ciertos conceptos en el área de la lingüística.
• La funcionalidad del trabajo terminado es la esperada.
0
5
10
15
20
25
27
/7/2
02
0
28
/7/2
02
0
29
/7/2
02
0
30
/7/2
02
0
31
/7/2
02
0
3/8
/20
20
4/8
/20
20
5/8
/20
20
6/8
/20
20
7/8
/20
20
Burndown chart - Sprint 1
Burndown ideal Burndown desarrollo
56
Sprint 2
Tabla 39
Taskboard al finalizar el Sprint N° 2
Objetivo: Obtener una lista de sinónimos más simples que la palabra original
Inicio: 10/8/2020 Fin: 21/8/2020
Sprint Pendiente En curso Finalizado
1 Métricas de Anula
1 Métrica de Spaulding
2 Procesamiento de texto
2 Consulta a la API de sinónimo
Conjugación de sustitutos
Sustituto más similar
Definición de palabras
Maquetación
Desarrollo de interfaz
gráfica
Nota: Sprint backlog muestra las historias de usuarios finalizadas en el Sprint 2 y las tareas pendientes que
se desarrollarán en los próximos Sprint. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari
Rodríguez Avellán. Fuente: Datos de la Investigación.
57
Figura 13
Burndown chart del Sprint N° 2
Nota: Burndown chart que indica el desempeño de los desarrolladores a largo de la elaboración del Sprint
2. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
Revisión del Sprint
• Las historias de usuario asignadas al Sprint fueron finalizadas en el tiempo estimado.
• Durante el desarrollo se tuvo inconvenientes con la librería NLTK por no poseer un
etiquetado POS (Part Of Speech) el español, no obstante, se hizo uso de la librería
spaCy para esta tarea. Originalmente la librería spaCy estaba destinada a la
lematización.
• La funcionalidad del trabajo terminado, es la esperada.
0
5
10
15
20
25
10
/8/2
02
0
11
/8/2
02
0
12
/8/2
02
0
13
/8/2
02
0
14
/8/2
02
0
17
/8/2
02
0
18
/8/2
02
0
19
/8/2
02
0
20
/8/2
02
0
21
/8/2
02
0
Burndown chart - Sprint 2
Burndown ideal Burndown desarrollo
58
Sprint 3
Tabla 40
Taskboard al finalizar el Sprint N° 3
Objetivo: Filtrar los sinónimos hasta obtener el más similar
Inicio: 24/8/2020 Fin: 4/9/2020
Sprint Pendiente En curso Finalizado
1 Métricas de Anula
1 Métrica de Spaulding
2 Procesamiento de texto
2 Consulta a la API de sinónimo
3 Conjugación de sustitutos
3 Sustituto más similar
Definición de palabras
Maquetación
Desarrollo de interfaz
gráfica
Nota: El Sprint backlog muestra las historias de usuarios finalizadas en el Sprint 3 y las tareas pendientes
que se desarrollarán en el próximo Sprint. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari
Rodríguez Avellán. Fuente: Datos de la Investigación.
59
Figura 14
Burndown chart del Sprint N° 3
Nota: Burndown chart que indica el desempeño de los desarrolladores a largo de la elaboración del Sprint
3. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
Revisión del Sprint
• Las historias de usuario asignadas al Sprint fueron finalizadas en el tiempo estimado.
• La librería Pattern presentó problemas al momento de su implementación y tuvo que
modificar parte de su código, una vez solucionado el problema se crearon filtros para
determinar cuándo una palabra debía ser flexionada y junto con la etiquetación POS,
brindada por spaCy, se pudo llevar a los sustitutos a la misma forma flexionada de la
palabra compleja.
• La funcionalidad del trabajo terminado, es la esperada.
0
5
10
15
20
25
24
/8/2
02
0
25
/8/2
02
0
26
/8/2
02
0
27
/8/2
02
0
28
/8/2
02
0
31
/8/2
02
0
1/9
/20
20
2/9
/20
20
3/9
/20
20
4/9
/20
20
Burndown chart - Sprint 3
Burndown ideal Burndown desarrollo
60
Sprint 4
Tabla 41
Taskboard al finalizar el Sprint N° 4
Objetivo: Realizar una interfaz gráfica amigable para el usuario
Inicio: 7/9/2020 Fin: 18/9/2020
Sprint Pendiente En curso Finalizado
1 Métricas de Anula
1 Métrica de Spaulding
2 Procesamiento de texto
2 Consulta a la API de sinónimo
3 Conjugación de sustitutos
3 Sustituto más similar
4
Definición de palabras
4
Maquetación
4
Desarrollo de interfaz gráfica
Nota: El Sprint backlog correspondiente al Sprint 4 muestra la finalización de todas las historias de
usuario. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
Investigación.
61
Figura 15
Burndown chart del Sprint N° 4
Nota: Burndown chart que indica el desempeño de los desarrolladores a largo de la elaboración del Sprint
4. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodriguez Avellán. Fuente: Datos de la
investigación.
Revisión del Sprint
• Las historias de usuario asignadas al Sprint fueron finalizadas en el tiempo estimado.
• Se presentaron problemas en las consultas de las definiciones, La API de Wiktionary
no brinda las definiciones de las palabras de forma correcta en su lugar devuelve un
fragmento de la definición y páginas similares. Para solucionar este inconveniente se
optó por usar la librería WiktionaryParser pero no está optimizada para el idioma
español; finalmente se desarrolló una clase que lea el contenido de las páginas HTML
de Wiktionary y extraiga la definición.
• La funcionalidad del trabajo terminado, es la esperada.
0
5
10
15
20
25
7/9
/20
20
8/9
/20
20
9/9
/20
20
10
/9/2
02
0
11
/9/2
02
0
14
/9/2
02
0
15
/9/2
02
0
16
/9/2
02
0
17
/9/2
02
0
18
/9/2
02
0
Burndown chart - Sprint 4
Burndown ideal Burndown desarrollo
62
Beneficiarios Directos e Indirectos
Directos
Se consideran como beneficiarios directos de este proyecto a los estudiantes legalmente
matriculados en la Carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de la
Universidad de Guayaquil en el periodo 2020-2021 C.I., ya que, fueron seleccionados como
nuestra población.
Indirectos
• Se considera como beneficiarios indirectos los docentes que verán una mejora en la
comprensión del material bibliográfico que se brinda en sus clases para que sus
estudiantes hagan uso de él.
• Personas con necesidades educativas especiales o limitadas competencias lingüísticas,
serán beneficiados indirectamente al utilizar el aplicativo desarrollado.
• Los empleadores de los futuros profesionales que generen la Carrera de Software de la
Facultad de Ciencias Matemáticas y Físicas de la Universidad de Guayaquil, ya que
podrán observar en sus colaboradores una notable capacidad de comprensión de datos
e instrucciones y gran desenvolvimiento en el ámbito laboral.
• Las futuras investigaciones referentes al área de la simplificación léxica en Ecuador, y
nivel mundial, tomando como punto de partida el trabajo realizado en este proyecto.
63
Entregables del Proyecto
Los entregables del presente proyecto de titulación son los siguientes:
• Código fuente de la aplicación: Será entregado de manera digital el código fuente del
sistema desarrollado.
• Manual técnico: Documento que detalla las herramientas tecnológicas utilizadas en el
desarrollo del proyecto (consultar Anexo 9).
• Manual de usuario: Contiene información relevante para conocer las funcionalidades
del sistema de simplificación léxica desarrollado (consultar Anexo 10).
Propuesta
Como se mencionó anteriormente en la propuesta tecnológica, este sistema está dirigido
a los estudiantes universitarios que tengan limitada competencia lingüística; para contribuir a
este grupo de personas, se desarrolló una aplicación de escrito que realice una simplificación
de un texto.
La construcción de este sistema tiene tres fases para que llegar a la simplificación
léxica, las cuales son:
• Identificación de palabras complejas
• Generación de sustituto
• Selección de sustituto
Adicionalmente, como una forma de contribuir al aprendizaje, este sistema presentará
definiciones de las palabras complejas encontradas en el texto.
64
Conjuntos de Datos
Este sistema utiliza dos recursos para la simplificación léxica:
• Lista de Frecuencia del Corpus de Referencia del Español Actual (CREA): Es un
listado creado a partir del recurso principal CREA, está formado por texto escritos y
oral de los países de habla hispana desde el año 1975 hasta el año 2004, como resultado
se obtiene una lista de frecuencia de más de setecientas mil palabras.
• Spanish Billion Word: Modelo pre entrenado de incrustaciones de mil millones de
palabras, con el algoritmo de skip-gram (Cardelino, 2016) tiene un total de 1000653
palabras.
Descripción del Software
La Figura 16 muestra la arquitectura correspondiente al sistema de este proyecto, en la
cual se aprecia las secuencias de los procesos involucrados en la simplificación léxica y la
obtención de la definición de la palabra compleja.
Figura 16
Arquitectura del sistema
Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
65
El sistema tendrá una interfaz gráfica de usuario (GUI, por sus siglas en inglés) que se
desarrollará utilizando el framework Electron JS. Desde la GUI se enviará un archivo en
formato TXT al script de Python que contiene todo el proceso de la simplificación léxica,
posteriormente script de Python retornará un JSON donde se encuentran todos los datos
obtenidos durante la simplificación léxica. A continuación, se explica los procesos que forman
parte de la simplificación léxica:
Identificación de Palabras Complejas
Esta tarea consiste en identificar qué palabras podrían representar un problema de
comprensión para las personas, para determinar esto se analiza la frecuencia de las palabras
mediante un corpus. Para este software se ha elegido el listado de frecuencias del CREA y se
ha establecido que toda palabra que tenga una frecuencia menor a mil será considerada
compleja, como indica las métricas de complejidad léxica propuesta por Anula
(2008). También se implementó la generación de n-gramas, con el fin de no solo identificar la
palabra compleja sino también saber cuál es su contexto (dos palabras antes y después de la
palabra compleja).
En esta fase se debe obtener otros valores que serán usados en los procesos posteriores
como son: el lema y el etiquetado POS de la palabra compleja; para lograr esto se usó la librería
spaCy que posee ambas características.
Generación de Sustitutos
Para esta tarea se hace consulta a la API de Tesauro (https://thesaurus.altervista.org/)
que proporciona sinónimos en varios idiomas obtenidos de los diccionarios de OpenOffice,
esta API solo permite hacer consultas de verbos que estén en su forma infinitiva, por lo que se
debe enviar como parámetro el lema de la compleja; cabe mencionar que los sinónimos que
66
devuelve la API también están en su forma infinitiva, así que, se debe llevarlos a la forma
morfológica de la palabra compleja.
Para reflexionar los sinónimos obtenidos (si lo requiere) se usa la librería Pattern a la
cual se le debe pasar como parámetros las características proporcionadas por el etiquetado POS
del paso anterior. Posteriormente se deben eliminar los sinónimos menos frecuentes que la
palabra compleja, para esto se aplica el proceso anterior.
Selección de Sustitutos
Los sinónimos que fueron generados en el proceso anterior, se les aplicará un análisis
de similitud a cada uno de ellos con la palabra compleja y su contexto, se ha demostrado que
este método da muy buenos resultados (Paetzold y Specia, 2015). Para hallar la similitud se
usa la librería Gensim y como recurso lingüístico el Spanish Billion Word; con estas
herramientas se obtiene valores numéricos de la similitud de las palabras, posteriormente se
suma todos los valores, finalmente el que tenga el valor más alto será seleccionado como el
sustituto idóneo.
Definiciones de Palabras
El sistema tomará el lema de la palabra identificada como compleja y realizará una
búsqueda de la definición de la misma a través del diccionario en línea Wiktionary
(https://www.wiktionary.org/). Las API de Wiktionary no brindan consultas de definiciones,
en su lugar devuelve coincidencia de páginas relacionadas a la consulta e información
incompleta sobre las mismas. Para solventar este problema se diseñó un proceso que, luego de
realizar la consulta, obtenga todo el HTML de la página que contiene la definición,
posteriormente se analiza la estructura HTML y se hace la búsqueda de la ubicación de la
definición y por último se hace una limpieza del texto.
67
Criterios de Validación de la Propuesta
Para validar el software desarrollado en este proyecto se utilizó el juicio de experto y
encuesta de satisfacción.
Juicio de Expertos
Los expertos que colaboraron en la validación son profesionales del área de informática
por lo que su juicio certifica el correcto funcionamiento del sistema desarrollado. Los expertos
fueron:
• Ing. Katty Nancy Lino Castillo. (MSc. Sistemas de Información Gerencial)
• Lcdo. Juan Carlos Yépez Paladines (Lcdo. en Sistemas de Información)
• CSA. Freddy David Coto Torres (Analista de Sistemas)
Las validaciones se llevaron a cabo por medio de la plataforma Zoom y Microsoft
Teams, donde los expertos pudieron observar la ejecución del software, el aspecto, la
funcionalidad, las características y componentes que forman parte del software.
Los criterios y constancia de la validación por juicio de experto se encuentran detallados
en el anexo 6.
Análisis de Encuesta de Satisfacción
La encuesta de satisfacción se realizó utilizando la herramienta formularios de Google;
la encuesta fue compartida luego de la presentación del sistema mediante la plataforma Zoom.
Para consultar la población y muestra, véase la página 34.
A continuación, se presenta el análisis respectivo de los resultados que serán detallados
utilizando tablas de frecuencia y gráficos de pastel.
68
Pregunta 1: ¿Consideras que fue de utilidad ver sinónimos de las palabras complejas en el
texto?
Tabla 42
Pregunta 1: Tabla de frecuencias
Frecuencia
absoluta
Frecuencia
acumulada
Frecuencia
relativa
Frecuencia
relativa
acum.
Frecuencia
porcentual
Frecuencia
Porcentual
acum.
Totalmente en
desacuerdo 4 4 0.1 0.1 10.00% 10.00%
En desacuerdo 0 4 0 0.1 0.00% 10.00%
Ni de acuerdo ni
en desacuerdo 2 6 0.05 0.15 5.00% 15.00%
De acuerdo 14 20 0.35 0.5 35.00% 50.00%
Totalmente de
acuerdo 20 40 0.5 1 50.00% 100.00%
TOTAL 40 1 100.00%
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Figura 17
Pregunta 1: Análisis gráfico
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Análisis: La Figura 17 muestra que el 50% de los encuestados indican estar “Muy Satisfechos”
respecto a ver sinónimos de las palabras consideradas complejas. El 35% indico estar
satisfechos, solo el 5% indico estar en una posición neutral, por último, un 10% se encuentra
Muy insatisfecho teniendo un 0% de Insatisfechos. Con lo siguiente determinamos que el 85%
considera de utilidad ver sinónimos de las palabras consideradas complejas en un texto.
10%
5%
35%
50%
Muy Insatisfecho
Insatisfecho
Neutral
Satisfecho
Muy Satisfecho
69
Pregunta 2: ¿Consideras que fue de utilidad ver definiciones de las palabras complejas en el
texto?
Tabla 43
Pregunta 2: Tabla de frecuencias
Frecuencia
absoluta
Frecuencia
acumulada
Frecuencia
relativa
Frec.
relativa
acumulada
Frecuencia
porcentual
Frecuencia
porcentual
acumulada
Muy
Insatisfecho 2 2 0.05 0.05 5.00% 5.00%
Insatisfecho 1 3 0.025 0.075 2.50% 7.50%
Neutral 2 5 0.05 0.125 5.00% 12.50%
Satisfecho 17 22 0.425 0.55 42.50% 55.00%
Muy
Satisfecho 18 40 0.45 1 45.00% 100.00%
TOTAL 40 1 100.00%
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Figura 18
Pregunta 2: Análisis gráfico
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Análisis: La Figura 18 muestra que el 45% de los encuestados dijo estar “Muy Satisfecho”, el
43% “Satisfecho”, el 5% permaneció en la posición “Neutral”, el 2% dijo estar “Insatisfecho”
y el 5% restante “Muy Insatisfecho”. Por lo cual determinamos que la mayoría representada
por el 88% Considera de utilidad ver las definiciones de las palabras complejas en el texto.
5%2%
5%
43%
45%
Muy Insatisfecho
Insatisfecho
Neutral
Satisfecho
Muy Satisfecho
70
Pregunta 3: ¿Consideras que el sistema posee una interfaz sencilla?
Tabla 44
Pregunta 3: Tabla de frecuencias
Frecuencia
absoluta
Frecuencia
acumulada
Frecuencia
relativa
Frec.
relativa
acumulada
Frecuencia
porcentual
Frecuencia
porcentual
acumulada
Muy
Insatisfecho 2 2 0.05 0.05 5.00% 5.00%
Insatisfecho 0 2 0 0.05 0.00% 5.00%
Neutral 3 5 0.075 0.125 7.50% 12.50%
Satisfecho 17 22 0.425 0.55 42.50% 55.00%
Muy
Satisfecho 18 40 0.45 1 45.00% 100.00%
TOTAL 40 1 100.00%
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Figura 19
Pregunta 3: Análisis gráfico
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Análisis: En la Figura 19 muestra que el 45% se encuentra “Muy Satisfecho” respecto a la
pregunta “¿Consideras que el sistema posee una interfaz sencilla?”, el 43% dice estar
“Satisfecho”, el 7% permanece en una posición “Neutral” y solo el 5% indico estar “Muy
insatisfecho”.
5%
7%
43%
45%Muy Insatisfecho
Insatisfecho
Neutral
Satisfecho
Muy Satisfecho
71
Pregunta 4: ¿Las herramientas que posee el sistema te ayudaron a comprender de mejor
manera el contenido del texto?
Tabla 45
Pregunta 4: Tabla de frecuencias
Frecuencia
absoluta
Frecuencia
acumulada
Frecuencia
relativa
Frec.
relativa
acumulado
Frecuencia
porcentual
Frecuencia
porcentual
acumulada
Muy
Insatisfecho 3 3 0.075 0.075 7.50% 7.50%
Insatisfecho 0 3 0 0.075 0.00% 7.50%
Neutral 2 5 0.05 0.125 5.00% 12.50%
Satisfecho 17 22 0.425 0.55 42.50% 55.00%
Muy
Satisfecho 18 40 0.45 1 45.00% 100.00%
TOTAL 40 1 100.00%
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Figura 20
Pregunta 4: Análisis gráfico
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Análisis: La Figura 20 correspondiente a la pregunta 5, muestra una inclinación positiva del
88% dividida en: 45% indicaron estar “Muy Satisfechos” y un 43% están “Satisfechos”, el 5%
muestra una posición “Neutral” y solo el 7% indico estar “Muy insatisfecho”.
7%5% 43%
45%
Muy Insatisfecho
Insatisfecho
Neutral
Satisfecho
Muy Satisfecho
72
Pregunta 5: ¿Desde el punto de vista de usuario final consideras satisfactorio el desempeño
del sistema?
Tabla 46
Pregunta 5: Tabla de frecuencias
Frecuencia
absoluta
Frecuencia
acumulada
Frecuencia
Relativa
Frec.
Relativa
Acumulado
Frecuencia
Porcentual
Frecuencia
Porcentual
acumulada
Muy
Insatisfecho 2 2 0.05 0.05 5.00% 5.00%
Insatisfecho 0 2 0 0.05 0.00% 5.00%
Neutral 3 5 0.075 0.125 7.50% 12.50%
Satisfecho 14 19 0.35 0.475 35.00% 47.50%
Muy
Satisfecho 21 40 0.525 1 52.50% 100.00%
TOTAL 40 1 100.00%
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Figura 21
Pregunta 5: Análisis gráfico
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Análisis: Los valores presentados en la Figura 21. Se aprecia que el 53% de los encuestados
están “Muy Satisfecho”, un 35% indico estar “Satisfecho”, un 7% permaneció en una posición
“Neutral” y el 5% restante dijo estar “Muy Insatisfecho”.
5%7%
35%
53% Muy Insatisfecho
Insatisfecho
Neutral
Satisfecho
Muy Satisfecho
73
Pregunta 6: ¿Estas Satisfecho con el Sistema?
Tabla 47
Pregunta 6: Tabla de frecuencias
Frecuencia
absoluta
Frecuencia
acumulada
Frecuencia
Relativa
Frec.
Relativa
Acumulado
Frecuencia
Porcentual
Frecuencia
Porcentual
acumulada
Muy
Insatisfecho 3 3 0.075 0.075 7.50% 7.50%
Insatisfecho 0 3 0 0.075 0.00% 7.50%
Neutral 1 4 0.025 0.1 2.50% 10.00%
Satisfecho 11 15 0.275 0.375 27.50% 37.50%
Muy
Satisfecho 25 40 0.625 1 62.50% 100.00%
TOTAL 40 1 100.00%
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Figura 22
Pregunta 6: Análisis gráfico
Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.
Análisis: Como se puede observar en el Figura 22, el 63% indico estar “Muy Satisfecho”,
seguido del 28% que dijo estar “Satisfecho”, el 2% permaneció en una posición “Neutral” y el
7% restante dijo estar “Muy insatisfecho”. Teniendo como resultado una inclinación positiva
del 91%.
7%
2%
28%
63% Muy Insatisfecho
Insatisfecho
Neutral
Satisfecho
Muy Satisfecho
74
Análisis General Encuesta 2: Los resultados demostraron que el 88% de la muestra
encuestada indicó que el uso de sinónimos y definiciones resulto ser útil, ya que brindan una
ayuda extra a la persona que utiliza el aplicativo para interpretar de mejor manera las palabras
que fueron reemplazadas.
Este mismo porcentaje de individuos encuestados señala que de manera general las
herramientas incluidas en el sistema contribuyeron en gran medida a mejorar su capacidad de
comprensión relacionada a los textos académicos que les fueron mostrados a modo de prueba
en la presente encuesta de satisfacción. Así mismo señalaron estar “Muy Satisfechos” y
“Satisfechos” con el desempeño del sistema.
El grado de satisfacción general con el sistema fue positivo, representado con el 91% de los
encuestados. De esta forma se concluye que el aplicativo desarrollado aporta una solución que
disminuirá el grado de afectación que presentan los estudiantes con los textos académicos por
ser escritos en lenguaje especializado.
Resultados
Evaluación del Conjunto de Datos
Se hizo una búsqueda de las 704 palabras complejas que componen el VYTEDU-CW
en el recurso de Spanish Billion Word, con el fin de que el sistema pueda hallar las similitudes
de estas palabras con las que se pretende reemplazar. El resultado obtenido fue 48 palabras no
encontradas, esto significa que el sistema no podrá hacer la selección del sustituto para esas 48
palabras.
Evaluación del Identificador
El sistema se aplicó a los 55 archivos de texto que posee el corpus VYTEDU y para
comparar la efectividad del identificador se usó el corpus VYTEDU-CW. Se obtuvo los
siguientes resultados:
75
Tabla 48
Evaluación del identificador
Macro F1 Macro Precision Macro Recall
0.208678 0.124094 0.655424
Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación
En la Tabla 48 muestra que, de todas las palabras que los estudiantes consideraron
difíciles, el 65% (Recall) fueron etiquetadas correctamente por el sistema cómo difíciles. El
Precision muestra un decaimiento (12%), esto se debe a que el identificador está etiquetando
varias palabras difíciles como fáciles, según los datos del VYTEDU-CW. El valor de F1
muestra la armonía entre el Precision y Recall, puede ser interpretado como la efectividad
global del identificador, es decir, un 20%.
Este sistema de identificación de palabras fue parte del taller internacional de ALexS
(https://www.alexs-sepln-2020.org/) donde los participantes diseñaron un método para
identificar las palabras complejas del Corpus VYTEDU, dicha identificación fue evaluada con
el Corpus VYTEDU-CW; el sistema de este proyecto obtuvo el cuarto lugar de los ocho
métodos presentados por los participantes del taller sobre la identificación de palabras
complejas (disponible en https://www.alexs-sepln-2020.org/results).
A partir del diagnóstico se evidencia que existen estudiantes con baja competencia
lingüística. Esto puede ser un factor que limita la comprensión de textos académicos en
lenguaje técnico. Asimismo, los resultados ponen de relieve que la población con necesidades
educativas debería contar un recurso tecnológico que les permita con mayor facilidad el acceso
a contenidos de sus asignaturas especializadas.
Respondiendo a la pregunta científica la población que hizo uso del aplicativo
desarrollado consideró que está es intuitiva a nivel de herramientas y utilidades. Por tanto, es
76
un recurso que aportará a la disminución de frustración que genera en los estudiantes el no
poder comprender un determinado texto académico.
A través del juicio de experto se constató que el aplicativo cumple hasta el momento
con el funcionamiento y requerimientos establecidos, como es el uso de tecnología moderna,
aplicación de principios científicos en el desarrollo del software. Además, al igual que los
resultados de la encuesta de satisfacción consideran que es una herramienta de fácil uso.
77
CAPÍTULO IV
CONCLUSIONES Y RECOMENDACIONES
Criterios de Aceptación del Producto o Servicio
El sistema fue validado y aceptado por el Director de la Carrera de Ingeniería en
Sistemas Computacionales de la Facultad de Ciencias Matemáticas y Físicas de la Universidad
de Guayaquil. La Tabla 49 indican los criterios utilizados para la aceptación.
Tabla 49
Criterios de aceptación
Criterios de Aceptación
Tema: Sistema de Detección de Palabras Complejas en Español Aplicando Estrategias de
Simplificación Léxica para Contribuir a la Compresión Lingüística de los Estudiantes
Universitarios
Requerimientos Cumple No cumple
Desarrollado en el lenguaje de programación Python. X
Permite la selección de archivos en formato TXT mediante un
explorador de archivos. X
Permite eliminar los archivos que hayan sido agregados. X
Permite la lectura del contenido del archivo TXT mediante un
visualizador. X
Muestra la opción de análisis léxico mediante un menú
contextual. X
Muestra el informe detallado del análisis de complejidad del
texto. X
Muestra la opción de simplificación del texto mediante un
menú contextual. X
La simplificación del texto muestra sinónimos de la palabra
compleja. X
La simplificación del texto muestra la definición de la palabra
compleja. X
El sistema reemplaza la palabra compleja por un sinónimo más
simple. X
La simplificación del texto se apoya de recursos lingüísticos
como diccionarios en línea, modelos pre entrenados o listas de
frecuencia de palabras.
X
Interfaz gráfica de usuario sencilla y de fácil uso X
Observaciones
Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán; Fuente: Datos de la
investigación.
78
Para dar constancia a la aceptación del producto se generó un certificado de aceptación
el cual puede ser consultado en el Anexo 8.
Conclusiones
• El módulo de detección de palabras complejas fue construido con base a información
científica contrastada, que indican la relación entre una palabra compleja y su
frecuencia de uso. Se tomó en consideración la frecuencia absoluta de las palabras que
se encuentran en el CREA, lo que permitió hacer la discriminación entre una palabra
difícil/compleja y una fácil. Además, con la librería spaCy se pudo clasificar las
palabras identificadas como complejas, con base a la función que cumple en la oración,
esto sirvió para tener una mayor precisión al momento de la selección de sustitutos.
• Tras el análisis de los resultados obtenidos de la identificación de palabras, se obtuvo
que la eficacia de la identificación es de un 20% cabe mencionar que este valor
representa la capacidad del sistema para reconocer una palabra difícil y una fácil; el
análisis también demostró que el sistema fue capaz de identificar correctamente las
palabras que los estudiantes consideraron difíciles en un 65%, un resultado es aceptable
considerando que se ajusta más a lo que los estudiantes consideran una palabra
compleja.
• El módulo de simplificación léxica siguió tres fases: La primera comprende la
identificación de palabras, la generación de sustitutos y la selección de sustituto que
está basada en la técnica que ha dado mejores resultados en investigaciones de
simplificación léxica, y teniendo en cuenta la frecuencia uso de los sustitutos se asegura
que la palabra reemplazada sea más simple.
79
• En síntesis, el aplicativo desarrollado contribuirá a la comprensión lingüística de textos
de alta complejidad por el uso de lenguaje científico, además, será un recurso de apoyo
para la accesibilidad de contenido en el caso de los estudiantes universitarios con
necesidades educativas especiales y limitadas competencias lingüísticas o que carezcan
de estas últimas.
Recomendaciones
• Para la detección de palabras complejas solo se usó la lista de frecuencias del CREA;
se recomienda experimentar con otros recursos y contrastar los resultados para
encontrar posibles mejoras de rendimiento del sistema.
• Crear un corpus de frecuencia que se ajuste a la realidad de los estudiantes
universitarios.
• Agregar un proceso de aprendizaje automático, ya que podría ser beneficioso para el
proceso de simplificación léxica, a partir de las consultas realizadas a las API el sistema
sería capaz de crear un recurso propio y más completo o alimentar uno ya existente, del
cual se podrá hacer consultas de forma local, incluso el recurso podría tener las formas
flexionada de una palabra lo que evitará hacer el proceso de conjugación, mejorando el
tiempo de simplificación.
• Desarrollar una programación paralela, que mejore los tiempos de búsquedas y
optimice el sistema para los archivos grandes.
80
Trabajos Futuros
La siguiente fase del proyecto es la elaboración de un sistema hibrido que combine las
características de otras técnicas aplicadas en experimentaciones en el área de la simplificación
léxica para lograr una mayor precisión en la identificación de las palabras complejas.
Adicionalmente se pretende crear un recurso lingüístico propio, para realizar las consultas a
nivel local.
A partir de este trabajo de investigación se podrían proponer otras investigaciones en
el ámbito educativo aplicando la simplificación léxica con el fin de poder contribuir al
mejoramiento de la competencia lingüística, tales como: sistema de simplificación léxica
dirigido a: estudiantes de las escuelas rurales, estudiantes con NEE, estudiantes de la periferia
de la ciudad, estudiantes de diferentes contextos educativos, entre otros.
81
REFERENCIAS BIBLIOGRÁFICAS
Anula, A. 2008. Lecturas adaptadas a la enseñanza del español como l2: variables lingüísticas para la
determinación del nivel de legibilidad. La evaluación en el aprendizaje y la enseñanza del español
como LE L2:162–170
Alkhars, A., & Mahmoud, W. (2017). Cross-Platform Desktop Development (JavaFX vs. Electron).
Bartolomé Sintes Marco, B. (2020, 10 junio). Que es Visual Studio Code.
https://www.mclibre.org/consultar/informatica/lecciones/vsc.html#:~:text=Visual%20Studio%20Code
%20es%20un,una%20licencia%20gratuita%20no%20libre.
Bassett, L. (2015). Introduction to JavaScript object notation: a to-the-point guide to JSON. " O'Reilly Media,
Inc.".
Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python: analyzing text with the natural
language toolkit. " O'Reilly Media, Inc.".
Bott, S., Rello, L., Drndarević, B., & Saggion, H. (2012, December). Can spanish be simpler? lexsis: Lexical
simplification for spanish. In Proceedings of COLING 2012 (pp. 357-374).
Bott, S., & Saggion, H. (2014). Text simplification resources for Spanish. Language Resources and Evaluation,
48(1), 93-120.
Carroll, J., Minnen, G., Canning, Y., Devlin, S., & Tait, J. (1998, July). Practical simplification of English
newspaper text to assist aphasic readers. In Proceedings of the AAAI-98 Workshop on Integrating
Artificial Intelligence and Assistive Technology (pp. 7-10).
Challenger-Pérez, I., Díaz-Ricardo, Y., & Becerra-García, R. A. (2014). El lenguaje de programación Python.
Ciencias Holguín, 20(2), 1-13.
Chandrasekar, R., Doran, C., & Bangalore, S. (1996). Motivations and methods for text simplification. In
COLING 1996 Volume 2: The 16th International Conference on Computational Linguistics.
Constitución de la República del Ecuador. (2013). Ministerio de Educación. https://educacion.gob.ec/wp-
content/uploads/downloads/2014/01/TRANSP-NORMAS_CONSTITUCIONALES.pdf
Corso, C. L., & Lorena, C. (2009). Aplicación de algoritmos de clasificación supervisada usando Weka.
Córdoba: Universidad Tecnológica Nacional, Facultad Regional Córdoba.
Cristian Cardellino: Spanish Billion Words Corpus and Embeddings (March 2016),
https://crscardellino.github.io/SBWCE/
Guinovart, X. G., & Sacau, E. (2004). Métodos de optimización de la extracción de léxico bilinge a partir de
corpus paralelos. Procesamiento del Lenguaje Natural, 33.
Gutiérrez, J. J. (2014). ¿Qué es un framework web?. Available in: http://www. lsi. us. es/~
javierj/investigacion_ficheros/Framework. pdf Accessed May, 12.
Han, J., Kamber, M., & Pei, J. (2011). Data mining concepts and techniques third edition. The Morgan
Kaufmann Series in Data Management Systems, 83-124.
Hualde, J. I., Olarrea, A., Escobar, A. M., & Travis, C. E. (2010). Introducción a la Lingüística Hispánica.
Cambridge University Press.
Instituto de Estadística de la UNESCO. (2017). Más de la Mitad de los Niños y Adolescentes en el Mundo No
Está Aprendiendo. http://uis.unesco.org/sites/default/files/documents/fs46-more-than-half-children-not-
learning-2017-sp.pdf
82
Instituto Nacional de Evaluación Educativa. (2018). La educación en Ecuador: logros alcanzados y nuevos
desafíos. http://uis.unesco.org/sites/default/files/documents/fs46-more-than-half-children-not-learning-
2017-sp.pdf
Islam, S. A., Heil, B. J., Kearney, C. M., & Baker, E. J. (2018). Protein classification using modified n-grams
and skip-grams. Bioinformatics, 34(9), 1481-1487.
Juárez, A. C., & Hernández, M. H. (2007). Algunas reflexiones y aportaciones en torno a los enfoques teóricos y
prácticos de la investigación en trabajo social. Acciones e investigaciones sociales, (23), 25-55.
Leroy, G., Endicott, J. E., Mouradi, O., Kauchak, D., & Just, M. L. (2012). Improving perceived and actual text
difficulty for health information consumers using semi-automated methods. In AMIA Annual
Symposium Proceedings (Vol. 2012, p. 522). American Medical Informatics Association.
Leroy, G., Endicott, J. E., Kauchak, D., Mouradi, O., & Just, M. (2013). User evaluation of the effects of a text
simplification algorithm using term familiarity on perception, understanding, learning, and information
retention. Journal of medical Internet research, 15(7), e144.
Leroy, G., & Kauchak, D. (2014). The effect of word familiarity on actual and perceived text difficulty. Journal
of the American Medical Informatics Association, 21(e1), e169-e172.
López-Anguita, R., Montejo-Ráez, A., Martínez-Santiago, F. J., & Díaz-Galiano, M. C. (2018). Legibilidad del
texto, métricas de complejidad y la importancia de las palabras. Procesamiento del Lenguaje Natural,
61, 101-108.
Lozada, J. (2014). Investigación aplicada: Definición, propiedad intelectual e industria. CienciAmérica: Revista
de divulgación científica de la Universidad Tecnológica Indoamérica, 3(1), 47-50.
Macaulay, M. (2017). Introduction to web interaction design: With HTML and CSS. CRC Press.
Machine Learning, una expresión de la Inteligencia Artificial. (s. f.). SAS. Recuperado 5 de julio de 2020, de
https://www.sas.com/es_mx/whitepapers/local/machine-
learning.html?gclid=Cj0KCQjw9IX4BRCcARIsAOD2OB0-
42oWQrP9ngn_4NcuvvbBlqQw8kYrUF_eUAPpDMmez__7TVebkN8aAg77EALw_wcB
Matthews, C. (2016). An introduction to natural language processing through Prolog. Routledge.
Moreno, L., Martínez, P., Muguerza, J., & Abascal, J. (2018). Support resource based on standards for
accessible e-Government transactional services. Computer Standards & Interfaces, 58, 146-157.
Ministerio de Educación. (2016). Ministerio de Educación. https://educacion.gob.ec/escuelas-inclusivas/
Naciones Unidas. (2015). Discapacidad y Educación | Disabilities ES.
https://www.un.org/development/desa/disabilities-es/discapacidad-y-educacion.html
Naciones Unidas Derechos Humanos. Convención sobre los derechos de las personas con discapacidad. Artículo
2. 3 de mayo del 2008.
Node.js. (s. f.). Acerca. Recuperado 24 de junio de 2020, de https://nodejs.org/es/about/
Ortiz Zambrano, J. A., & Montejo Ráez, A. (2017). VYTEDU: Un corpus de vídeos y sus transcripciones para
investigación en el ámbito educativo.
Ogden, C. K. (1930). Basic English: A general introduction with rules and grammar.
Oxford University Press (OUP). (s. f.). corpus. Lexico.com. Recuperado 27 de septiembre de 2020, de
https://www.lexico.com/definition/corpus
RAE. (2018). CREA. Real Academia Española. https://www.rae.es/recursos/banco-de-datos/crea
83
Paetzold, G., & Specia, L. (2016, May). Benchmarking lexical simplification systems. In Proceedings of the
Tenth International Conference on Language Resources and Evaluation (LREC'16) (pp. 3074-3080).
Paetzold, G., & Specia, L. (2015, July). Lexenstein: A framework for lexical simplification. In Proceedings of
ACL-IJCNLP 2015 System Demonstrations (pp. 85-90).
Pérez, J. E. (2019). introducción a JavaScript.
Ramiro Beltran, L. (1959). Materiales de Enseñanza en Comunicaciones: Redacción Simplificada (Vol. 2).
https://books.google.com.ec/books?id=noUgAQAAIAAJ&dq=Materiales+de+Ensenanza+en+Comuni
caciones:+Redaccion+Simplificada&hl=es&source=gbs_navlinks_s
Ramsay, J., Frías, H., & Beltrán, L. (1975). Extensión Agrícola Dinámica del Desarrollo Rural (3.a ed.). IICA.
RedHat. (s. f.). ¿Qué es una API? https://www.redhat.com/es/topics/api/what-are-application-programming-
interfaces. Recuperado 27 de septiembre de 2020, de https://www.redhat.com/es/topics/api/what-are-
application-programming-interfaces
Řehůřek, R., & Sojka, P. (2011). Gensim—statistical semantics in python. Retrieved from genism. org.
Rello, L., Baeza-Yates, R., Bott, S., & Saggion, H. (2013, May). Simplify or help? Text simplification strategies
for people with dyslexia. In Proceedings of the 10th International Cross-Disciplinary Conference on
Web Accessibility (pp. 1-10).
Reyzábal, M. V. (2012). LAS COMPETENCIAS COMUNICATIVAS Y LINGÜÍSTICAS, CLAVE PARA LA
CALIDAD EDUCATIVA. REICE. Revista Iberoamericana sobre Calidad, Eficacia y Cambio en
Educación, 10(4), 63-77. https://www.redalyc.org/pdf/551/55124841006.pdf
Russo, C., Ramón, H. D., Alonso, N., Cicerchia, L. B., Esnaola, L., & Tessore, J. P. (2016). Tratamiento masivo
de datos utilizando técnicas de Machine Learning. In XVIII Workshop de Investigadores en Ciencias
de la Computación (Entre Ríos, Argentina).
Saggion, H., Gómez-Martínez, E., Etayo, E., Anula, A., & Bourg, L. (2011). Text simplification in simplext:
Making texts more accessible. Procesamiento del lenguaje natural, (47), 341-342.
Saggion, H., Štajner, S., Bott, S., Mille, S., Rello, L., & Drndarevic, B.: Making it simplext: Implementation and
evaluation of a text simplification system for spanish. ACM Transactions on Accessible Computing
(TACCESS), 6(4), 14. PDF (2015).
Sanmartín, J. (2019). Neología y lematización: acortamientos y siglas en los diccionarios del español. Revista de
Lexicografía, 25, 79-101.
Schwaber, K., & Sutherland, J. (2017). La Guía Definitiva de Scrum: Las Reglas del Juego.
https://www.scrumguides.org/docs/scrumguide/v2017/2017-Scrum-Guide-Spanish-SouthAmerican.pdf
SEPLN | Sociedad Española de Procesamiento del Lenguaje Natural. (2018). SEPLN. Recuperado 1 de julio de
2020, de http://www.sepln.org/sepln
Siddharthan, A. (2002, December). An architecture for a text simplification system. In Language Engineering
Conference, 2002. Proceedings (pp. 64-71). IEEE.
Spaulding, S.: A Spanish readability formula. The Modern Language Journal, 40(8), 433-441. PDF (1956).
Štajner, S., Evans, R., Orasan, C., & Mitkov, R. (2012). What can readability measures really tell us about text
complexity. In Proceedings of workshop on natural language processing for improving textual
accessibility (pp. 14-22).
84
Talamé, L., Cardoso, A., & Amor, M. (2019). Comparación de herramientas de procesamiento de textos en
español extraídos de una red social para Python. In XX Simposio Argentino de Inteligencia Artificial
(ASAI 2019)-JAIIO 48 (Salta).
Torunoglu-Selamet, D., Pamay, T., & Eryigit, G. (2016). Simplification of Turkish sentences. In The First
International Conference on Turkic Computational Linguistics, ss (pp. 55-59).
Trigas Gallego, M. (2012). Metodología Scrum.
http://openaccess.uoc.edu/webapps/o2/bitstream/10609/17885/1/mtrigasTFC0612memoria.pdf
Tronbacke, B. I. (1997). Easy-to-Read-An important part of reading promotion and in the fight against illiteracy.
IFLA journal, 23(3), 185-191.
UNESCO. (2017, 4 mayo). Educación para personas discapacitadas. https://es.unesco.org/themes/inclusion-
educacion/personas-
discapacitadas#:%7E:text=El%20art%C3%ADculo%2024%20de%20la,los%20dem%C3%A1s%20y%
20en%20las
Vargas Cordero, Z. R. (2009). La investigación Aplicada: Una Forma de Conocer las Realidades con Evidencia
Científica. Revista Educación, 33(1), 155-165. https://www.redalyc.org/pdf/440/44015082010.pdf
Vivas, H. L., Muñoz Abbate, H., Petroff, M., Cambarieri, M., & García Martínez, N. (2015). Material Design-
Un lenguaje Visual para el desarrollo Ágil de Software.
Zambrano, J. O., MontejoRáez, A., Castillo, K. N. L., Mendoza, O. R. G., & Perdomo, B. C. C. (2019, March).
VYTEDU-CW: Difficult Words as a Barrier in the Reading Comprehension of University Students. In
The International Conference on Advances in Emerging Trends and Technologies (pp. 167-176).
Springer, Cham.
85
ANEXOS
Anexo 1. Planificación de Actividades del Proyecto
Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación.
86
Anexo 2. Geo-localización del Problema
Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: GoogleMaps
87
Anexo 3. Fundamentación Legal
El presente proyecto de titulación se fundamenta en la constitución, leyes y normas
como se detalla a continuación:
Constitución del Ecuador Contexto
Artículo. 26 La educación es un derecho de las personas a lo largo de su
vida y un deber ineludible e inexcusable del Estado.
Constituye un área prioritaria de la política pública y de la
inversión estatal, garantía de la igualdad e inclusión social y
condición indispensable para el buen vivir.
Artículo 28 La educación responderá al interés público y no estará al
servicio de intereses individuales y corporativos. Se
garantizará el acceso universal, permanencia, movilidad y
egreso sin discriminación alguna
Artículo 350 El sistema de educación superior tiene como finalidad la
formación académica y profesional con visión científica y
humanista; la investigación científica y tecnológica; la
innovación, promoción, desarrollo y difusión de los saberes y
las culturas; la construcción de soluciones para los problemas
del país, en relación con los objetivos del régimen de
desarrollo. Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Constitución
del Ecuador
Artículo de la LOES Contexto
Art. 2.- Objeto Esta Ley tiene como objeto definir sus principios, garantizar
el derecho a la educación superior de calidad que propenda a
la excelencia interculturalidad, al acceso universal,
permanencia, movilidad y egreso sin discriminación alguna y
con gratuidad en el ámbito público hasta el tercer nivel.
Art. 4.- Derecho a la
Educación Superior
El derecho a la educación superior consiste en el ejercicio
efectivo de la igualdad de oportunidades, en función de los
méritos respectivos, a fin de acceder a una formación
académica y profesional con producción de conocimiento
pertinente y de excelencia.
Art. 8.- Fines de la
Educación Superior
d) Formar académicos y profesionales responsables, en todos
los campos del conocimiento, con conciencia ética y
solidaria, capaces de contribuir al desarrollo de las
instituciones de la República, a la vigencia del orden
democrático, y a estimular la participación social; Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Ley Orgánica
de Educación Superior
88
Decreto N.1014 de
Software libre
Contexto
Artículo 1 Establecer como política pública para las Entidades de
Administración Pública Central la utilización del Software
Libre en sus sistemas y equipamientos informáticos.
Artículo 2 Se entiende por software libre, a los programas de
computación que se pueden utilizar y distribuir sin
restricción alguna, que permitan su acceso a los códigos
fuentes y que sus aplicaciones puedan ser mejoradas.
Artículo 3 Las entidades de la Administración Pública Central previa a
la instalación del software libre en sus equipos, deberán
verificar la existencia de capacidad técnica que brinde el
soporte necesario para el uso de este tipo de software.
Artículo 4 Se faculta la utilización de software propietario (no libre)
únicamente cuando no exista una solución de software libre
que supla las necesidades requeridas, o cuando esté en riesgo
la seguridad nacional, o cuando el proyecto informático se
encuentre en un punto de no retorno Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán, Fuente: Estrategia
para la Implementación de Software Libre en la Administración Pública Central.
89
Anexo 4. Criterios Éticos a Utilizarse en el Desarrollo del Proyecto
Criterios Características del
criterios Procedimientos
Credibilidad
Aproximación de los
resultados de una
investigación frente al
fenómeno observado
Hallazgos reales sobre la
problemática de la investigación.
Relevancia del estudio.
Transferibilidad
Conocimiento sobre el
contexto que permite
transferir las conclusiones a
contextos similares
Proporcionar información
detallada del contexto.
Muestro teórico.
Dependencia Estabilidad relativa y
variabilidad de los datos
Proceso de recolección análisis e
interpretación de los datos
Confirmabilidad
Refleja la veracidad de los
resultados y la investigación
realizada
La información está respaldada de
fuentes confiables y científicas
Resultados evaluados y
confirmados por personas
externas a la investigación.
Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la
investigación
90
Anexo 5. Formatos de Técnicas de Recolección de Datos Aplicadas para Variables
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FIÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
Proyecto: Sistema de detección de palabras complejas en español aplicando estrategias de
simplificación léxica para contribuir a la comprensión lingüística de los estudiantes
universitarios.
Objetivo: Desarrollar un sistema de detección de palabras complejas en español aplicando
estrategias de simplificación léxica para contribuir a la comprensión lingüística de los
estudiantes de la Carrera de Software de la Facultad de Ciencias Matemáticas y Física de la
Universidad de Guayaquil.
Encuesta N°: 1 *Obligatorio
CONOCIENDO AL ENCUESTADO*
1) ¿Cuál es tu nombre? ___________________
2) ¿Presentas algún problema de recepción o comprensión de datos? *
SI NO PREFIERO NO CONTESTAR
Si tu respuesta fue NO, menciona cual. * ________________
PREGUNTAS
1) ¿Te gusta leer? *
SI NO A VECES
¿Por qué no te gusta leer? * ___________________
2) ¿Comprendes lo que lees? *
SI NO A VECES
3) ¿Consideras que el contenido de los textos académicos tiene ciertas palabras que no conoces?
*
SI NO
4) ¿Te gustaría que mediante un aplicativo el contenido de un texto pueda ser transformado en
otro que sea fácil de comprender? *
SI NO
5) ¿Te gustaría mediante un aplicativo conocer de forma automática el significado de las palabras
consideradas complejas que están en un texto? *
SI NO
6) ¿Te gustaría que el aplicativo presente de forma automática los sinónimos de las palabras que
te resulten difícil de comprender? *
SI NO
7) ¿Consideras que los estudiantes que tengan bajo nivel de comprensión lectora o posean algún
tipo de discapacidad cognitiva se beneficiarían con este aplicativo? *
SI NO
8) ¿Conoces de un aplicativo que te permita transformar o convertir un texto difícil a otro sencillo
que sea fácil de comprender? *
SI NO
9) Si tu respuesta a la anterior pregunta fue SI, Menciona el aplicativo que conoces. *
___________________________________
10) ¿Te gustaría que este aplicativo pueda ser utilizado por los estudiantes de la UG para facilitar
el aprendizaje de las asignaturas? *
SI NO
91
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FIÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
Proyecto: Sistema de detección de palabras complejas en español aplicando estrategias de
simplificación léxica para contribuir a la comprensión lingüística de los estudiantes
universitarios.
Objetivo: Desarrollar un sistema de detección de palabras complejas en español aplicando
estrategias de simplificación léxica para contribuir a la comprensión lingüística de los
estudiantes de la Carrera de Software de la Facultad de Ciencias Matemáticas y Física de la
Universidad de Guayaquil.
ENCUESTA DE SATISFACCIÓN
Encuesta N°: 2
*Obligatorio
CONOCIENDO AL ENCUESTADO*
1) ¿Cuál es tu nombre? ___________________
PREGUNTAS
1) ¿Consideras que fue de utilidad ver sinónimos de las palabras complejas en el texto? * Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho
2) ¿Consideras que fue de utilidad ver definiciones de las palabras complejas en el texto?
* Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho
3) ¿Consideras que el sistema posee una interfaz sencilla? * Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho
4) ¿Las herramientas que posee el sistema te ayudaron a comprender de mejor manera el
contenido del texto? * Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho
5) ¿Desde el punto de vista de usuario final consideras satisfactorio el desempeño del
sistema? * Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho
6) ¿Estas Satisfecho con el Sistema? * Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho
92
Anexo 6. Validación de expertos.
APELLIDOS Y NOMBRES DEL EXPERTO TÍTULO PROFESIONAL
DEL EXPERTO AUTORES
Lino Castillo Katty Nancy MSc. Sistemas de
Información Gerencial
Néstor Daniel Cruz
Quezada
Joseph Hari
Rodríguez Avellán
TÍTULO DEL PROYECTO
Sistema de detección de palabras complejas en español aplicando estrategias de
simplificación léxica para contribuir a la comprensión lingüística de los estudiantes
universitarios.
Criterios CUMPLE NO CUMPLE
El sistema muestra una interfaz sencilla. X
El sistema permite explorar archivos para su selección. X
El sistema transforma un texto complejo en accesible (es decir, en otro de fácil comprensión para el lector)
X
El sistema guarda el archivo simplificado. X
El sistema brinda un informe detallado sobre el análisis léxico del texto.
X
El sistema aplica estrategias lingüísticas para facilitar la comprensión del lector.
X
El sistema brinda información complementaria a las palabras complejas encontradas.
X
El sistema emplea lenguajes de programación de vanguardia.
X
El sistema es intuitivo de fácil uso. X
El sistema se basa en aspectos teóricos y científicos. X
El sistema emplea estrategias de comprensión léxica (como es el uso de sinónimos, origen de las palabras, definiciones) que aportan al lector en la comprensión lingüística.
X
El sistema hace uso de recursos científicos externos (VYDETU, CREA).
X
El sistema muestra una interfaz sencilla. X
93
94
APELLIDOS Y NOMBRES DEL EXPERTO TÍTULO PROFESIONAL
DEL EXPERTO AUTORES
Freddy David Coto Torres Analista de Sistemas Néstor Daniel Cruz
Quezada
Joseph Hari
Rodríguez Avellán
TÍTULO DEL PROYECTO
Sistema de detección de palabras complejas en español aplicando estrategias de
simplificación léxica para contribuir a la comprensión lingüística de los estudiantes
universitarios.
Criterios CUMPLE NO CUMPLE
El sistema muestra una interfaz sencilla. X
El sistema permite explorar archivos para su selección. X
El sistema transforma un texto complejo en accesible (es decir, en otro de fácil comprensión para el lector)
X
El sistema guarda el archivo simplificado. X
El sistema brinda un informe detallado sobre el análisis léxico del texto.
X
El sistema aplica estrategias lingüísticas para facilitar la comprensión del lector.
X
El sistema brinda información complementaria a las palabras complejas encontradas.
X
El sistema emplea lenguajes de programación de vanguardia.
X
El sistema es intuitivo de fácil uso. X
El sistema se basa en aspectos teóricos y científicos. X
El sistema emplea estrategias de comprensión léxica (como es el uso de sinónimos, origen de las palabras, definiciones) que aportan al lector en la comprensión lingüística.
X
El sistema hace uso de recursos científicos externos (VYDETU, CREA).
X
El sistema muestra una interfaz sencilla. X
95
96
APELLIDOS Y NOMBRES DEL EXPERTO TÍTULO PROFESIONAL
DEL EXPERTO AUTORES
Yépez Paladines Juan Carlos Licenciado en Sistemas
de Información
Néstor Daniel Cruz
Quezada
Joseph Hari
Rodríguez Avellán
TÍTULO DEL PROYECTO
Sistema de detección de palabras complejas en español aplicando estrategias de
simplificación léxica para contribuir a la comprensión lingüística de los estudiantes
universitarios.
Criterios CUMPLE NO CUMPLE
El sistema muestra una interfaz sencilla. X
El sistema permite explorar archivos para su selección. X
El sistema transforma un texto complejo en accesible (es decir, en otro de fácil comprensión para el lector)
X
El sistema guarda el archivo simplificado. X
El sistema brinda un informe detallado sobre el análisis léxico del texto.
X
El sistema aplica estrategias lingüísticas para facilitar la comprensión del lector.
X
El sistema brinda información complementaria a las palabras complejas encontradas.
X
El sistema emplea lenguajes de programación de vanguardia.
X
El sistema es intuitivo de fácil uso. X
El sistema se basa en aspectos teóricos y científicos. X
El sistema emplea estrategias de comprensión léxica (como es el uso de sinónimos, origen de las palabras, definiciones) que aportan al lector en la comprensión lingüística.
X
El sistema hace uso de recursos científicos externos (VYDETU, CREA).
X
El sistema muestra una interfaz sencilla. X
97
98
Anexo 7. Acta de Entrega y Recepción Definitiva
En la ciudad de Guayaquil, a los 14 días del mes de octubre de 2020
Por el presente documento.
Los estudiantes no titulados de la Carrera de Ingeniería en Sistemas Computacionales
Néstor Daniel Cruz Quezada con cédula de identidad N° 0929319879 y Joseph Hari Rodríguez
Avellán con cédula de identidad N° 0920249869 hacemos la entrega del código fuente del
proyecto de titulación a la Dirección de la Carrera de Ingeniería en Sistemas Computacionales
en un medio magnético.
Los códigos del programa/producto que se encargaron por compromiso al estar inserto
en el proceso de titulación desde la fecha 27 de julio de 2020.
Para efectos de dar cumplimiento a la entrega del código fuente, cedo todos los derechos
de explotación sobre el programa y, en concreto, los de transformación, comunicación pública,
distribución y reproducción, de forma exclusiva, con un ámbito territorial nacional.
0929319879
Cruz Quezada Néstor Daniel Cédula de identidad N°
0920249869
Rodríguez Avellán Joseph Hari Cédula de identidad N°
99
Anexo 8. Certificado de Aceptación del Producto
100
Anexo 9. Manual Técnico
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
MANUAL TÉCNICO
SISTEMA DE DETECCIÓN DE PALABRAS COMPLEJAS EN ESPAÑOL
APLICANDO ESTRATEGIAS DE SIMPLIFICACIÓN LÉXICA PARA
CONTRIBUIR A LA COMPRENSIÓN LINGÜÍSTICA DE LOS
ESTUDIANTES UNIVERSITARIOS
AUTORES:
NÉSTOR DANIEL CRUZ QUEZADA
JOSEPH HARI RODRÍGUEZ AVELLÁN
TUTOR:
MSc. JENNY ORTIZ ZAMBRANO
GUAYAQUIL – ECUADOR
2020 - 2021 CICLO I
101
Introducción
Objetivo
Sistema desarrollado para la detección de palabras complejas en español aplicando
estrategias de simplificación léxica para contribuir a la comprensión lingüística de los
estudiantes de la Carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de
la Universidad de Guayaquil.
Requerimientos
Requerimientos Recomendados
• Nvidia GTX 660 o AMD Radeon HD 7870 con DX11 GPU equivalente
• 2 GB de VRAM
• Core i5-7300U 3,5 GHz
• 8 GB de RAM
• Windows 7/8/10 de 64 bits
Requerimientos Mínimos
• Intel HD 4000 en PC o Intel Iris Pro 5200
• 4 GB de RAM
• Core i3-3225 3,3 GHz
• Windows 7/8/10 de 64 bits o versión de macOS 10.14.6
Herramientas y Versiones
Tipo Detalle
Lenguaje de programación Python 3.7.6, JavaScript
Lenguaje de Etiqueta HTML
Entorno de desarrollo Node JS 12.14.1
Framework Electron JS 9.0.0
Framework CSS Material Design Lite V1.3.0
Librería SpaCy 2.3.2, NLTK 3.5, Pattern 3.6,
Gensim 3.8.3, BeautifulSoup4 4.9.1
102
Node JS, Electron JS y Python
La aplicación de Python usa como componente de GUI el Framework JS a través de la
plataforma de desarrollo Node JS, lo que brinda una GUI moderna.
La comunicación de Electron y Python está dada por el módulo de Node JS, child_process
(https://nodejs.org/api/child_process.html) que permite generar procesos secundarios
Arquitectura
Electron JS Python Node JS
103
Los archivos en formato TXT son tomados desde la GUI de Electron JS y en la cual se
puede seleccionar los procesos de análisis que se desee hacer (análisis léxico o simplificación
léxica) los datos se envían a Python por medio del módulo child_process de Node JS.
El código de Python es el corazón del sistema, en él está todo el procesamiento del
lenguaje; para llevar a cabo los procesos de simplificación y análisis léxico Python se alimenta
de cuatros recursos:
• Lista de Frecuencia del Corpus de Referencia Actual: Esta lista originalmente está
en forma TXT (http://corpus.rae.es/lfrecuencias.html) para este sistema, la lista fue
procesada y convertida en formato .csv y formato del sistema local.
• Thesaurus Altervista: API de sinónimos (https://thesaurus.altervista.org/) Requiere de
una Key API para realizar consultas. Tiene un límite de 1000 consultas por día.
• Wiktionary: Diccionario en línea, las consultas no se hacen a través de la API de
WikiMedia, en su lugar este Sistema realiza consultas directamente a la url con el
siguiente formato: https://es.wiktionary.org/wiki/{}?printable=yes, se obtiene el
HTML de la página, se analiza su estructura y se extrae las definiciones.
• Spanish Billion Words: Modelo pre-entrenado para el análisis de similitudes
(https://crscardellino.github.io/SBWCE/), es un archivo en formato .bin forma parte del
sistema local.
• Al finalizar el análisis del texto dato, se devuelve un JSON a la GUI de Electron JS
104
Formato de JSON
Python devuelve los datos en formato JSON, su estructura es la siguiente:
{
"name": "Nombre del archivo",
"list":
[
{
"word": "Palabra compleja",
"lemma": "Lema de la palabra compleja",
"most_similarity": "sinónimo más similar",
"synonyms": [“sinónimo 1”, “sinónimo 2”, “sinónimo N”],
"definitions": [“Definición de la palabra compleja”],
"etymologies": [“Etimología de la palabra compleja”]
},
{
"word": " Palabra compleja ",
"lemma": ""Lema de la palabra compleja ",
"most_similarity": " sinónimo más similar ",
"synonyms": [“sinónimo 1”, “sinónimo 2”, “sinónimo N”],
"definitions": [“Definición de la palabra compleja”],
"etymologies": [“Etimología de la palabra compleja”]
}
],
"text": "Texto completo del archivo procesado",
"time": Tiempo de duración
}
Detalles
• Name: nombre del archivo sin la extensión.
• List: es un arreglo de lista que contiene datos obtenidos en el en el análisis.
• Word: palabra compleja identificada.
• Lemma: lema o raíz de la palabra.
• Most_similarity: sinónimo más similar en el contexto de la palabra compleja.
• Synonyms: un arreglo de todos los sinónimos obtenidos en la consulta.
• Definitions: arreglo que contiene la definición de la palabra.
• Etymologies: origen etimológico de la palabra compleja
• Text: todo el texto del archivo
• Time: tiempo de duración del análisis expresado en segundos
El texto simplificado se almacena en formato JSON para conversar los valores del
análisis y poder ser leído cuando se lo desee sin volver a realizar el análisis.
105
Flujo de procesos de la Simplificación Léxica
El diseño del flujo de proceso es el siguiente:
106
Identificación de palabras complejas
Consiste en determinar las palabras que sean menores a 1000 en el ranking de frecuencia del
CREA, En esta fase también se crea el etiquetado POS, lematización y N-grams.
Generación de sustitutos
Generación de sustitutos o sinónimos a través de la API Thesaurus Altervista; solo acepta
verbos en infinitivo, esta limita a 1000 consultas por días, posteriormente las palabras deben
ser conjugadas y filtrada por su complejidad aplicando el proceso anterior.
Selección de sustitutos
En esta lista se comparan cada uno de los sustitutos con los N-grams para posteriormente sumar
sus valores; el valor más alto es seleccionado con el sustituto idóneo.
Librerías
SpaCy
Librería para Python de procesamiento de lenguaje natural puede ser descargada de su página
oficial (https://spacy.io/) o en el administrador de paquetes de Python:
pip install -U spacy
Requiere del modelo pre entrado es_core_news_sm es posible descargarlo de la siguiente
forma:
python -m spacy download es_core_news_sm
NLTK
Librería para Python para el procesamiento del lenguaje natural
(https://www.nltk.org/install.html)
pip install --user -U nltk
107
Pattern
Librería para Python de procesamiento de lenguaje natural y minería de datos
(https://github.com/clips/pattern) disponible en el administrador de paquetes de Python:
pip install pattern
Gensim
Librería para Python para el modelado datos, indexación de datos y recuperación de similitudes
disponible en el administrador de paquetes de Python:
pip install gensim
BeautifulSoup4
Librería para Python que facilita la lectura de páginas web disponible en el administrador de
paquetes de Python:
pip install beautifulsoup4
108
Anexo 10. Manual de Usuario
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
MANUAL DE USUAIO
SISTEMA DE DETECCIÓN DE PALABRAS COMPLEJAS EN ESPAÑOL
APLICANDO ESTRATEGIAS DE SIMPLIFICACIÓN LÉXICA PARA
CONTRIBUIR A LA COMPRENSIÓN LINGÜÍSTICA DE LOS
ESTUDIANTES UNIVERSITARIOS
AUTORES:
NÉSTOR DANIEL CRUZ QUEZADA
JOSEPH HARI RODRÍGUEZ AVELLÁN
TUTOR:
MSc. JENNY ORTIZ ZAMBRANO
GUAYAQUIL – ECUADOR
2020 - 2021 CICLO I
109
Introducción
Objetivo
Sistema desarrollado para la detección de palabras complejas en español aplicando
estrategias de simplificación léxica para contribuir a la comprensión lingüística de los
estudiantes de la de la Universidad de Guayaquil que pertenecen a la Carrera de Software
de la Facultad de Ciencias Matemáticas y Físicas
Requerimientos
Requerimientos Recomendados
• Nvidia GTX 660 o AMD Radeon HD 7870 con DX11 GPU equivalente
• 2 GB de VRAM
• Core i5-7300U 3,5 GHz
• 8 GB de RAM
• Windows 7/8/10 de 64 bits
Requerimientos Mínimos
• Intel HD 4000 en PC o Intel Iris Pro 5200
• 4 GB de RAM
• Core i3-3225 3,3 GHz
• Windows 7/8/10 de 64 bits o versión de macOS 10.14.6
Opciones del Sistema
El presente Manual está organizado de acuerdo con la secuencia a continuación detallada
• Ingreso al sistema (Pantalla Principal)
• Archivos agregados.
• Menú Contextual
• Leer (Visualizador de archivos)
• Análisis léxico
• Simplificación léxica.
110
Ingreso al Sistema (Pantalla Principal)
Al iniciar el sistema esta pantalla se mostrará ante el usuario.
En esta pantalla podremos ver al iniciar el sistema el apartado de agregados.
El botón del lado izquierdo será el encargado de abrir un navegador
de archivos para poder añadir los textos en formato .txt que después serán procesados.
En el lado izquierdo se cuenta con un dashboard que nos deja ver 2 opciones.
• Agregados, en esta se mostrarán los archivos que fueron agregados al sistema.
• Simplificados, aquí se muestran los archivos que fueron simplificados por el sistema.
111
Archivos Agregados
Una vez hemos seleccionado los archivos que se agregarán al sistema, estos se mostrarán en la
sección “Agregados”.
Nota: Solo se podrán agregar archivos con extensión “.txt”.
Los textos agregados estarán identificados por su nombre y se mostrarán en formas de mosaicos
ordenados de forma alfabética.
En esta sección podremos apreciar que el sistema brinda la facilidad de “Seleccionar todos”
los archivos, así como seleccionar cada uno de manera individual con un apartado tipo
checkbox que se encuentra en la esquina superior izquierda de cada archivo. Al tener
seleccionado uno o todos los archivos podremos hacer uso de la opción “Eliminar”.
En caso de Eliminar archivos de uno en uno no emergerá ningún mensaje o ventana de
advertencia, pero si hace uso de la opción de eliminar todos al ser esta una operación critica se
mostrará en pantalla un mensaje de advertencia el cual le preguntará al usuario si se encuentra
seguro de eliminar todos los archivos seleccionados.
112
Menú Contextual
Los archivos agregados cuentan con un menú contextual que podrá ser desplegado al dar clic
derecho en uno de ellos.
El menú contextual contara con las siguientes funciones.
113
• Leer: Esta opción nos permitir visualizar el contenido del archivo.
• Análisis Léxico: Se muestran tablas que describen las métricas de la complejidad léxica
que fueron aplicadas al texto.
• Simplificar Texto: Esta opción nos permitirá simplificar el texto seleccionado
convirtiéndolo en un texto mucho más fácil de leer y comprender.
Leer (Visualizador del Archivo)
Para acceder a esta opción hay dos formas.
1) Clic derecho en el archivo y luego clic en la opción “Leer”.
2) Doble clic en el archivo que se desee visualizar.
Una vez dentro del visualizador se abrirá una pestaña con el nombre del archivo, dentro de ella
podremos desplazarnos con el scroll del mouse o ir a una página especifica del documento así
mismo encontraremos un apartado tipo combo box en donde están las opciones de zoom.
114
Nota: El sistema asigna automáticamente el formato al texto.
Análisis Léxico
Al escoger la Opción del análisis léxico nos aparecerá la siguiente barra de progreso, la cual
desaparecerá inmediatamente después de que el análisis léxico haya culminado.
Dependiendo del tamaño del archivo puede tardar más o menos minutos en culminar el análisis
léxico.
115
Una vez culminado el análisis se despliega una ventana que nos muestra Legibilidad del texto
y el Detalle de las Métricas que fueron aplicadas.
• Complejidad Léxica: Valor que indica la complejidad de un texto.
• Palabras de baja frecuencia: Indica el número de palabras de poco uso.
• Índice de baja frecuencia: Valor que representa las palabras de baja frecuencia.
• Palabras de contenido: Son sustantivos, verbos, adjetivos y adverbios.
• Palabras de contenido distintas: Indica el número de palabras de contenido sin
considerar el número de veces que se repitan en el texto.
• Índice de Distribución léxica: Este valor indica cómo se distribuyen las palabras de
contenido distintas por oración.
116
Simplificación Léxica
Al escoger la opción de simplificación léxica se mostrará a continuación un texto nuevo mucho
más fácil de leer y comprender al utilizar sinónimos más sencillos sin alterar el sentido del
texto.
Las palabras que fueron reemplazadas se muestran resaltadas de un color distintivo.
Al pasar el mouse por la palabra reemplazada se desplegará una ventana que nos detalla la
palabra original, el lema, otros sinónimos, su etimología y su definición.