Download pdf - UNIVERSIDAD DE GUAYAQUILrepositorio.ug.edu.ec/bitstream/redug/49593/1/B-CISC-PTG...Nombre del Estudiante: Néstor Daniel Cruz Quezada Dirección: Durán, Av. Samuel Cisneros Primero

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS

CARRERA DE INGENIERÍA EN SISTEMAS

COMPUTACIONALES

SISTEMA DE DETECCIÓN DE PALABRAS COMPLEJAS EN ESPAÑOL APLICANDO

ESTRATEGIAS DE SIMPLIFICACIÓN LÉXICA PARA CONTRIBUIR A LA

COMPRENSIÓN LINGÜÍSTICA DE LOS ESTUDIANTES

UNIVERSITARIOS

PROYECTO DE TITULACIÓN

Previa a la obtención del Título de:

INGENIERO EN SISTEMAS COMPUTACIONALES

AUTORES:

NÉSTOR DANIEL CRUZ QUEZADA

JOSEPH HARI RODRÍGUEZ AVELLÁN

TUTORA:

MSc. JENNY ORTIZ ZAMBRANO

GUAYAQUIL – ECUADOR

2020 - 2021 CICLO

I

REPOSITORIO NACIONAL EN CIENCIAS Y TECNOLOGÍAS

FICHA DE REGISTRO DE TRABAJO DE TITULACIÓN

TÍTULO: “Sistema de Detección de Palabras Complejas en Español Aplicando Estrategias de

Simplificación Léxica para Contribuir a la Comprensión Lingüística de los Estudiantes Universitarios”

AUTORES:

Néstor Daniel Cruz Quezada

Joseph Hari Rodríguez Avellán

REVISORA:

PhD. Elsy Rodríguez Revelo

INSTITUCIÓN: Universidad de Guayaquil FACULTAD: Ciencias Matemáticas y Físicas

CARRERA: Ingeniería en Sistemas Computacionales

FECHA DE PUBLICACIÓN: 14 de octubre de 2020

N° DE PAGS: 138

AREA TEMÁTICA: Procesamiento de lengua natural

PALABRAS CLAVES: Simplificación léxica, palabras complejas, procesamiento del lenguaje natural.

RESUMEN: El presente proyecto de titulación abordó la problemática referente a la complejidad con

la que están escritos los textos académicos y la dificultad que presentan los estudiantes al no comprender

su contenido. Esto puede obedecer a diferentes factores, tales como: el empleo de un vocabulario

especializado, uso de palabras poco frecuentes, oraciones muy largas, entre otros, lo cual se torna en una

barrera para el aprendizaje. El objetivo de este proyecto fue desarrollar un software de simplificación

léxica para aportar a la comprensión lingüística de los estudiantes de la Carrera de Software de la

Facultad de Ciencias Matemáticas y Físicas de la Universidad de Guayaquil. La Simplificación Léxica

consiste en la sustitución de las palabras complejas por su sinónimo más simple convirtiendo un texto a

otro más fácil de comprender. Se aplicó la metodología de desarrollo Scrum en la cual se elabora un

producto mediante ciclos de desarrollo cortos. La población y muestra se tomó de la carrera antes

mencionada, en el período 2020 – 2021 CI, para la recolección de datos se realizaron dos encuestas, la

primera demostró que el 90% de los encuestados consideran que los textos académicos contienen

palabras que no conocen, además, el 49% de los encuestados indicaron tener algún tipo de problema de

recepción o comprensión de datos, visibilizando la existencia de la problemática. La segunda fue la

encuesta de satisfacción la cual demostró que el 88% de los encuestados consideran que la herramienta

desarrollada fue de gran ayuda para comprender mejor los textos. Estos resultados contestan a la

pregunta científica planteada en este proyecto, pues el sistema desarrollado aportó una solución que

disminuye la barrera que presentan los estudiantes con los textos académicos complejos.

Palabras clave: Simplificación léxica, palabras complejas, procesamiento del lenguaje natural.

N° DE REGISTRO: N° DE CLASIFICACIÓN:

DIRECCIÓN URL: (PROYECTO DE TITULACION EN LA WEB)

ADJUNTO PDF SI NO

CONTACTO CON AUTORES:



Teléfono:

0996774598

0979258167

Email:

[email protected]

[email protected]

CONTACTO DE LA INSTITUCIÓN Nombre: Ab. Juan Chávez Atocha

Teléfono: 2307729

Email: [email protected]

X

II

APROBACIÓN DEL TUTOR

En mi calidad de Tutor(a) del Trabajo de Titulación, “SISTEMA DE DETECCIÓN DE

PALABRAS COMPLEJAS EN ESPAÑOL APLICANDO ESTRATEGIAS DE

SIMPLIFICACIÓN LÉXICA PARA CONTRIBUIR A LA COMPRENSIÓN LINGÜÍSTICA

DE LOS ESTUDIANTES UNIVERSITARIOS” elaborado por los Sres. NÉSTOR DANIEL

CRUZ QUEZADA y JOSEPH HARI RODRÍGUEZ AVELLÁN, estudiantes no titulados

de la Carrera de Ingeniería en Sistemas Computacionales, Facultad de Ciencias Matemáticas y

Físicas de la Universidad de Guayaquil, previo a la obtención del Título de Ingeniero en

Sistemas Computacionales, me permito declarar que luego de haber orientado, estudiado y

revisado, la apruebo en todas sus partes.

Atentamente,

MSc. Jenny Ortiz Zambrano.

TUTORA

III

DEDICATORIA

Dedico esta tesis a mi madre que me ha brindado

su apoyo incondicional y con mucho esfuerzo me

ha acompañado día y noche en este largo camino

para alcanzar mis metas académicas.


A Dios, a mis padres por haberme forjado como

la persona que soy, a mi hermana por apoyarme

en todo, a quienes hoy están lejos, pero siempre

los llevo en mi corazón, espero que la fortuna o

el azar me den la oportunidad de volverlos a ver.

Sin ustedes nada hubiese sido posible.


IV

AGRADECIMIENTO

Agradezco a mi madre, tíos y hermanos quienes me han

apoyado y alentado de forma constante en mi preparación

académica y personal. Agradezco también a MSc. Jenny

Ortiz que con su experiencia, conocimiento y dedicación

guío el desarrollo de esta tesis.


Agradezco a Dios, a mis padres por ser un pilar

fundamental en mi vida, a todas las personas que

aportaron su granito de arena para que este momento sea

una realidad. Agradezco de manera muy especial a la

MSc. Jenny Ortiz quien además de apoyarme de manera

personal e institucional dirigió esta tesis, y me alentó a

concluir el presente proyecto.


V

TRIBUNAL PROYECTO DE TITULACIÓN

Ing. Fausto Cabrera Montes, M.Sc.

DECANO DE LA FACULTAD

CIENCIAS MATEMÁTICAS Y FÍSICAS

Ing. Gary Reyes Zambrano, Mgs.

DIRECTOR DE LA CARRERA DE

INGENIERÍA EN SISTEMAS

COMPUTACIONALES

MSc. Jenny Ortiz Zambrano

PROFESORA TUTORA DEL PROYECTO

DE TITULACIÓN

PhD. Elsy Rodríguez Revelo

PROFESORA REVISORA DEL

PROYECTO

DE TITULACIÓN

Ab. Juan Chávez Atocha, Esp.

SECRETARIO

VI

DECLARACIÓN EXPRESA

“La responsabilidad del contenido de este Proyecto de

Titulación, nos corresponde exclusivamente; y el

patrimonio intelectual de la misma a la UNIVERSIDAD

DE GUAYAQUIL”.



VII

CESIÓN DE DERECHOS DE AUTOR

Ingeniero

Fausto Cabrera Montes, M.Sc.

DECANO DE LA FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS

Presente.

A través de este medio indico a usted que procedo a realizar la entrega de la cesión de

derechos de autor en forma libre y voluntaria del trabajo de titulación “SISTEMA DE

DETECCIÓN DE PALABRAS COMPLEJAS EN ESPAÑOL APLICANDO ESTRATEGIAS

DE SIMPLIFICACIÓN LÉXICA PARA CONTRIBUIR A LA COMPRENSIÓN

LINGÜÍSTICA DE LOS ESTUDIANTES UNIVERSITARIOS”, realizado como requisito

previo para la obtención del Título de Ingeniero en Sistemas Computacionales de la

Universidad de Guayaquil.

Guayaquil, 14 de octubre de 2020


C.I. N° 0929319879


C.I. N° 0920249869

VIII



CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES



COMPRENSIÓN LINGÜÍSTICA DE LOS ESTUDIANTES UNIVERSITARIOS

Proyecto de Titulación que se presenta como requisito para optar por el título de

INGENIERO EN SISTEMAS COMPUTACIONALES

Autores: Néstor Daniel Cruz Quezada

C.I. N° 0929319879


C.I. N° 0920249869

Tutora: MSc. Jenny Ortiz Zambrano


IX

CERTIFICADO DE ACEPTACIÓN DEL TUTOR

En mi calidad de Tutora del Proyecto de Titulación, nombrado por el Consejo Directivo de la

Facultad de Ciencias Matemáticas y Físicas de la Universidad de Guayaquil.

CERTIFICO:

Que he analizado el Proyecto de Titulación presentado por los estudiantes NÉSTOR

DANIEL CRUZ QUEZADA y JOSEPH HARI RODRÍGUEZ AVELLÁN, como requisito

previo para optar por el Título de Ingeniero en Sistemas Computacionales cuyo proyecto es:

SISTEMA DE DETECCIÓN DE PALABRAS COMPLEJAS EN ESPAÑOL

APLICANDO ESTRATEGIAS DE SIMPLIFICACIÓN LÉXICA PARA

CONTRIBUIR A LA COMPRENSIÓN LINGÜÍSTICA DE LOS ESTUDIANTES

UNIVERSITARIOS

Considero aprobado el trabajo en su totalidad.

Presentado por:

0929319879

Cruz Quezada Néstor Daniel Cédula de identidad N°

0920249869

Rodríguez Avellán Joseph Hari Cédula de identidad N°

Tutora: ____________________________

Firma


X




AUTORIZACIÓN PARA PUBLICACIÓN DE PROYECTO DE TITULACIÓN EN

FORMATO DIGITAL

1. Identificación del Proyecto de Titulación

Nombre del Estudiante: Néstor Daniel Cruz Quezada

Dirección: Durán, Av. Samuel Cisneros Primero de mayo y Los Ríos

Teléfono: 0996774598 Email: [email protected]

Nombre del Estudiante: Joseph Hari Rodríguez Avellán

Dirección: Alborada Décima etapa Mz. 503 villa 24

Teléfono: 0979258167 Email: [email protected]

Facultad: Ciencias Matemáticas y Físicas

Carrera: Ingeniería en Sistemas Computacionales

Proyecto de Titulación al que opta: Desarrollo

Profesora Tutora: MSc. Jenny Ortiz Zambrano

Título del Proyecto de Titulación: Sistema de Detección de Palabras Complejas en Español Aplicando

Estrategias de Simplificación Léxica para Contribuir a la Comprensión Lingüística de los Estudiantes

Universitarios

Palabras Claves: Simplificación léxica, sistema identificador, palabras complejas

2. Autorización de Publicación de Versión Electrónica del Proyecto de Titulación

A través de este medio autorizo a la Biblioteca de la Universidad de Guayaquil y a la Facultad de Ciencias

Matemáticas y Físicas a publicar la versión electrónica de este Proyecto de Titulación.

Publicación Electrónica:

Inmediata X Después de 1 año

Firma Estudiante:

0929319879


0920249869


3. Forma de envío:

El texto del Proyecto de Titulación debe ser enviado en formato Word, como archivo .docx, .RTF o Puf

para PC. Las imágenes que la acompañen pueden ser: .gif, .jpg o .TIFF.

DVDROM CDROM

XI

ÍNDICE GENERAL

FICHA DE REGISTRO DE TRABAJO DE TITULACIÓN .................................................................. I

APROBACIÓN DEL TUTOR............................................................................................................... II

DEDICATORIA ................................................................................................................................... III

AGRADECIMIENTO .......................................................................................................................... IV

TRIBUNAL PROYECTO DE TITULACIÓN ...................................................................................... V

DECLARACIÓN EXPRESA ............................................................................................................... VI

CESIÓN DE DERECHOS DE AUTOR .............................................................................................. VII

CERTIFICADO DE ACEPTACIÓN DEL TUTOR............................................................................. IX

AUTORIZACIÓN PARA PUBLICACIÓN DE PROYECTO DE TITULACIÓN EN FORMATO

DIGITAL ............................................................................................................................................... X

ÍNDICE GENERAL ............................................................................................................................. XI

ÍNDICE DE TABLAS ........................................................................................................................ XV

ÍNDICE DE FIGURAS ..................................................................................................................... XVII

ABREVIATURAS .......................................................................................................................... XVIII

SIMBOLOGÍA .................................................................................................................................. XIX

RESUMEN ......................................................................................................................................... XX

ABSTRACT ....................................................................................................................................... XXI

INTRODUCCIÓN .................................................................................................................................. 1

CAPÍTULO I .......................................................................................................................................... 3

PLANTEAMIENTO DEL PROBLEMA ............................................................................................... 3

Descripción de la Situación Problemática .............................................................................................. 3

Ubicación del Problema en un Contexto ............................................................................................ 3

Situación Conflicto Nudos Críticos .................................................................................................... 5

Delimitación del Problema ................................................................................................................. 5

Evaluación del Problema .................................................................................................................... 6

Causas y Consecuencias del Problema ................................................................................................... 7

Formulación del Problema ...................................................................................................................... 7

XII

Objetivos del Proyecto ............................................................................................................................ 8

Objetivo General ................................................................................................................................. 8

Objetivos Específicos ......................................................................................................................... 8

Alcances del Problema ............................................................................................................................ 8

Justificación e Importancia ..................................................................................................................... 9

Limitaciones del Estudio ....................................................................................................................... 10

CAPÍTULO II ....................................................................................................................................... 12

MARCO TEÓRICO .............................................................................................................................. 12

Antecedentes del Estudio ...................................................................................................................... 12

Fundamentación Teórica ....................................................................................................................... 14

Lingüística ........................................................................................................................................ 15

Competencia Lingüística .................................................................................................................. 16

Procesamiento de Lenguaje Natural ................................................................................................. 16

Machine Learning ............................................................................................................................. 16

Corpus de Referencia del Español Actual ........................................................................................ 16

Métricas de Complejidad Léxica ...................................................................................................... 17

Complejidad Léxica ..................................................................................................................... 17

Complejidad de Oraciones ........................................................................................................... 17

Legibilidad de Spaulding ............................................................................................................. 18

Medidas de Rendimiento .................................................................................................................. 19

Matriz de Confusión ..................................................................................................................... 19

Precisión ....................................................................................................................................... 19

Recall............................................................................................................................................ 20

F-Measure .................................................................................................................................... 20

Herramientas Tecnológicas .............................................................................................................. 20

Python .......................................................................................................................................... 20

API ............................................................................................................................................... 20

JavaScript ..................................................................................................................................... 21

JSON ............................................................................................................................................ 21

HTML .......................................................................................................................................... 21

CSS ............................................................................................................................................... 21

Material Design ............................................................................................................................ 21

Node JS ........................................................................................................................................ 22

Framework ................................................................................................................................... 22

XIII

Electron JS ................................................................................................................................... 22

Visual Studio Code ...................................................................................................................... 22

Librería spaCy .............................................................................................................................. 22

Librería NLTK ............................................................................................................................. 23

Librería Pattern ............................................................................................................................. 23

Librería Gensim ........................................................................................................................... 23

Metodologías .................................................................................................................................... 23

Investigación Básica ..................................................................................................................... 23

Investigación Aplicada ................................................................................................................. 24

Scrum ........................................................................................................................................... 24

Pregunta Científica a Contestarse ......................................................................................................... 26

Definiciones Conceptuales .................................................................................................................... 26

CAPÍTULO III ...................................................................................................................................... 28

PROPUESTA TECNOLÓGICA .......................................................................................................... 28

Análisis de Factibilidad ......................................................................................................................... 28

Factibilidad Operacional ................................................................................................................... 28

Factibilidad Técnica ......................................................................................................................... 29

Factibilidad Legal ............................................................................................................................. 30

Factibilidad Económica .................................................................................................................... 30

Metodologías del Proyecto ................................................................................................................... 32

Metodología de Investigación........................................................................................................... 33

Población y Muestra ..................................................................................................................... 33

Procesamiento y Análisis ............................................................................................................. 34

Metodología de Desarrollo de Proyecto ........................................................................................... 46

Scrum ........................................................................................................................................... 46

Roles del Proyecto ........................................................................................................................ 47

Historias de Usuario ..................................................................................................................... 48

Product Backlog ........................................................................................................................... 51

Estimación del Backlog ................................................................................................................ 52

Definición de los Sprint................................................................................................................ 53

Sprint 1 ......................................................................................................................................... 54

Sprint 2 ......................................................................................................................................... 56

Sprint 3 ......................................................................................................................................... 58

Sprint 4 ......................................................................................................................................... 60

XIV

Beneficiarios Directos e Indirectos ....................................................................................................... 62

Directos ............................................................................................................................................. 62

Indirectos .......................................................................................................................................... 62

Entregables del Proyecto ....................................................................................................................... 63

Propuesta ............................................................................................................................................... 63

Criterios de Validación de la Propuesta ................................................................................................ 67

Resultados ............................................................................................................................................. 74

CAPÍTULO IV...................................................................................................................................... 77

CONCLUSIONES Y RECOMENDACIONES .................................................................................... 77

Criterios de Aceptación del Producto o Servicio .................................................................................. 77

Conclusiones ......................................................................................................................................... 78

Recomendaciones ................................................................................................................................. 79

Trabajos Futuros ................................................................................................................................... 80

REFERENCIAS BIBLIOGRÁFICAS .................................................................................................. 81

ANEXOS .............................................................................................................................................. 85

Anexo 1. Planificación de Actividades del Proyecto ....................................................................... 85

Anexo 2. Geo-localización del Problema ........................................................................................ 86

Anexo 3. Fundamentación Legal ...................................................................................................... 87

Anexo 4. Criterios Éticos a Utilizarse en el Desarrollo del Proyecto .............................................. 89

Anexo 5. Formatos de Técnicas de Recolección de Datos Aplicadas para Variables ..................... 90

Anexo 6. Validación de expertos. .................................................................................................... 92

Anexo 7. Acta de Entrega y Recepción Definitiva ........................................................................... 98

Anexo 8. Certificado de Aceptación del Producto ........................................................................... 99

Anexo 9. Manual Técnico............................................................................................................... 100

Anexo 10. Manual de Usuario ........................................................................................................ 108

XV

ÍNDICE DE TABLAS

Tabla 1 Delimitación del Problema ......................................................................................... 5

Tabla 2 Causas y consecuencias del problema ........................................................................ 7

Tabla 3 Índice de legibilidad de Spaulding ........................................................................... 18

Tabla 4 Matriz de confusión................................................................................................... 19

Tabla 5 Etiquetado POS ......................................................................................................... 26

Tabla 6 Recursos Tecnológicos.............................................................................................. 29

Tabla 7 Talento humano ........................................................................................................ 30

Tabla 8 Costos de hardware .................................................................................................. 31

Tabla 9 Costos de software .................................................................................................... 31

Tabla 10 Gastos adicionales .................................................................................................. 32

Tabla 11 Costo del proyecto .................................................................................................. 32

Tabla 12 Pregunta 1: Tabla de frecuencias ........................................................................... 36









Tabla 21 Pregunta 10: Tabla de frecuencias ......................................................................... 45

Tabla 22 Roles del proyecto ................................................................................................... 47

Tabla 23 Historia de usuario N° 1 ......................................................................................... 48



XVI

Tabla 26 Historia de usuario 4 .............................................................................................. 49






Tabla 32 Product backlog ...................................................................................................... 51

Tabla 33 Criterios de estimación ........................................................................................... 52

Tabla 34 Estimación del Sprint N° 1 ...................................................................................... 52




Tabla 38 Taskboard al finalizar el Sprint N° 1 ...................................................................... 54










Tabla 48 Evaluación del identificador ................................................................................... 75

Tabla 49 Criterios de aceptación ........................................................................................... 77

XVII

ÍNDICE DE FIGURAS

Figura 1 Pregunta 1: Análisis Gráfico .................................................................................. 36

Figura 2 Pregunta 2: Análisis gráfico ................................................................................... 37








Figura 10 Pregunta 10: Análisis gráfico ............................................................................... 45

Figura 11 Flujo de procesos .................................................................................................. 47

Figura 12 Burndown chart del Sprint N° 1 ............................................................................ 55




Figura 16 Arquitectura del sistema ........................................................................................ 64

Figura 17 Pregunta 1: Análisis gráfico ................................................................................. 68






XVIII

ABREVIATURAS

BGU Bachillerato General Unificado

CREA Corpus de Referencia del Español Actual

CSS Hoja de Estilo en Cascada

GUI Interfaz Gráfica de Usuario

HTML Lenguaje de Marca de salida de Hyper Texto

IA Inteligencia Artificial

Ing. Ingeniero

MSc. Máster

NEE Necesidades educativas especiales

NLTK Herramientas de Lenguaje Natural

NMC Nivel Mínimo de Competencia

OCDE Organización para el Desarrollo Económico

PLN Procesamiento de Lenguaje Natural

SEPLN Sociedad Española para el Procesamiento del Lenguaje Natural

UG Universidad de Guayaquil

UIS Instituto de Estadística de la UNESCO

UNESCO Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura

VYTEDU Video y Texto Educativos

XIX

SIMBOLOGÍA

ASL Longitud Promedio de Oración (Anula)

cs Oraciones complejas

cw Palabra compleja

D Coeficiente de densidad

e Margen de error

FN Falso Negativo

FP Falso Positivo

k Nivel de confianza

L Longitud promedio de oración (Spaulding)

LC Complejidad Léxica

LDI Índice de distribución léxica

ILFW Índice de Palabra de Baja Frecuencia

N Población

N(cs) Número de oraciones complejas

N(dcw) Número de palabras de contenido

N(lfw) Número de palabras de baja frecuencia

N(s) Número de oraciones

N(w) Número de palabras

n Muestra

p Probabilidad de éxito

q Probabilidad de fracaso

SCI Índice de oración compleja

SSR Legibilidad en Español de Spaulding

VN Verdadero Negativo

VP Verdadero Positivo

XX








C.I. N° 0929319879


C.I. N° 0920249869


RESUMEN

El presente proyecto de titulación abordó la problemática referente a la complejidad con la que

están escritos los textos académicos y la dificultad que presentan los estudiantes al no

comprender su contenido. Esto puede obedecer a diferentes factores, tales como: el empleo de

un vocabulario especializado, uso de palabras poco frecuentes, oraciones muy largas, entre

otros, lo cual se torna en una barrera para el aprendizaje. El objetivo de este proyecto fue

desarrollar un software de simplificación léxica para aportar a la comprensión lingüística de

los estudiantes de la Carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de

la Universidad de Guayaquil. La Simplificación Léxica consiste en la sustitución de las

palabras complejas por su sinónimo más simple convirtiendo un texto a otro más fácil de

comprender. Se aplicó la metodología de desarrollo Scrum en la cual se elabora un producto

mediante ciclos de desarrollo cortos. La población y muestra se tomó de la carrera antes

mencionada, en el período 2020 – 2021 CI, para la recolección de datos se realizaron dos

encuestas, la primera demostró que el 90% de los encuestados consideran que los textos

académicos contienen palabras que no conocen, además, el 49% de los encuestados indicaron

tener algún tipo de problema de recepción o comprensión de datos, visibilizando la existencia

de la problemática. La segunda fue la encuesta de satisfacción que demostró que el 88% de la

muestra encuestada considera que la herramienta desarrollada es de gran ayuda para

comprender mejor los textos académicos. En conclusión, el aplicativo creado aporta una

solución que disminuye la barrera que presentan los estudiantes en la comprensión de textos

académicos.

Palabras clave: Simplificación léxica, palabras complejas, procesamiento del lenguaje natural.

XXI








C.I. N° 0929319879


C.I. N° 0920249869


ABSTRACT

The present degree project addressed the problem regarding the complexity with which

academic texts are written and the difficulty that students present when not understanding their

content. This can be due to different factors, such as: the use of a specialized vocabulary, use

of infrequent words, very long sentences, among others, which becomes a barrier to learning.

The objective of this project was to develop lexical simplification software to contribute to the

linguistic understanding of the students of the Software Career of the Faculty of Mathematical

and Physical Sciences of the University of Guayaquil. Lexical Simplification consists of

substituting complex words for their simplest synonym, converting a text to another easier to

understand. The Scrum development methodology was applied in which a product is made

through short development cycles. The population and sample was taken from the

aforementioned career, in the period 2020 - 2021 CI, for data collection, two surveys were

carried out, the first one showed that 90% of the respondents consider that academic texts

contain words they do not know, in addition, 49% of the respondents indicated having some

type of reception or comprehension problem. data, making the existence of the problem visible.

The second was the satisfaction survey that showed that 88% of the surveyed sample considers

that the tool developed is of great help to better understand academic texts. In conclusion, the

application created provides a solution that reduces the barrier presented by students in

understanding academic texts.

Key words: Lexical simplification, complex words, natural language processing.

1

INTRODUCCIÓN

La forma en la que están escritos los textos académicos, para muchos estudiantes,

resulta difícil de comprender, creando una barrera en el aprendizaje en aquellos que presentan

limitadas competencias lingüísticas, necesidades educativas especiales (NEE), extranjeros,

entre otros. (Saggion et al., 2015)

En Latinoamérica el 36% de los niños y adolescentes no alcanzan el nivel mínimo de

competencia (NMC) en lectura (Instituto de Estadística de la UNESCO, 2017). En el Ecuador

el 16,9% de los estudiantes que rinden el examen de admisión a las universidades, obtienen

una calificación insuficiente en el dominio lingüístico (Instituto Nacional de Evaluación

Educativa, 2018), estos resultados muestran la necesidad de mejorar la calidad de educación

tanto a nivel regional como nacional.

Una forma de mitigar este problema es la simplificación de los textos, la técnica más

recurrente para esta tarea es sustituir las palabras complejas por un sinónimo más simple, en

un contexto determinado (Saggion et al. 2015). Este proceso de simplificación léxica se

subdivide en tres etapas: Identificación de palabras complejas, generación de sustitutos y

selección de sustitutos (Paetzold y Specia, 2015). El presente trabajo de titulación sigue este

mismo enfoque para desarrollar un sistema de detección automática de palabras difíciles

dirigido al lenguaje español, apoyándose, además, de recursos lingüísticos gratuitos y así

transformar textos complejos a accesibles para contribuir a la competencia lingüística de los

estudiantes.

Uno de los recursos fundamentales para la creación del sistema de simplificación léxica

fue el corpus VYTEDU (Videos y Transcripciones en el ámbito Educativo), el cual posee 55

archivos provenientes de transcripciones de videos académicos realizados dentro de las aulas

de varias carreras de la Universidad de Guayaquil (Ortiz y Montejo, 2017). Estos archivos de

textos fueron analizados con la finalidad de poder identificar cuáles son las palabras complejas.

2

Para poder determinar qué palabra es difícil, se hace uso de otro recurso, el VYTEDU-CW

(Videos y Transcripciones en el ámbito Educativo-Complex Word), está compuesto de las

palabras que fueron identificadas y anotadas como difíciles, por estudiantes universitarios,

realizado en los textos del corpus VYTEDU. (Zambrano et al., 2019)

A continuación, se detallan los capítulos que componen esta investigación:

• Capítulo I: Se describe la problemática general, el contexto que la rodea, sus causas y

consecuencias, se establece los objetivos del proyecto, así como sus alcances y

limitaciones.

• Capítulo II: Se muestran las investigaciones previas que sirven como antecedentes de

estudio en la actual investigación, también brinda todos los conceptos en los que se

fundamentan este proyecto.

• Capítulo III: Aquí se describe la propuesta tecnológica para solventar la problemática

establecida en el capítulo I y la factibilidad del mismo, además se muestra de forma

detallada la metodología tanto de investigación y de desarrollo que sigue este proyecto.

• Capítulo IV: Muestra los criterios de aceptación del prototipo, las conclusiones y

recomendaciones que se obtuvieron a partir de la investigación y ejecución del proyecto

3

CAPÍTULO I

PLANTEAMIENTO DEL PROBLEMA

Descripción de la Situación Problemática

Ubicación del Problema en un Contexto

El Instituto de Estadística de la UNESCO (UIS) en el año 2017 presentó datos

alarmantes donde más de 617 millones de niños y adolescentes no están alcanzando los niveles

mínimos de competencia (NMC), esto quiere decir que no son capaces de leer o realizar

matemáticas básicas con competencia, en los datos por región de la UIS, indica que América

Latina y el Caribe el 36% de niños y adolescentes no alcanzan los NMC en lectura.

El 16,9% de los estudiantes de 3. ° del Bachillerato General Unificado (BGU), que

rinden el examen Ser Bachiller en el Ecuador, poseen una calificación insuficiente en el área

del dominio lingüístico y el 41,6% una calificación regular; en la provincia del Guayas el 41,9

% de los estudiantes aprueban el examen con la nota mínima y el 32,3% lo reprueba. (Instituto

Nacional de Evaluación Educativa, 2018)

Esto deja en evidencia que el rendimiento de los estudiantes es regular y que el

porcentaje de personas que presentan dificultades en el dominio lingüístico es un valor a

considerar y que debe ser tomado en cuenta para proyectos inclusivos con el fin de disminuir

este porcentaje.

Los estudiantes con Necesidades Educativas Especiales de los países que conforman la

Organización para el Desarrollo Económico (OCDE), representan solo una pequeña parte de

la población universitaria, es decir, siguen estando subrepresentados en la educación superior.

(Naciones Unidas, 2015)

4

La Convención de los derechos humanos de las personas con discapacidad en su Art. 2

declara entre otras cosas, que la comunicación debe incluir dispositivos multimedia de fácil

acceso, visualización de textos, los sistemas auditivos, los sistemas de voz digitalizada, y otros

modos, medios y formatos aumentativos, o alternativos de comunicación, incluida las

tecnologías de información y comunicación de fácil acceso.

La Constitución de la República del Ecuador (2013) contempla en el Art. 26 el deber

ineludible e inexcusable del estado de garantizar el derecho a la educación para todas las

personas a lo largo de su vida. Además, en el Ecuador se busca la inclusión, maximizando la

presencia, la participación y el éxito académico de todos los estudiantes, respondiendo a la

diversidad de las necesidades. (Ministerio de Educación, 2016)

En la Universidad de Guayaquil, la inclusión es una realidad, pero la institución no

posee los recursos tecnológicos, ni los especialistas necesarios para poder realizar un

acompañamiento a los estudiantes que presentan dificultades o poseen algún tipo de

impedimentos que dificultan su aprendizaje.

Torunoglu-Selamet et al., (2016) Afirman que los textos académicos están

desarrollados con un vocabulario sofisticado y especializado, además de usar oraciones

estructuradas de manera compleja, lo que provoca una barrera en el aprendizaje de los

estudiantes que tienen una limitada competencia lingüística y más aún en los que tienen una

discapacidad intelectual.

La comunicación habitual de los jóvenes suele ser con oraciones simples y de fácil

entendimiento, por lo que enfrentarse a textos académicos con un alto nivel léxico, hará que

los estudiantes no comprendan a plenitud su contenido. (Torunoglu-Selamet et al., 2016).

Este escenario provocará que los estudiantes no lleven un correcto desarrollo

académico, afectando gravemente su futuro como profesionales.

5

Situación Conflicto Nudos Críticos

En la Carrera de Software como en otras carreras de las distintas facultades de la

Universidad de Guayaquil, existen estudiantes que presentan limitadas competencias

lingüísticas y otros con necesidades educativas especiales (NEE), entre las cuales se puede

mencionar, las NEE permanentes como la discapacidad intelectual, discapacidad física,

discapacidad visual, las NEE transitorias como la dislexia, entre otros.

La Carrera de Software posee un área para la atención de estudiantes con NEE, cuya

denominación es Bienestar Estudiantil. El trabajo que realizan los docentes encargados de esta

área es netamente llevar un control y seguimiento a los estudiantes que presentan algún tipo de

NEE o que están cursando su tercera matrícula, es decir, seguimiento a los estudiantes que

están propensos a perder la carrera; cabe recalcar que los estudiantes con limitadas

competencias lingüísticas no están comprendidos en este conglomerado, sin embargo, forman

parte de la problemática, estos últimos pueden pasar desapercibidos pues en ocasiones

presentan niveles moderados o leves de competencia lingüística. A todo esto, se suma que hasta

el momento no cuentan con ningún tipo de herramienta tecnológica que aporten al aprendizaje

de estas personas.

Delimitación del Problema

Tabla 1

Delimitación del Problema

Delimitador Descripción

Campo Simplificación Automática de Texto

Área Simplificación Léxica

Aspecto Desarrollo de Sistemas

Tema

Sistema de detección de palabras complejas en español

aplicando estrategias de simplificación léxica para contribuir a

la comprensión lingüística de los estudiantes universitarios.

Nota: La tabla contiene las delimitaciones de la problemática. Elaboración: Néstor Daniel Cruz Quezada y

Joseph Hari Rodríguez Avellán. Fuente: Datos de la Investigación.

6

Evaluación del Problema

• Concreto: El sistema logrará la transformación de textos complejos a accesibles los

cuales permitirán contribuir a la comprensión lingüística de los estudiantes

universitarios.

• Delimitado: Las experimentaciones se realizaron basadas en un corpus de archivos de

texto de transcripciones de videos académicos realizados dentro de las aulas de

diferentes carreras que conforman la universidad de Guayaquil. El corpus se denomina

VYTEDU.

• Claro: La dificultad que tienen estudiantes universitarios al leer textos académicos con

contenido complejo.

• Evidente: Desde el punto de vista que existe una problemática evidenciada en un

estudio realizado donde se demuestran las barreras en el contenido de las

transcripciones de vídeos que fueron filmados dentro de las aulas de las diferentes

facultades de la Universidad de Guayaquil.

• Relevante: Es importante porque mediante una aplicación informática se puede

transformar un texto, cuyo contenido es complejo, en otro diferente que sea

accesible, contribuyendo a la comprensión lingüística de los estudiantes de la Carrera

de Software logrando derribar las barreras o dificultades que presentan los textos.

• Factible: Este trabajo es posible, viable, realizable porque la totalidad del desarrollo

del software está en herramientas de software libre lo que facilita el desarrollo del

aplicativo propuesto desde su inicio hasta su final.

7

Causas y Consecuencias del Problema

Tabla 2

Causas y consecuencias del problema

Causa Efecto

Textos académicos con contenido

lingüístico complejo.

La información no es comprendida eficazmente

por los estudiantes, especialmente por aquellos

que tienen NEE, limitada competencia

lingüística o desconocimiento del léxico.

Carencia de herramientas informáticas

que contribuyan a los estudiantes en la

compresibilidad del contenido de los

textos, especialmente en aquellos

estudiantes con NEE.

Los estudiantes no pueden despejar sus dudas

de forma inmediata, por lo que su desarrollo

académico presentaría dificultades, dejando

vacíos que podrían ser el punto de partida para

su bajo rendimiento.

Falta de programas de fomento de la

lectura en centros educativos.

Poco interés en la lectura como cultura

educativa.

Dificultades que presentan los estudiantes

en el aprendizaje o asimilación del

contenido de los textos

Olvidar con facilidad la información obtenida

de los textos.

El uso de un vocabulario elegante,

refinado, y especializado con el que

muchos docentes imparten sus clases

Los estudiantes no logran comprender

eficazmente el contenido del tema.

Nota: La tabla indica 5 causas y efectos que producen la no comprensión adecuada de los textos, también se

menciona la falta de herramientas que ayuden a mitigar la problemática de la limitada competencia

lingüística. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de

la Investigación.

Formulación del Problema

Comprender el contenido de los textos es una tarea que para muchas personas les resulta

difícil de realizar. ¿Un sistema de detección de palabras complejas identificará las palabras

dificultosas que contienen los textos académicos en español, y que causan barreras en el

aprendizaje de los estudiantes de la Universidad de Guayaquil?

8

Objetivos del Proyecto

Objetivo General

Desarrollar un sistema de detección de palabras complejas en español aplicando

estrategias de simplificación léxica para contribuir a la comprensión lingüística de los

estudiantes de la Carrera de Software de la Facultad de Ciencias Matemáticas y Física de la


Objetivos Específicos

• Desarrollar un módulo de detección de palabras complejas mediante la utilización del

Corpus de Referencia del Español Actual (CREA), para la identificación de las palabras

difíciles en español del Corpus VYTEDU.

• Analizar los resultados alcanzados de la detección de palabras difíciles mediante la

aplicación de las medidas de rendimiento para determinar la eficacia del identificador

de palabras complejas.

• Aplicar estrategias de simplificación léxica para la transformación de textos complejos

a accesibles.

Alcances del Problema

Este proyecto de titulación busca desarrollar un sistema de detección de palabras

complejas en español aplicando estrategias de simplificación léxica para contribuir a la

comprensión lingüística de los estudiantes universitarios. Tiene los siguientes alcances:

• Desarrollo de un sistema de escritorio, usando framework Electron y el lenguaje de

programación Python.

• Para medir la complejidad de los textos, se usará las métricas de complejidad léxica

propuesta por Anula (2008), Spaulding (1956). Cabe mencionar que la identificación

de palabras complejas es parte de las métricas propuestas por Anula.

9

• El sistema será puesto a prueba y para ello se hará uso del corpus VYTEDU (Videos y

textos educativos) que cuenta con cincuenta y cinco archivos en formato TXT que

fueron transcrito de videos filmados dentro de varias facultades de la universidad de

Guayaquil.

• Para comprobar la efectividad del sistema identificador de palabras complejas, se

tomará como referencia el recurso VYTEDU-CW (Videos y textos educativos -

Palabras complejas) que son las palabras que un grupo de estudiantes, identificaron

como complejas en el Corpus VYTEDU.

• Realizar la sustitución de las palabras complejas con técnicas de simplificación léxica,

mostrar sinónimos y una definición de la palabra compleja.

Justificación e Importancia

La Constitución del Ecuador en el Art. 26 declara a la educación como un derecho de

las personas a lo largo de su vida y un deber ineludible e inexcusable del Estado, lo que significa

que todas las personas tienen derecho a la educación, es decir también es derecho de las

personas con habilidades diferentes.

El artículo 24 de la Convención de las Naciones Unidas sobre los derechos de las

personas discapacitadas estipula que “los Estados Parte asegurará que las personas

discapacitadas puedan acceder a una enseñanza primaria y secundaria inclusiva, de calidad y

gratuita, en igualdad de condiciones con los demás y en las comunidades en que vivan”

(UNESCO, 2017)

El 15% de la población mundial experimenta algún tipo de discapacidad y una quinta

parte de la población mundial estimada en 110 y 190 millones de personas, experimenta

discapacidades significativas. (Moreno et al., 2018)

10

Otro punto a remarcar es el libre acceso a la información, constituido como un derecho

humano; la información a la que se hace mención puede viajar por medios tradicionales

(Periódicos, Libros, Revistas, etc.), digitales, entre otros.

Teniendo en cuenta lo antes mencionado la distribución de la información académica y

científica que viaja específicamente en formato de texto, puede estar escrita de forma compleja

o contener palabras difíciles de entender. Esto, en algunas personas, puede ocasionar una

barrera que dificulta la comprensión de los textos.

Al reducir la dificultad de los textos, aplicando un método de simplificación léxica, se

contribuye en el aprendizaje de las personas que tengan una limitada competencia lingüística,

usando como medio la presentación de sinónimos más simples y definiciones que facilitarán la

comprensión de textos académicos.

Limitaciones del Estudio

• El sistema analizará específicamente los archivos de textos que componen el corpus

VYTEDU teniendo este actualmente un límite de 55 textos transcritos.

• El recurso VYTEDU-CW que será usado para evaluar el rendimiento del sistema, fue

creado con la participación de estudiantes con distintos tipos de formación educativa,

esto ocasiona que algunas palabras sencillas sean etiquetadas como complejas, lo que

podría provocar que el sistema tenga un mayor número de falsos negativos.

• El sistema de simplificación léxica está sujeto a las limitaciones de los servicios web,

por lo que los textos grandes podrían no llegar a simplificarse en su totalidad.

• Al utilizar diferentes recursos tecnológicos, más robustos y complejos, serán necesarios

equipos más potentes, en caso de no disponer de estos últimos podría afectar al

rendimiento del sistema de simplificación léxica.

• No está dirigido para personas con NEE.

11

• Al ser la primera versión de este sistema, no se ha considerado la incorporación de

componentes de software accesibles como: comandos por voz, IA de reconocimiento

de imágenes y entorno gráfico, entre otros.

• No se realizarán pruebas específicas a personas con NEE.

• El proyecto no abarca la etapa de implementación en la Carrera de Software de la

Facultad de Ciencias Matemáticas y Física de la Universidad de Guayaquil.

12

CAPÍTULO II

MARCO TEÓRICO

Antecedentes del Estudio

La simplificación léxica consiste en la transformación de un texto a otro equivalente, el

cual tiene la ventaja de ser mucho más comprensible para el lector (Bott et al., 2012). Debido

a esto, los sistemas de simplificación léxica han aparecido poco a poco, aunque la mayoría de

estos están dedicados al idioma inglés. En el año 2012 se consolidó LexSiS, un sistema de

simplificación léxica el cual hace uso de tres técnicas: modelo vectorial, frecuencia de palabra

y longitud de palabra, con el fin de hallar un sinónimo más simple, además, usa recursos web

libres como diccionarios en línea y corpus en español. (Bott et al., 2012)

Otro sistema dedicado a la simplificación léxica es Simplext que tuvo su aparición en

el año 2015 y toma como base el sistema LexSiS adhiriendo nuevas funcionalidades como la

eliminación de información innecesaria, reescribir números y normalizar verbos, para obtener

una mayor simplificación para el lector. (Saggion et al., 2015)

En el TALN (Natural Language Processing Research Group, Grupo de Investigación

en Procesamiento del Lenguaje Natural, en español) de la Universidad de Pompeu Fabra (UPF)

desarrollaron tecnologías robustas de Procesamiento de Lenguaje Natural (PLN) para producir

versiones simplificadas de documentos, tanto a nivel léxico como sintáctico.

Existe también el VYTEDU-CW (Videos y textos educativos - Palabra compleja), un

corpus en español, contiene las palabras complejas identificadas y etiquetadas por los

estudiantes. Para conformar este corpus se trabajó con estudiantes de diferentes carreras de la

13

Universidad de Guayaquil (UG); se seleccionaron de acuerdo a el nivel de estudios con

respecto al contenido de los textos en el corpus, evitando así que el texto no sea muy fácil para

estudiantes de niveles superiores. (Zambrano et al., 2019)

Este nuevo corpus tuvo su origen en el corpus VYTEDU, cuya demostración se realizó

en el congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)

(Murcia-España, 2017) y en él se llevaron a cabo varios experimentos (Ortiz y Montejo, 2017).

Este trabajo consistió en el reconocimiento y etiquetado de las palabras complejas contenidas

en los diferentes textos que componen el corpus VYTEDU.

Actualmente, VYTEDU-CW está siendo utilizado para continuar avanzando en

investigaciones en el área de la Simplificación Léxica en el campo del PLN, como es el caso

de la primera edición del taller ALexS 2020, siendo un workshop de carácter internacional,

como parte de la segunda edición IberLEF (Iberian Language Evaluation Forum) que se llevará

a cabo en la ciudad de Málaga el 22 de septiembre del año en curso, que ha reunido a

investigadores de varios países del mundo para poder demostrar mediante experimentaciones

científicas, los avances en la identificación de las palabras complejas tomando como referencia

el recurso en español VYTEDU-CW (disponible en https://www.alexs-sepln-

2020.org/evaluation).

En un estudio realizado a 99 personas para medir el efecto que tiene un algoritmo de

simplificación de texto en la comprensión, el aprendizaje y la retención de la información

(Leroy et al., 2013) se encontró que los participantes al leer textos simplificados pudieron

comprender mejor el contenido con un 11% más de respuestas correctas sobre preguntas

relacionadas al texto (63% correctas) en comparación con el texto original (52% correctas). En

cuanto al aprendizaje se obtuvo un 18% más de respuestas correctas después de leer un texto

simplificado, en comparación al original que fue de 9%. Con respecto a la retención de la

14

información no se encontró un efecto estadísticamente significativo después de leer un texto

simplificado.

Este hallazgo muestra los beneficios de la simplificación de un texto generando una

mejor comprensión del contenido y un impacto inmediato en el aprendizaje del mismo.

Fundamentación Teórica

La simplificación léxica de este trabajo consiste en reemplazar palabras consideradas

complejas con un sinónimo más simple. Esta tarea tiene una amplia aplicabilidad como

herramienta de ayuda para las personas con limitada competencia lingüística y como

herramienta de procesamiento del lenguaje natural: la identificación de palabras complejas, la

generación de sinónimos y la selección del sinónimo más simple ajustado al contexto de la

lectura. (Paetzold y Specia, 2016)

Los textos que presentan las instituciones de educación superior pueden llegar a ser

difíciles de leer y comprender por distintos grupos de personas, por ejemplo, personas que

pueden no tener conocimiento suficiente de la gramática y el léxico del lenguaje español, las

personas con trastornos generalizado del desarrollo como el autismo (Štajner et al., 2012), las

personas afásicas (Carroll et al., 1998), o las personas disléxicas (Rello et al., 2013); esto

afectaría negativamente al aprendizaje.

El acceso a la información es un derecho fundamental para todas las personas, en

particular a las personas con NEE, la Convención Sobre los Derechos de las Personas con

Discapacidad, adoptado por las Naciones Unidas en el año 2006, garantiza el acceso a la

información para este grupo de personas, entonces, es necesario que se produzcan textos

lingüísticamente más accesibles para estas personas.

Existen varias iniciativas sobre cómo producir textos accesibles, pero en el idioma

inglés, por ejemplo “Plain Language” o “Plain English” o el “Basic English” (Ogden, 1930),

una especie de inglés con vocabulario reducido y gramática sencilla. Desde hace ya varios años

15

se viene desarrollando para el inglés la Simple English Wikipedia (SEW), una enciclopedia de

acceso libre y en línea que contiene versiones accesibles de artículos de la Wikipedia en inglés,

siguiendo los lineamientos del “Basic English”.

Existen varias organizaciones como, por ejemplo, la Asociación Lectura Fácil que se

dedican a la elaboración de textos que siguen las recomendaciones de la Fácil Lectura

(Tronbacke, 1997). Sin embargo, producir textos accesibles es muy costoso dado el grado de

especialización requerido por los editores de estos contenidos.

La simplificación automática de textos viene siendo estudiada desde los años noventa,

tiene como objetivo la automatización de esta tarea y podría ayudar a hacer más accesibles los

contenidos textuales existentes y futuros.

Dos aspectos son considerados en la simplificación automática de textos: por un lado,

la simplificación léxica en la que se reemplazan las palabras difíciles por sinónimos más

comunes, generalmente utilizando un diccionario de sinónimos, y la simplificación sintáctica

por la cual las oraciones con construcciones lingüísticas complejas se transforman en oraciones

más simples que no utilizan dichas construcciones. También se puede incluir en el proceso de

simplificación, un proceso de resumen del contenido, en el cual las informaciones superfluas

del texto fuente se eliminan dejando solamente las ideas principales del texto. (Chandrasekar,

Doran, & Srinivas, 1996; A. Siddharthan, 2002)

El proyecto Simplext fue el primero en desarrollar este tipo de tecnología de

simplificación de textos para el español financiado por el plan Avanza, Simplext desarrolló

esta herramienta dirigida a personas con síndrome down. (Saggion et al., 2011; Bott y Saggion,

2014)

Lingüística

Disciplina que estudia el lenguaje humano, así como los aspectos históricos y sociales

que la conforman; en sus inicios la lingüística se enfocaba exclusivamente en el análisis

16

gramatical y la manera correcta de hablar una lengua (Hualde et al., 2010); con el pasar de los

años ha ido evolucionando, convirtiéndose en una disciplina que abarca muchas áreas como la

lingüística cognitiva, lingüística computacional, lingüística de corpus, entre otros.

Competencia Lingüística

La competencia lingüística se refiere al conjunto de conocimientos y habilidades que

permite el uso correcto del código oral y escrito con el objetivo de poder escuchar y hablar,

leer y escribir de forma competente (Rayzábal, 2012). Esto es imprescindible para cualquier

individuo de cualquier cultura que busca un desempeño socialmente aceptable tanto a nivel

personal como laboral, pues es necesaria para la convivencia y para el correcto aprendizaje.

Procesamiento de Lenguaje Natural

El procesamiento de lenguaje natural (PLN) son técnicas que le permite a la

computadora interpretar el lenguaje de las personas (lenguaje natural); dentro de sus

aplicaciones están: facilitar el flujo de información entre persona-máquina, mejorar la

comunicación de persona-persona o el estudio de la lingüística. (Matthews, 2016)

Machine Learning

Machine Learning es una rama de la Inteligencia Artificial (IA) que puede definirse

como un método de análisis que otorga a un sistema la capacidad de descubrir patrones,

tendencias y relaciones en los datos de manera autónoma. (SAS, s.f.)

Corpus de Referencia del Español Actual

Corpus de Referencia del Español Actual (CREA) es un recurso lingüístico, compuesto

por textos escritos (libros, periódicos y revistas) y orales (documentos sonoros de audio y

televisión) del cual se puede obtener información sobre las palabras, su significado y su

contexto. (RAE, 2008)

17

Métricas de Complejidad Léxica

Complejidad Léxica

Métrica propuesta por Anula en el año 2007 que mide la complejidad de los textos

literarios. (Saggion et al., 2015)

La fórmula es:

𝐿𝐶 = 𝐿𝐷𝐼 + 𝐼𝐿𝐹𝑊

2

Para calcular ILFW y LDI se aplica las siguientes fórmulas:

𝐼𝐿𝐹𝑊 = 𝑁(𝑙𝑓𝑤)

𝑐𝑤∗ 100

𝐿𝐷𝐼 = 𝑁(𝑑𝑐𝑤)

𝑁(𝑠)

Las palabras de baja frecuencia (lfw) son aquellas palabras cuyo rango de frecuencia

en el Corpus referencial del Español Contemporáneo es inferior a 1000. (Saggion et al., 2015)

Complejidad de Oraciones

Métrica propuesta por Anula (2008), consiste en hallar el número de palabras por

oración y el número de frases complejas por oración. (López et al., 2018)

Su fórmula es:

𝑆𝐶𝐼 = 𝐴𝑆𝐿 + 𝐶𝑆

2

Los valores ASL (Average Sentence Length, Promedio de Longitud Oracional, en

español) y PCS (Percentage Complex Sentence, Porcentaje de Oraciones complejas, en

español) se calcula con las siguientes fórmulas:

𝐴𝑆𝐿 = 𝑁(𝑤)

𝑁(𝑠)

𝑃𝐶𝑆 = 𝑁(𝑐𝑠)

𝑁(𝑠)

18

Una oración compleja (complex sentence, en inglés y abreviado como cs) es aquella

que está compuesta por más dos grupos de verbos adyacentes. (Saggion et al., 2015)

Legibilidad de Spaulding

Esta medida fue propuesta por Spaulding (1959), también es conocida como SSR

(Spaulding’s Spanish Readability). Consiste en evaluar las palabras y las oraciones de un texto

y obtener la dificultad relativa de legibilidad en los textos. (López et al. 2018)

Su fórmula es:

𝑆𝑆𝑅 = 1.609(𝐿) + 331.8(𝐷) + 22.0

L es la longitud promedio de oraciones, este valor se obtiene al dividir el total de

palabras entre el total de oraciones y D es el coeficiente de densidad, para obtener este valor se

debe comprobar si las palabras del texto se encuentran en la Lista de Densidad de Palabras

propuesta por Buchanan y contabilizar solo las que no estén, el resultado obtenido será dividido

entre el número total de palabras en el texto. (Ramsay et al., 1975)

En la Tabla 3 se indican los valores correspondientes al rango de legibilidad de

Spaulding.

Tabla 3

Índice de legibilidad de Spaulding

Índice Dificultad

0-40 Primer nivel elemental

41-60 Muy fácil

61-80 Fácil

81-100 Relativamente fácil

101-120 Difícil

121 o más Sumamente Difícil

Nota: La tabla muestra el rango de dificultad para los índices que se obtienen en la legibilidad de

Spaulding. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: (Ramiro,

1959)

19

Medidas de Rendimiento

Matriz de Confusión

Corso (2009) afirma que “una matriz de confusión nos permite visualizar mediante una

tabla de contingencia la distribución de errores cometidos por un clasificador”. De esta manera

se puede visualizar y clasificar los resultados obtenidos de un sistema clasificador para su

posterior análisis. En la Tabla 4, se muestra el diseño típico de una matriz de confusión.

Tabla 4

Matriz de confusión

Clase real Clase Predicha

Si No

Si VP FN

No FP VN

Nota: Matriz de confusión de dos clases. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez

Avellán. Fuente: (Corso, 2009)

Corso (2009) explica la estructura de la matriz de confusión de la siguiente manera:

• VP (Verdaderos positivos): instancias correctamente reconocidas por el sistema.

• FN (Falsos negativos): instancias que son positivas y que el sistema dice que no lo son.

• FP (Falsos positivos): instancias que son negativas pero el sistema dice que no lo es.

• VN (Verdaderos negativos): instancias que son negativas y correctamente reconocidas

como tales.

Precisión

Mide la exactitud del clasificador al etiquetar un elemento como positivo, es decir, que

porcentaje de elementos etiquetados como positivos son realmente positivos. (Han et al., 2011)

Su fórmula es:

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =𝑇𝑃

𝑇𝑃 + 𝐹𝑃

20

Recall

Mide el porcentaje de positivos etiquetados, es decir, de todos los positivos cuántos

fueron etiquetados correctamente. (Han et al., 2011)

La fórmula es:

𝑟𝑒𝑐𝑎𝑙𝑙 =𝑇𝑃

𝑇𝑃 + 𝐹𝑁

F-Measure

También conocida como F1 score o F-score (puntaje F1 o puntaje F, en español), el

objetivo de esta medida es combinar la precisión y la recuperación en una sola medida. (Han

et al., 2011)

La fórmula es:

𝐹 = 2𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙

Herramientas Tecnológicas

Python

Python fue creado por Guido van Rossum, siendo este un lenguaje de alto nivel ya que

contiene implícitas algunas estructuras de datos como listas, diccionarios, conjuntos y tuplas,

que permiten ejecutar algunas tareas complejas en pocas líneas de código y de modo legible.

(Challenger-Pérez et al., 2014)

API

Una API puede definirse como un conglomerado de funciones, procedimientos,

definiciones y protocolos para que estos puedan ser utilizados e integrados por otro software.

Las siglas de API corresponden a “Application Programming Interface” que en su traducción

al Español seria “Interfaz de programación de aplicaciones”. (RedHat, s.f.)

21

JavaScript

Es un lenguaje de programación legalmente registrado por la empresa Sun

Microsystems; está orientado a la creación de páginas web dinámicas, es de tipo interpretado

por lo que no necesita ser compilado para su ejecución. (Pérez, 2019)

JSON

JavaScript Object Notation (Notación de Objetos de JavaScript, en español), permite

intercambiar datos en formato de texto entre plataformas distintas (Bassett, 2015). De este

modo es posible intercambiar información entre dos sistemas sin que estén escritos en el mismo

lenguaje de programación.

HTML

El lenguaje de Marcado de Hipertexto (HTML, por sus siglas en inglés), es el marcado

estándar para el desarrollo de páginas web; usado para definir los elementos que componen la

estructura de una página web como, la cabecera, el cuerpo, el pie, entre otras. (Macaulay, 2017)

CSS

Hojas de estilo en cascada (CSS, por sus siglas en inglés) es un lenguaje de hojas de

estilo, sirve para controlar las propiedades de los elementos HTML como color, posición,

tamaño, entre otras. (Macaulay, 2017)

Material Design

Son lineamientos de diseño publicados por la empresa Google en el año 2014, están

orientados a la creación de aplicaciones de móviles y web; estos lineamientos se han convertido

en una guía para los diseñadores, las consultas más recurrentes sobre material design son la

tipografía, la iconografía y componentes visuales como CardView y FAB. (Vivas et al., 2015)

22

Node JS

Creado para funcionar como un entorno de ejecución del lenguaje de programación

JavaScript que se orienta a eventos asíncronos para la capa del servidor, Node.js está diseñado

para crear aplicaciones network escalables. con E/S de datos en una arquitectura orientada a

eventos y basado en el motor V8 de Google además de ser de código abierto. (Node.js, 2018).

Framework

Es un conjunto de componentes estructurados, configurables, intercambiables y

reutilizables que ayudan a optimizar el desarrollo de un sistema, puede ser considerado como

un software genérico que sirve como base para la creación de otro sistema. (Gutiérrez, 2014)

Electron JS

Framework open source (código abierto) lanzado por la empresa GitHub; permite

desarrollar aplicaciones de escritorio multiplataforma haciendo uso de tecnología web

(HTML5, CSS y JavaScript). (Alkhars y Mahmoud, 2017)

Visual Studio Code

Visual Studio Code es un editor de programación multiplataforma desarrollado por

Microsoft. Es un proyecto de software libre que se distribuye bajo la licencia MIT, aunque los

ejecutables se distribuyen bajo una licencia gratuita no libre. (Bartolomé, 2020)

Librería spaCy

Librería para Python para el Procesamiento de Lenguaje Natural; dentro de sus

características está la tokenización, reconocimiento de entidades nombradas, aprendizaje

profundo, entre otros; spaCy posee modelos pre-entrenados en varios idiomas, entre ellos el

español, gracias a esto es posible obtener un etiquetado POS (Part-Of-Speech) completo de

cada palabra. (Talamé et al., 2019)

23

Librería NLTK

La librería NLTK (Natural Language Toolkit, Herramientas de Lenguaje Natural, en

español) fue creada en el año 2001 por el departamento de Ciencias de la Computación y la

Información de la Universidad de Pennsylvania; esta herramienta lingüística está construida

para ser sencilla: manejo práctico del Procesamiento del Lenguaje Natural (PLN); consistente:

estructura coherente en el área del PLN; extensible: que su funcionalidad crezca con el tiempo

y modular: que cada uno de sus módulos funcionen de forma independiente. (Bird et al., 2009)

Librería Pattern

Librería para Python dentro de sus características está: etiquetado POS, conjugación de

verbos, singularización y pluralización; Pattern funciona para el español (Pattern.es), inglés

(Pattern.en), entre otros. (Talamé, 2019)

Librería Gensim

Es una librería para Python de análisis semántico no supervisado de texto plano en

colecciones digitales; tiene como objetivos la indexación de archivos y la búsqueda de

similitudes. (Řehůřek y Sojka, 2011)

Metodologías

Investigación Básica

La investigación básica también conocida como investigación fundamental, exacta o

investigación pura, es el punto de partida para cualquier otro tipo de investigación (Juárez y

Hernández, 2007), y sirve para construir una base sólida en la que podrá iniciarse la

investigación aplicada en el presente proyecto, con una revisión bibliográfica y un trabajo de

campo.

24

Investigación Aplicada

Tiene como objetivo generar conocimiento llevando a la práctica conceptos o teorías

científicas para posteriormente crear un beneficio social o industrial (Lozada, 2014). A

diferencia de la investigación básica, la investigación aplicada tiene la finalidad de hacer uso

inmediato del conocimiento existente. (Vargas, 2009)

Lozada (2014) explica los procesos de la investigación aplicada de la siguiente forma:

• Proceso de investigación inicial: Consiste en investigar teorías científicas o resultados

de las investigaciones básicas para hallar posibles usos prácticos y aplicabilidad.

• Inclusión de las necesidades sociales o industriales: Consiste en conocer al usuario final

para desarrollar un producto conforme a sus necesidades y, además, crear conceptos

prácticos sobre la teoría.

• Transferencia tecnológica: Es la etapa final; aquí se construyen los prototipos que son

la materialización de la teoría aplicada y serán transferidos a la industria para

convertirse en productos.

Scrum

Es una metodología de desarrollo ágil orientada a la elaboración de un producto

mediante ciclos de desarrollo cortos, gestionados a través de reuniones diarias. (Trigas, 2012)

Schwaber y Sutherland (2017) explican los elementos que componen el Marco de

Trabajo Scrum, a continuación, se exponen de forma breve algunos de los más fundamentales:

Equipo Scrum: El equipo (Scrum Team). Se divide en:

• Dueño del Producto (Product Owner): Es el dueño del producto

• Equipo de Desarrollo (Development Team): Son los encargados de entregar el

incremento del producto terminado.

• Scrum Master: Es el líder a cargo del Equipo de Desarrollo

25

Sprint: Iteración o ciclo de desarrollo no mayor a un mes, en el cual se crea un incremento de

producto terminado y funcional. Cada Sprint está compuesto por:

• Planificación del Sprint (Sprint Planning): Reunión con todo el Equipo Scrum para

definir el trabajo a realizar en el Sprint

• Scrum Diarios (Scrum Daily): Reuniones diarias de 15 minutos por el Equipo de

Desarrollo y que tienen la finalidad de optimizar el trabajo.

• Trabajo de desarrollo: Realizar las tareas asignadas al Sprint.

• Revisión del Sprint (Sprint Review): Reunión al finalizar el Sprint con el fin de verificar

el incremento del producto y evaluar los eventos ocurridos en el Sprint.

• Retrospectiva del Sprint (Sprint Retrospective): Reunion despues de la Revisión del

Sprint, consiste en elaborar un plan de mejora a partir de la experiencia adquirida en el

desarrollo del sprint

Lista de Producto (Product backlog): Lista de las características o funcionalidades que debe

poseer el producto, su contenido es establecido por el Dueño del Producto.

• Historias de usuario: son las funcionalidades que tendrá el sistema; se representa con

una carta donde se establecen criterios como el título de la historia, prioridad,

estimación, descripción, entre otros.

Lista de Pendientes del Sprint (Sprint Backlog): Consiste en tomar elementos de la Lista de

Producto, que sean posible desarrollar en el Sprint y den un incremento al producto.

Incremento: Son todos los elementos desarrollados en el Sprint más la suma de los Sprint

anteriores y tiene como característica fundamental la posibilidad de ser utilizable.

26

Pregunta Científica a Contestarse

¿Un sistema de detección de palabras complejas dirigido al idioma español el cual usa

estrategias de simplificación léxica lograra contribuir a la comprensión lingüística de los

estudiantes universitarios?

Definiciones Conceptuales

• Corpus: Es un conjunto de material escrito o hablado en forma legible, reunido con el

propósito de investigación lingüística. (Oxford University Press (OUP). s. f.).

(disponible en https://www.lexico.com/definition/corpus).

• Corpus Paralelo: Extracción de léxico bilingüe. (Guinovart y Sacau, 2004). El corpus

paralelo se define como un recurso lingüístico consistente en textos de dos idiomas.

• Etiquetado POS (Part-Of-Speech): Consiste en adherir a cada token/palabra la

categoría gramatical (verbo, adjetivo, sustantivo, etc) en función al rol que desempeña

en una oración. (Talamé et al., 2019)

La Tabla 5 muestra un etiquetado POS para la oración “La empresa aumentó sus

ganancias”.

Tabla 5

Etiquetado POS

Token La empresa aumentó sus ganancias

Etiqueta

POS

Artículo

Femenino

Singular

Sustantivo

Femenino

Singular

Verbo

indicativo

Pasado

3era persona

Singular

Pronombre

Posesivo

3era

persona

Plural

Sustantivo

Femenino

Plural

Nota: La etiqueta POS se obtuvo usando la librería spaCy; Elaborado: Néstor Daniel Cruz

Quezada y Joseph Hari Rodríguez Avellán; Fuente: Datos de la investigación

• Lematización: Se puede definir como “el proceso de abstracción que, a partir de las

distintas formas de una palabra, selecciona una como representante de todo ese

paradigma”. (Sanmantín, 2019)

27

• Lenguaje Natural: Hace referencia a la comunicación escrita u oral que usan las

personas para intercambiar información. (Talamé et al., 2019)

• N-gramas (N-grams): consiste en, dada una cadena de texto, crear una secuencia

continua de n elementos. (Islam et al., 2018)

• Palabra Compleja: Se ha demostrado que los textos fáciles contienen términos más

familiares para las personas (Leroy et al., 2012), además también se ha descubierto que

la complejidad de una palabra está estrechamente relacionada con la frecuencia de uso

y que tan bien una persona puede definir su significado (Leroy y Kauchak, 2014). De

este modo una palabra de baja frecuencia puede ser considerada una palabra compleja.

• Simplificación léxica: Tarea de sustitución de palabras, donde el objetivo es encontrar

un sinónimo que sea más simple que la palabra original. (Saggion et al., 2015)

• Tokenización: Consiste en dividir un texto en una cadena de caracteres, descartando

los saltos de líneas o espacios en blancos (Talamé et al., 2019). Ejemplo: “El perro

ladra”, su tokenización producirá tres tokens: [‘El’, ‘perro’, ‘ladra’]

28

CAPÍTULO III

PROPUESTA TECNOLÓGICA

Este proyecto tiene como finalidad construir un software para los estudiantes

universitarios de la Carrera de Software de la Facultad de Ciencias Matemáticas y Física de la

Universidad de Guayaquil que presenten una limitada competencia lingüística y aportar al

aprendizaje de los mismos; para esto se hará uso de herramientas de procesamiento de lenguaje

natural, técnicas de simplificación léxica y tecnología gratuita o de código abierto.

Análisis de Factibilidad

El presente proyecto es viable ya que se fundamenta en trabajos de investigación

realizados en el área de la Simplificación Léxica, cuyos resultados han sido de mucho aporte

en diferentes contextos.

Una de las ventajas del desarrollo del sistema propuesto es que hace uso de tecnologías

y herramientas gratuitas, esto lleva a que los costos se reduzcan radicalmente, además, este

proyecto al estar dirigido a estudiantes de educación superior brinda una contribución en el

aprendizaje, ya que, los estudiantes podrán tener un mejor entendimiento de lo que leen.

Factibilidad Operacional

Este proyecto nació en el año 2016 mediante la propuesta de tema de investigación

doctoral en el área de la Simplificación Léxica en conjunto con una universidad europea. El

proyecto fue presentado a las autoridades de la Universidad de Guayaquil mediante la visita a

los diferentes decanatos, para dar a conocer los beneficios que se obtendrían.

29

Las autoridades brindaron toda la colaboración necesaria para poder realizar las etapas

propias que conllevan a una investigación de carácter científico. Como parte del proceso se

aplicó una encuesta a los estudiantes de diferentes facultades quienes también cooperaron de

forma eficaz con la realización de la misma, y para las diferentes visitas que se llevaron a cabo

como parte de la ejecución de la investigación.

Factibilidad Técnica

Para el desarrollo de este sistema se tiene los recursos necesarios tanto de software

como de hardware, además del talento humano capacitado en el uso de estas tecnologías. Estas

herramientas tecnológicas son gratuitas, a excepción del sistema operativo Windows, el cual

es propiedad de los desarrolladores del proyecto, todas estas herramientas poseen

documentación en línea y una comunidad de desarrolladores activa para la consulta adicional

de posibles inconvenientes que se presenten durante el desarrollo del software.

En la Tabla 6, se muestra las especificaciones de los recursos tecnológicos utilizados

en el desarrollo del sistema propuesto:

Tabla 6

Recursos Tecnológicos

Tipo Detalle

Sistema operativo Windows 10 Education, Windows 10 Pro

Lenguaje de programación Python 3.7.6, JavaScript

Lenguaje de Etiqueta HTML

Entorno de desarrollo Node JS 12.14.1

Framework Electron 9.0.0

Framework CSS Material Design Lite V1.3.0

Editor de código Visual Studio Code 1.48.2

Librería SpaCy 2.3.2, NLTK 3.5, Pattern 3.6, Gensim 3.8.3

APIs Altervista Thesaurus

Nota: La tabla muestra todos los recursos tecnológicos utilizado para la construcción del sistema. Elaborado: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la

investigación

30

Factibilidad Legal

Este proyecto es factible legalmente porque no infringe ninguna ley vigente en el

Ecuador. Las herramientas y demás recursos utilizados son de código abierto y/o gratuitos. Al

no incumplir ninguna ley o hacer uso indebido de la propiedad intelectual, el proyecto puede

ser ejecutado sin que su vigencia se vea interrumpida por violaciones a la ley. Toda la

argumentación legal se encuentra detallada en el Anexo 4.

Factibilidad Económica

Para demostrar la factibilidad de económica de este proyecto, se detallarán los valores

de las estimaciones para creación del sistema. La Tabla 7 detalla los valores del Talento

Humano.

Tabla 7

Talento humano

Cargo Costo Cantidad Total

Investigador $700 1 $700

Diseñador $500 1 $500

Desarrollador $1000 2 $2000

Líder del proyecto $1200 1 $1200

$4400 Nota: Los valores presentados en la tabla no son desembolso de dinero en el proyecto, pero debe ser

considerado porque representa esfuerzo y tiempo. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari

Rodríguez Avellán. Fuente: Datos de la investigación.

En la Tabla 8 se detallan los equipos de hardware usados en la construcción del sistema,

cabe mencionar que estos equipos son propiedad de los desarrolladores por lo que no

representaron un desembolso, no obstante, se presentan sus valores.

31

Tabla 8

Costos de hardware

Descripción Costo Cantidad Total

Computador portátil $600 1 $600

Computador de escritorio $500 1 $500

$1100 Nota: Los valores mostrado en esta tabla no representaron un desembolso para la creación del software.

Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la

investigación.

La mayoría de los recursos de software que formaron parte del desarrollo del sistema

son de uso gratuito a excepción del sistema operativo Windows que funcionaba en los

computadores de los desarrolladores, las adquisiciones de estos sistemas operativos se hicieron

antes del inicio del proyecto, por lo que no significó un costo para llevar a cabo la creación del

sistema propuesto. En la Tabla 9 se muestran estos valores.

Tabla 9

Costos de software


Windows 10 $200 2 $400

Node JS $0 1 $0

Electrón JS $0 1 $0

$400

Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la

investigación

Otro factor económico que se consideró fueron los recursos materiales y viáticos a los

que se los denominó como gastos adicionales, la Tabla 10 muestra cuáles fueron estos y el

valor correspondiente de cada uno de ellos.

32

Tabla 10

Gastos adicionales


Materiales de oficina 100 1 $100

Luz eléctrica 30 3 $90

Internet 30 3 $90

Transporte 50 3 $150

Alimentación 100 3 $300

$730 Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la

investigación

Con todos los valores resultantes de las tablas anteriores se procedió a hacer la

sumatoria correspondiente y obtener el monto total de la elaboración del sistema para este

proyecto. El resultado se presenta en la Tabla 11.

Tabla 11

Costo del proyecto

Descripción Valor

Recursos Humanos $4400

Costos de Hardware $1100

Costos de Software $400

Gatos Adicionales $730

$6630 Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la

investigación

Metodologías del Proyecto

En este proyecto se aplicará la metodología de Investigación Aplicada, debido a que

lleva los conocimientos adquiridos a la práctica, para resolver un problema conocido y generar

un beneficio a la sociedad, además de generar nuevos conocimientos que puedan ayudar a

experimentaciones futuras.

Como metodología de desarrollo se usará Scrum por su adaptabilidad en el proceso de

desarrollo y el control de los mismos. Esta metodología permite al equipo de desarrolladores

funcionar como una unidad auto organizada, además se puede obtener versiones del producto

en tiempos cortos (Sprint de 2 a 4 semanas) a las que se le denomina incremento.

33

Metodología de Investigación

El presente proyecto hace uso de la investigación aplicada sin prescindir de la

investigación básica que permitió obtener y recopilar información. La investigación aplicada

está enfocada en resolver un problema social, por tal motivo se debe conocer las necesidades

reales de los estudiantes de la Carrera de Software para poder realizar un producto conforme a

esas necesidades. Para conocer esta realidad se ha formulado una encuesta, la cual se detalla

en la sección de Procesamiento y Análisis, con esto se pretende garantizar la aceptabilidad y

usabilidad del producto.

Población y Muestra

El estudio científico fue desarrollado en dos etapas. En la primera etapa de recolección

de datos se obtuvo lo siguiente:

Población. Se tomó en consideración la población de los estudiantes legalmente

matriculados en la carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de la

Universidad de Guayaquil en el periodo 2020-2021 CI siendo un total de 660 estudiantes.

Muestra. Para la determinación de la muestra, se establecieron los siguientes

parámetros:

N (Población): 660

e (Margen de Error): 5%

k (Nivel de confianza): 2

p (Probabilidad de éxito): 0.50

q (Probabilidad de fracaso): 0.50

n (Muestra): 249

Fórmula: 𝒏 = k2∗(p∗q)∗N

(e2∗ (N−1))+ k2 ∗ p∗ q

34

𝒏 = 22∗(0.5∗0.5)∗660

(0.052 ∗ 660−1)) + 22∗ 0.5∗ 0.5

n = 249

En la segunda etapa, que comprende una encuesta de satisfacción, se levantó

información con una muestra incidental de un total de 40 estudiantes que pertenecen al curso

SOF-S-NO-1-5 de la Carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de

la Universidad de Guayaquil (Ecuador). El análisis de la encuesta de satisfacción se encuentra

detallada en la página 67.

Procesamiento y Análisis

Técnicas de Recolección de Datos. Como principal método de recolección de datos

usaremos la técnica de la encuesta la cual fue elaborada utilizando la herramienta de creación

de formularios de Google y fue dirigida a estudiantes pertenecientes a la Carrera de Software

de la Facultad de Ciencias Matemáticas y Físicas de la Universidad de Guayaquil; las preguntas

de la encuesta se encuentran en el anexo 5.

Para el tratamiento de los datos recolectados mediante la encuesta se utilizó la

herramienta Microsoft Excel, la cual nos permitió tabular y organizar toda la información, la

misma herramienta fue la encargada de procesar la información, con ella pudimos obtener los

diferentes gráficos, tablas y diagramas los cuales sirven para interpretar de mejor manera los

datos arrojados por la encuesta.

Los resultados vertidos por esta encuesta se verán a continuación analizados y descritos

en este trabajo de titulación.

35

Técnicas Estadísticas para el Procesamiento de la Información. Las técnicas para el

procesamiento de la información que fueron seleccionadas son las siguientes:

• Tablas de Frecuencia: La tabla de frecuencia es una técnica básica para resumir

información a partir de una muestra, su implementación es bastante sencilla para grupos

de datos de mediano o gran tamaño, realizar los cálculos necesarios pueden significar

mucho tiempo, pero con el uso de programas como SPSS o Excel los tiempos pueden

acortarse de manera significativa.

• Diagrama de barras o Columnas: Para representar variables cualitativas se puede

utilizar el diagrama de barras que también se puede usar para variables cuantitativas

discretas.

Estos diagramas se crean a partir de dos ejes (X, Y) (Horizontal, Vertical).

En el eje X se colocan las variables y en el eje Y la escala de frecuencia que parte de 0.

La altura del valor de cada variable tiene una relación directamente proporcional con la

frecuencia de cada variable, es decir a mayor frecuencia mayor altura.

• Gráfico de Pastel: Conocido también como “Diagrama de sectores” o simplemente

“Sectores circulares”. Este gráfico se implementa dividiendo en sectores los 360° de un

círculo de manera proporcional, cada sector debe ajustarse a la frecuencia o intensidad

de aparición de los valores de la variable estudiada que presenta el fenómeno de estudio,

generalmente se expresa en porcentajes.

Análisis de Encuesta

La encuesta N°1 aplicada a la muestra obtenida se realizó a estudiantes legalmente

matriculados en la Carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de la

Universidad de Guayaquil. Se utilizó la herramienta Formularios de Google para crearla y

llevarla a cabo. El análisis de los resultados se presenta detallados a continuación.

36

Pregunta 1: ¿Presentas algún problema de recepción o comprensión de datos?

Tabla 12

Pregunta 1: Tabla de frecuencias

Frec.

absoluta

Frec.

acumulada

Frec.

Relativa

Frec.

Relativa

Acumulada

Frec.

Porcentual

Frec.

% acum.

SI 121 121 0.484 0.484 48.40% 48.40%

NO 116 237 0.464 0.948 46.40% 94.80%

PREFIERO NO

CONTESTAR 13 250 0.052 1 5.20% 100.00%

TOTAL 250 1 100.00%

Nota: Tabla de frecuencia de los datos recolectados en la encuesta respecto a la pregunta 1.

Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta.

Figura 1

Pregunta 1: Análisis Gráfico

Nota: Figura en la que se detalla en forma de grafico los porcentajes que representan cada respuesta en la

pregunta 1. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de

la Encuesta.

Análisis: De acuerdo con la Figura 1 se determina que el 49% de la población encuestada

indica a través de esta encuesta que presenta algún tipo de problema que les impide receptar o

comprender datos. Entre las razones que mencionaron los encuestados las más mencionadas

son: Léxico poco comprensible, palabras desconocidas, poca retentiva. El 46% de los

encuestados indico que no presentan problema alguno y el 5% prefirió no responder.

Sí49%No

46%

Prefiero no contestar5%

Sí

No

Prefiero no contestar

37

Pregunta 2: ¿Te gusta leer?

Tabla 13


Frec.

absoluta

Frec.

acumulada

Frec.

Relativa

Frec.

Relativa

Acumulada

Frec.

Porcentual

Frec.

% acum.

SI 101 101 0.404 0.404 40.40% 40.40%

NO 40 141 0.16 0.564 16.00% 56.40%

A VECES 109 250 0.436 1 43.60% 100.00%

TOTAL 250 1 100.00%



Figura 2

Pregunta 2: Análisis gráfico



la Encuesta.

Análisis: La Figura 2 nos muestra en forma de gráfico de pastel las respuestas recogidas en

esta encuesta respecto a la pregunta ¿Te gusta leer? El mayor porcentaje se ve en la alternativa

“A veces” con un 44% le sigue el 40% que indicaron que “Sí” les gusta leer. Por último, un

16% indico que “No”. Podemos concluir que la mayoría de los encuestados disfruta el hábito

de la lectura.

Sí40%

No16%

A veces44%

Sí

No

A veces

38

Pregunta 3: ¿Comprendes lo que lees?

Tabla 14


Frec.

absoluta

Frec.

acumulada

Frec.

Relativa

Frec.

Relativa

Acumulada

Frec.

Porcentual

Frec.

% acum.

SI 96 96 0.384 0.384 38.40% 38.40%

NO 5 101 0.02 0.404 2.00% 40.40%

A VECES 149 250 0.596 1 59.60% 100.00%

TOTAL 250 1 100.00%



Figura 3




la Encuesta.

Análisis: La Figura 3 muestra las diferentes alternativas que se encontraban en la pregunta

¿Comprendes lo que lees? El 38% indico que “Sí” comprende lo que lee, el 2% dijo “No” y el

60% de los encuestados que contestó “A veces”, este último valor puede representar que los

encuestados están leyendo, en algunas ocasiones, textos de nivel léxico muy alto y otras veces

unos más bajo, esto demostraría que los textos no están siendo construido para todo tipo de

personas, lo que ocasionará barreras en el aprendizaje de las personas.

Sí38%

No2%

A veces60%

Sí

No

A veces

39

Pregunta 4: ¿Consideras que el contenido de los textos académicos tiene ciertas palabras que

no conoces?

Tabla 15


Frec.

absoluta

Frec.

acumulada

Frec.

Relativa

Frec.

Relativa

Acumulada

Frec.

Porcentual

Frec.

% acum.

SI 237 237 0.948 0.948 94.80% 94.80%

NO 13 250 0.052 1 5.20% 100.00%

TOTAL 250 1 100.00%



Figura 4




la Encuesta.

Análisis: La Figura 4 representa los valores correspondientes a la pregunta “¿Consideras que

el contenido de los textos académicos tiene ciertas palabras que no conoces?”; la inclinación

del abrumadora del 95% por la alternativa “Sí” demuestra que la mayoría está de acuerdo con

que los textos académicos utilizan en gran medida un léxico sofisticado y poco comprensible

para todas las personas. Solamente el 5% indico que “No”.

Sí95%

No5%

Sí

No

40

Pregunta 5: ¿Te gustaría que mediante un aplicativo el contenido de un texto pueda ser

transformado en otro que sea fácil de comprender?

Tabla 16


Frec.

absoluta

Frec.

acumulada

Frec.

Relativa

Frec.

Relativa

Acumulada

Frec.

Porcentual

Frec.

% acum.

SI 245 245 0.98 0.98 98.00% 98.00%

NO 5 250 0.02 1 2.00% 100.00%

TOTAL 250 1 100.00%


Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la Encuesta

Figura 5




la Encuesta.

Análisis: La figura 5 indica que el 98% de los encuestados “Sí” les gustaría que mediante un

aplicativo los textos difíciles puedan ser convertidos en otros sencillos de comprender y solo

el 2% indico que “No”; una amplia mayoría de personas esta interesados en herramientas que

facilite la compresión del contenido de los textos.

Sí98%

No2%

Sí

No

41

Pregunta 6: ¿Te gustaría mediante un aplicativo conocer de forma automática el significado

de las palabras consideradas complejas que están en un texto?

Tabla 17


Frec.

absoluta

Frec.

acumulada

Frec.

Relativa

Frec.

Relativa

Acumulada

Frec.

Porcentual

Frec.

% acum.

SI 248 248 0.992 0.992 99.20% 99.20%

NO 2 250 0.008 1 0.80% 100.00%

TOTAL 250 1 100.00%



Figura 6




la Encuesta.

Análisis: En el 99% de los encuestados indican que “Sí” les gustaría que un aplicativo les

muestre de manera automática el significado de las palabras consideradas complejas en un

texto, solo el 1% indico que “No” le gustaría este tipo de ayuda.

Sí99%

No1%

Sí

No

42

Pregunta 7: ¿Te gustaría que el aplicativo presente de forma automática los sinónimos de las

palabras que te resulten difícil de comprender?

Tabla 18


Frec.

absoluta

Frec.

acumulada

Frec.

Relativa

Frec.

Relativa

Acumulada

Frec.

Porcentual

Frec.

% acum.

SI 241 241 0.964 0.964 96.40% 96.40%

NO 9 250 0.036 1 3.60% 100.00%

TOTAL 250 1 100.00%



Figura 7




la Encuesta.

Análisis: Figura 7 detalla que al 96% de la población encuestada “Sí” les gustaría que un

aplicativo les muestre de forma automática los sinónimos de las palabras consideradas

complejas en un texto, el 4% indicó “No” estar de acuerdo con este tipo de ayuda.

Sí96%

No4%

Sí

No

43

Pregunta 8: ¿Consideras que los estudiantes que tengan bajo nivel de comprensión lectora o

posean algún tipo de discapacidad cognitiva se beneficiarían con este aplicativo?

Tabla 19


Frec.

absoluta

Frec.

acumulada

Frec.

Relativa

Frec.

Relativa

Acumulada

Frec.

Porcentual

Frecuencia

% acum.

SI 230 230 0.92 0.92 92.00% 92.00%

NO 20 250 0.08 1 8.00% 100.00%

TOTAL 250 1 100.00%



Figura 8




la Encuesta.

Análisis: El 92% de los encuestados considera que este aplicativo “Sí” sería de gran ayuda

para los estudiantes que tengan bajo nivel de comprensión lectora o posean algún tipo de

discapacidad cognitiva, el 8% indicó que el aplicativo “No” los beneficiaría.

Sí92%

No8%

Sí

No

44

Pregunta 9: ¿Conoces de un aplicativo que te permita transformar o convertir un texto difícil

a otro sencillo que sea fácil de comprender?

Tabla 20


Frec.

absoluta

Frec.

acumulada

Frec.

Relativa

Frec.

Relativa

Acumulada

Frec.

Porcentual

Frec.

% acum.

SI 33 33 0.132 0.132 13.20% 13.20%

NO 217 250 0.868 1 86.80% 100.00%

TOTAL 250 1 100.00%



Figura 9




la Encuesta.

Análisis: En la Figura 9 muestra que el 87% de la población encuesta desconoce por completo

algún aplicativo que permita convertir un texto difícil en otro sencillo de comprender, el 13%

indico que si conoce entre sus respuestas más relevantes están Simplext y Resoomer.

Sí13%

No87%

Sí

No

45

Pregunta 10: ¿Te gustaría que este aplicativo pueda ser utilizado por los estudiantes de la UG

para facilitar el aprendizaje de las asignaturas?

Tabla 21


Frec.

absoluta

Frec.

acumulada

Frec.

Relativa

Frec.

Relativa

Acumulada

Frec.

Porcentual

Frec.

% acum.

SI 248 248 0.992 0.992 99.20% 99.20%

NO 2 250 0.008 1 0.80% 100.00%

TOTAL 250 1 100.00%



Figura 10



pregunta 10. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos

de la Encuesta.

Análisis: Los valores representados en la Figura 10 indican que el 99% de la población

encuestada sí le gustaría que este aplicativo sea utilizado por los estudiantes de la Universidad

de Guayaquil para facilitar su aprendizaje. Solamente el 1% indico “No” estar de acuerdo.

Sí99%

No1%

Sí

No

46

Análisis General Encuesta 1: De acuerdo al análisis de los resultados vertidos por la encuesta

N° 1 se observa que más del 90% de los encuestados consideran que los textos académicos

contienen palabras que no conocen, esto se debe a que en muchas ocasiones los textos

académicos hacen uso de vocabulario especializado dificultando la comprensión de los

mismos.

Además, el 49% de los encuestados reconocen que, si posee algún problema de recepción o

comprensión de datos, lo cual es una cifra alarmante ya que la frecuencia con que se registran

estos resultados indica que seguirán en aumento. Por último, se determina que el 99% de la

muestra encuestada presenta gran interés en utilizar este aplicativo en la UG para facilitar el

aprendizaje de sus asignaturas, con lo antes mencionado se puede concluir que el lenguaje

utilizado con el que están escritos muchos textos académicos se convierte en una barrera que

evita el correcto aprendizaje y obtención de competencias lingüísticas de los estudiantes,

justificando de esta forma el propósito u objetivo del presente proyecto.

Metodología de Desarrollo de Proyecto

Scrum

El presente proyecto consiste en desarrollar un sistema capaz de ayudar a las personas

que tengan una limitada competencia lingüística mediante la simplificación de texto. Para la

creación de este software se hará uso de tecnología de PLN que se encargan del análisis de la

estructura lingüística. demás, será desarrollado en ambiente de escritorio, con la finalidad de

que, en futuras investigaciones, pueda ser implementado en los laboratorios informáticos de la

Universidad de Guayaquil. La Figura 11 muestra el flujo del proceso de la simplificación

léxica.

47

Figura 11

Flujo de procesos

Nota: La figura muestra únicamente el flujo de proceso de la simplificación léxica. Elaboración: Néstor

Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la investigación

Roles del Proyecto

El Equipo Scrum de este proyecto son: El Scrum Master y el Equipo de Desarrollo

(Development Team, en inglés). La Tabla 22 muestras las personas asignadas a los roles.

Tabla 22

Roles del proyecto

Rol Persona

Scrum Master Jenny Ortiz Zambrano

Development Team Néstor Daniel Cruz Quezada, Joseph Hari Rodríguez Avellán

Nota: En la tabla se detallan los roles y las personas que ocupan los cargos. La elaborado por los

investigadores del proyecto. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la investigación

48

• Scrum Master: Gestiona el proyecto, lleva a cabo la planificación, da seguimiento al

proyecto, realiza informes y garantiza el cumplimiento de los Sprint.

• Development Team: Encargados del desarrollo de los Sprint en el tiempo indicado.

Historias de Usuario

Las historias de usuario generadas son resultado de todo el Equipo Scrum. Para hacer

más fácil el desarrollo, las historias de usuario se encuentran divididas en etapas: interfaz

gráfica, análisis léxico, identificador de palabras complejas, generador de sustitutos y selección

de sustitutos. Las historias de usuario son las siguientes:

Tabla 23

Historia de usuario N° 1

Historia de Usuario

Numero: 1 Usuario: Cliente

Nombre de historia: Maquetación

Prioridad: Media

Puntos estimados: 5 Etapa asignada: Interfaz gráfica

Descripción: Elaborar una maqueta del diseña del sistema

Observación: Nota: Tabla correspondiente a la historia de usuario N° 1 asignada a la etapa de la de interfaz gráfica.


investigación.

Tabla 24


Historia de Usuario

Número: 2 Usuario: Cliente

Nombre de historia: Desarrollo de interfaz de Usuario

Prioridad: Media


Descripción: Elaborar una maqueta del diseño del sistema.

Observación: Nota: Tabla correspondiente a la historia de usuario N° 2 asignada a la etapa de la interfaz gráfica


investigación.

49

Tabla 25


Historia de Usuario


Nombre de historia: Métricas de Anula

Prioridad: Media


Descripción: Elaborar una maqueta del diseña del sistema

Observación: Nota: Tabla correspondiente a la historia de usuario N° 3 asignada a la etapa de análisis léxico.


investigación.

Tabla 26

Historia de usuario 4

Historia de Usuario


Nombre de historia: Métricas de Spaulding

Prioridad: Alta

Puntos estimados: 8 Etapa asignada: Análisis léxico

Descripción: Métrica para determinar la complejidad de legibilidad

Observación: Nota: Tabla correspondiente a la historia de usuario N° 4 asignada a la etapa de análisis léxico


investigación.

Tabla 27


Historia de Usuario


Nombre de historia: Procesamiento de texto

Prioridad: Alta

Puntos estimados: 13 Etapa asignada: Identificador de palabras

Descripción: Tokenizar, lematizar, realizar análisis morfosintáctico y crear los N-gramas

Observación: Nota: Tabla correspondiente a la historia de usuario N° 5 asignada a la etapa de identificador de palabras.


investigación.

50

Tabla 28


Historia de Usuario


Nombre de historia: Consulta a la API de sinónimos

Prioridad: Alta

Puntos estimados: 8 Etapa asignada: Generación de sustitutos

Descripción: Proceso de conexión y consulta para la obtención de posibles sustitutos

Observación: Nota: Tabla correspondiente a la historia de usuario N° 6 asignada a la etapa de generación de sustitutos


investigación.

Tabla 29


Historia de Usuario


Nombre de historia: Conjugación de los sustitutos

Prioridad: Alta

Puntos estimados: 13 Etapa asignada: Generación de sustitutos

Descripción: Conjuga los posibles sustitutos a la forma y tiempo de la palabra identificada

Observación: Nota: Tabla correspondiente a la historia de usuario N° 7 asignada a la etapa de generación de sustitutos.


investigación.

Tabla 30


Historia de Usuario


Nombre de historia: Sustituto más similar

Prioridad: Alta

Puntos estimados: 8 Etapa asignada: Selección de sustituto

Descripción: Proceso de comparación entre la palabra identificada con los sustitutos

Observación: Nota: Tabla correspondiente a la historia de usuario N° 8 asignada a la etapa de selección de sustituto.


investigación.

51

Tabla 31


Historia de Usuario


Nombre de historia: Definición de palabras

Prioridad: Media

Puntos estimados: 8 Etapa asignada: Selección de sustituto

Descripción: Presenta una definición de la palabra identificada

Observación: Nota: Tabla correspondiente a la historia de usuario N° 9 asignada a la etapa de selección de sustituto.


investigación.

Product Backlog

La Tabla 32 muestra las historias de usuario ordenadas por prioridad.

Tabla 32

Product backlog

Etapas Historia de usuario Prioridad Puntos estimados

Análisis léxico Métricas de Anula Alta 13

Análisis léxico Métrica de Spaulding Alta 8

Identificador de palabra Procesamiento de texto Alta 13

Generación de sustituto Consulta a la API de sinónimos Alta 8

Generación de sustituto Conjugación de sustitutos Alta 13

Selección de sustituto Sustituto más similar Alta 8

Selección de sustituto Definición de palabras Media 8

Interfaz gráfica Maquetación Media 5

Interfaz gráfica Desarrollo de interfaz de Usuario Media 13

Nota: En la tabla se refleja las historias de usuario ordenadas por su nivel de prioridad Elaboración: Néstor

Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la investigación.

52

Estimación del Backlog

Se realizó un análisis sobre la iteración de un Sprint con base al tiempo para realizar el

proyecto (9 semanas) y la disponibilidad del equipo de desarrollo. La Tabla 33 indica los

resultados obtenidos tras el análisis.

Tabla 33

Criterios de estimación

Tamaño de Sprint Horas por día Horas por semana Total de horas por Sprint

2 semanas (10 días) 4 20 40


investigación.

Para la estimación de cada Sprint se usó la técnica de Estimación Aproximada que

consiste en debatir la cantidad de historias de usuario que pueden realizarse en cada sprint. Se

obtuvieron las siguientes estimaciones:

Tabla 34

Estimación del Sprint N° 1

Etapa Historia de usuario Prioridad Puntos

estimados

Tiempo

estimado

Análisis léxico Métricas de Anula Alta 13 6 días

Análisis léxico Métrica de Spaulding Alta 8 4 días

Total de días del sprint 10 días

Nota: Tabla del tiempo estimado del Sprint N° 1. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari


Tabla 35



estimados

Tiempo

estimado

Identificación de

palabras Procesamiento de texto Alta 13 6 días

Generación de sustitutos Consulta a la API de

sinónimos Alta 8 4 días

Total de días del sprint 10 días Nota: Tabla del tiempo estimado del Sprint N° 2. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari


53

Tabla 36



estimados

Tiempo

estimado

Generación de

sustitutos

Conjugación de los

sustitutos Alta 13 6 días

Selección de

sustituto Sustituto más similar Alta 8 4 días




Tabla 37



estimados

Tiempo

estimado

Selección de

sustituto Definición de palabra Media 8 4 días

Interfaz gráfica Maquetación Media 5 2 días

Interfaz gráfica Diseño de Interfaz

gráfica Media 8 4 días




Definición de los Sprint

Para el desarrollo de cada Sprint se han planificado revisiones y entregables para validar

los avances obtenidos del desarrollo programado. Cada sprint consta de las siguientes fases:

• Planificación del Sprint (Sprint Planning)

• Trabajo de desarrollo

• Revisión del Sprint (Sprint Review)

Dentro de la Planificación del Sprint se establece el Objetivo del Sprint (Sprint Goal) y

el Sprint Backlog correspondiente, de este último se optó por usar la herramienta de Taskboard.

54

Sprint 1

Tabla 38

Taskboard al finalizar el Sprint N° 1

Objetivo: Aplicar las métricas de complejidad léxica

Inicio: 27/7/2020 Fin: 7/8/2020

Sprint Pendiente En curso Finalizado

1 Métricas de Anula

1 Métrica de Spaulding

Procesamiento de texto

Consulta a la API de sinónimos

Conjugación de sustitutos

Sustituto más similar

Definición de palabras

Maquetación

Desarrollo de interfaz gráfica

Nota: Sprint backlog muestra las historias de usuarios finalizadas en el Sprint 1 y las tareas pendientes que

se desarrollarán en los próximos Sprint. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari

Rodríguez Avellán. Fuente: Datos de la Investigación.

55

Figura 12

Burndown chart del Sprint N° 1

Nota: Burndown chart que indica el desempeño de los desarrolladores a largo de la elaboración del Sprint

1. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la

investigación.

Revisión del Sprint

• Las historias de usuario asignadas al Sprint fueron finalizadas en el tiempo estimado.

• Los pequeños retrasos con las tareas durante los primeros días del sprint fueron a causa

del desconocimiento de ciertos conceptos en el área de la lingüística.

• La funcionalidad del trabajo terminado es la esperada.

0

5

10

15

20

25

27

/7/2

02

0

28

/7/2

02

0

29

/7/2

02

0

30

/7/2

02

0

31

/7/2

02

0

3/8

/20

20

4/8

/20

20

5/8

/20

20

6/8

/20

20

7/8

/20

20

Burndown chart - Sprint 1

Burndown ideal Burndown desarrollo

56

Sprint 2

Tabla 39


Objetivo: Obtener una lista de sinónimos más simples que la palabra original

Inicio: 10/8/2020 Fin: 21/8/2020




2 Procesamiento de texto

2 Consulta a la API de sinónimo

Conjugación de sustitutos

Sustituto más similar


Maquetación

Desarrollo de interfaz

gráfica

Nota: Sprint backlog muestra las historias de usuarios finalizadas en el Sprint 2 y las tareas pendientes que

se desarrollarán en los próximos Sprint. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari


57

Figura 13




investigación.



• Durante el desarrollo se tuvo inconvenientes con la librería NLTK por no poseer un

etiquetado POS (Part Of Speech) el español, no obstante, se hizo uso de la librería

spaCy para esta tarea. Originalmente la librería spaCy estaba destinada a la

lematización.

• La funcionalidad del trabajo terminado, es la esperada.

0

5

10

15

20

25

10

/8/2

02

0

11

/8/2

02

0

12

/8/2

02

0

13

/8/2

02

0

14

/8/2

02

0

17

/8/2

02

0

18

/8/2

02

0

19

/8/2

02

0

20

/8/2

02

0

21

/8/2

02

0



58

Sprint 3

Tabla 40


Objetivo: Filtrar los sinónimos hasta obtener el más similar

Inicio: 24/8/2020 Fin: 4/9/2020






3 Conjugación de sustitutos

3 Sustituto más similar


Maquetación

Desarrollo de interfaz

gráfica

Nota: El Sprint backlog muestra las historias de usuarios finalizadas en el Sprint 3 y las tareas pendientes

que se desarrollarán en el próximo Sprint. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari


59

Figura 14




investigación.



• La librería Pattern presentó problemas al momento de su implementación y tuvo que

modificar parte de su código, una vez solucionado el problema se crearon filtros para

determinar cuándo una palabra debía ser flexionada y junto con la etiquetación POS,

brindada por spaCy, se pudo llevar a los sustitutos a la misma forma flexionada de la

palabra compleja.


0

5

10

15

20

25

24

/8/2

02

0

25

/8/2

02

0

26

/8/2

02

0

27

/8/2

02

0

28

/8/2

02

0

31

/8/2

02

0

1/9

/20

20

2/9

/20

20

3/9

/20

20

4/9

/20

20



60

Sprint 4

Tabla 41


Objetivo: Realizar una interfaz gráfica amigable para el usuario

Inicio: 7/9/2020 Fin: 18/9/2020






3 Conjugación de sustitutos

3 Sustituto más similar

4


4

Maquetación

4

Desarrollo de interfaz gráfica

Nota: El Sprint backlog correspondiente al Sprint 4 muestra la finalización de todas las historias de

usuario. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Datos de la

Investigación.

61

Figura 15



4. Elaboración: Néstor Daniel Cruz Quezada y Joseph Hari Rodriguez Avellán. Fuente: Datos de la

investigación.



• Se presentaron problemas en las consultas de las definiciones, La API de Wiktionary

no brinda las definiciones de las palabras de forma correcta en su lugar devuelve un

fragmento de la definición y páginas similares. Para solucionar este inconveniente se

optó por usar la librería WiktionaryParser pero no está optimizada para el idioma

español; finalmente se desarrolló una clase que lea el contenido de las páginas HTML

de Wiktionary y extraiga la definición.


0

5

10

15

20

25

7/9

/20

20

8/9

/20

20

9/9

/20

20

10

/9/2

02

0

11

/9/2

02

0

14

/9/2

02

0

15

/9/2

02

0

16

/9/2

02

0

17

/9/2

02

0

18

/9/2

02

0



62

Beneficiarios Directos e Indirectos

Directos

Se consideran como beneficiarios directos de este proyecto a los estudiantes legalmente

matriculados en la Carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de la

Universidad de Guayaquil en el periodo 2020-2021 C.I., ya que, fueron seleccionados como

nuestra población.

Indirectos

• Se considera como beneficiarios indirectos los docentes que verán una mejora en la

comprensión del material bibliográfico que se brinda en sus clases para que sus

estudiantes hagan uso de él.

• Personas con necesidades educativas especiales o limitadas competencias lingüísticas,

serán beneficiados indirectamente al utilizar el aplicativo desarrollado.

• Los empleadores de los futuros profesionales que generen la Carrera de Software de la

Facultad de Ciencias Matemáticas y Físicas de la Universidad de Guayaquil, ya que

podrán observar en sus colaboradores una notable capacidad de comprensión de datos

e instrucciones y gran desenvolvimiento en el ámbito laboral.

• Las futuras investigaciones referentes al área de la simplificación léxica en Ecuador, y

nivel mundial, tomando como punto de partida el trabajo realizado en este proyecto.

63

Entregables del Proyecto

Los entregables del presente proyecto de titulación son los siguientes:

• Código fuente de la aplicación: Será entregado de manera digital el código fuente del

sistema desarrollado.

• Manual técnico: Documento que detalla las herramientas tecnológicas utilizadas en el

desarrollo del proyecto (consultar Anexo 9).

• Manual de usuario: Contiene información relevante para conocer las funcionalidades

del sistema de simplificación léxica desarrollado (consultar Anexo 10).

Propuesta

Como se mencionó anteriormente en la propuesta tecnológica, este sistema está dirigido

a los estudiantes universitarios que tengan limitada competencia lingüística; para contribuir a

este grupo de personas, se desarrolló una aplicación de escrito que realice una simplificación

de un texto.

La construcción de este sistema tiene tres fases para que llegar a la simplificación

léxica, las cuales son:

• Identificación de palabras complejas

• Generación de sustituto

• Selección de sustituto

Adicionalmente, como una forma de contribuir al aprendizaje, este sistema presentará

definiciones de las palabras complejas encontradas en el texto.

64

Conjuntos de Datos

Este sistema utiliza dos recursos para la simplificación léxica:

• Lista de Frecuencia del Corpus de Referencia del Español Actual (CREA): Es un

listado creado a partir del recurso principal CREA, está formado por texto escritos y

oral de los países de habla hispana desde el año 1975 hasta el año 2004, como resultado

se obtiene una lista de frecuencia de más de setecientas mil palabras.

• Spanish Billion Word: Modelo pre entrenado de incrustaciones de mil millones de

palabras, con el algoritmo de skip-gram (Cardelino, 2016) tiene un total de 1000653

palabras.

Descripción del Software

La Figura 16 muestra la arquitectura correspondiente al sistema de este proyecto, en la

cual se aprecia las secuencias de los procesos involucrados en la simplificación léxica y la

obtención de la definición de la palabra compleja.

Figura 16

Arquitectura del sistema


investigación.

65

El sistema tendrá una interfaz gráfica de usuario (GUI, por sus siglas en inglés) que se

desarrollará utilizando el framework Electron JS. Desde la GUI se enviará un archivo en

formato TXT al script de Python que contiene todo el proceso de la simplificación léxica,

posteriormente script de Python retornará un JSON donde se encuentran todos los datos

obtenidos durante la simplificación léxica. A continuación, se explica los procesos que forman

parte de la simplificación léxica:

Identificación de Palabras Complejas

Esta tarea consiste en identificar qué palabras podrían representar un problema de

comprensión para las personas, para determinar esto se analiza la frecuencia de las palabras

mediante un corpus. Para este software se ha elegido el listado de frecuencias del CREA y se

ha establecido que toda palabra que tenga una frecuencia menor a mil será considerada

compleja, como indica las métricas de complejidad léxica propuesta por Anula

(2008). También se implementó la generación de n-gramas, con el fin de no solo identificar la

palabra compleja sino también saber cuál es su contexto (dos palabras antes y después de la

palabra compleja).

En esta fase se debe obtener otros valores que serán usados en los procesos posteriores

como son: el lema y el etiquetado POS de la palabra compleja; para lograr esto se usó la librería

spaCy que posee ambas características.

Generación de Sustitutos

Para esta tarea se hace consulta a la API de Tesauro (https://thesaurus.altervista.org/)

que proporciona sinónimos en varios idiomas obtenidos de los diccionarios de OpenOffice,

esta API solo permite hacer consultas de verbos que estén en su forma infinitiva, por lo que se

debe enviar como parámetro el lema de la compleja; cabe mencionar que los sinónimos que

66

devuelve la API también están en su forma infinitiva, así que, se debe llevarlos a la forma

morfológica de la palabra compleja.

Para reflexionar los sinónimos obtenidos (si lo requiere) se usa la librería Pattern a la

cual se le debe pasar como parámetros las características proporcionadas por el etiquetado POS

del paso anterior. Posteriormente se deben eliminar los sinónimos menos frecuentes que la

palabra compleja, para esto se aplica el proceso anterior.

Selección de Sustitutos

Los sinónimos que fueron generados en el proceso anterior, se les aplicará un análisis

de similitud a cada uno de ellos con la palabra compleja y su contexto, se ha demostrado que

este método da muy buenos resultados (Paetzold y Specia, 2015). Para hallar la similitud se

usa la librería Gensim y como recurso lingüístico el Spanish Billion Word; con estas

herramientas se obtiene valores numéricos de la similitud de las palabras, posteriormente se

suma todos los valores, finalmente el que tenga el valor más alto será seleccionado como el

sustituto idóneo.

Definiciones de Palabras

El sistema tomará el lema de la palabra identificada como compleja y realizará una

búsqueda de la definición de la misma a través del diccionario en línea Wiktionary

(https://www.wiktionary.org/). Las API de Wiktionary no brindan consultas de definiciones,

en su lugar devuelve coincidencia de páginas relacionadas a la consulta e información

incompleta sobre las mismas. Para solventar este problema se diseñó un proceso que, luego de

realizar la consulta, obtenga todo el HTML de la página que contiene la definición,

posteriormente se analiza la estructura HTML y se hace la búsqueda de la ubicación de la

definición y por último se hace una limpieza del texto.

67

Criterios de Validación de la Propuesta

Para validar el software desarrollado en este proyecto se utilizó el juicio de experto y

encuesta de satisfacción.

Juicio de Expertos

Los expertos que colaboraron en la validación son profesionales del área de informática

por lo que su juicio certifica el correcto funcionamiento del sistema desarrollado. Los expertos

fueron:

• Ing. Katty Nancy Lino Castillo. (MSc. Sistemas de Información Gerencial)

• Lcdo. Juan Carlos Yépez Paladines (Lcdo. en Sistemas de Información)

• CSA. Freddy David Coto Torres (Analista de Sistemas)

Las validaciones se llevaron a cabo por medio de la plataforma Zoom y Microsoft

Teams, donde los expertos pudieron observar la ejecución del software, el aspecto, la

funcionalidad, las características y componentes que forman parte del software.

Los criterios y constancia de la validación por juicio de experto se encuentran detallados

en el anexo 6.

Análisis de Encuesta de Satisfacción

La encuesta de satisfacción se realizó utilizando la herramienta formularios de Google;

la encuesta fue compartida luego de la presentación del sistema mediante la plataforma Zoom.

Para consultar la población y muestra, véase la página 34.

A continuación, se presenta el análisis respectivo de los resultados que serán detallados

utilizando tablas de frecuencia y gráficos de pastel.

68

Pregunta 1: ¿Consideras que fue de utilidad ver sinónimos de las palabras complejas en el

texto?

Tabla 42


Frecuencia

absoluta

Frecuencia

acumulada

Frecuencia

relativa

Frecuencia

relativa

acum.

Frecuencia

porcentual

Frecuencia

Porcentual

acum.

Totalmente en

desacuerdo 4 4 0.1 0.1 10.00% 10.00%

En desacuerdo 0 4 0 0.1 0.00% 10.00%

Ni de acuerdo ni

en desacuerdo 2 6 0.05 0.15 5.00% 15.00%

De acuerdo 14 20 0.35 0.5 35.00% 50.00%

Totalmente de

acuerdo 20 40 0.5 1 50.00% 100.00%

TOTAL 40 1 100.00%

Nota: Elaboración: Néstor Cruz Q. y Joseph Rodríguez A. Fuente: Datos de la Encuesta de Satisfacción.

Figura 17



Análisis: La Figura 17 muestra que el 50% de los encuestados indican estar “Muy Satisfechos”

respecto a ver sinónimos de las palabras consideradas complejas. El 35% indico estar

satisfechos, solo el 5% indico estar en una posición neutral, por último, un 10% se encuentra

Muy insatisfecho teniendo un 0% de Insatisfechos. Con lo siguiente determinamos que el 85%

considera de utilidad ver sinónimos de las palabras consideradas complejas en un texto.

10%

5%

35%

50%

Muy Insatisfecho

Insatisfecho

Neutral

Satisfecho

Muy Satisfecho

69

Pregunta 2: ¿Consideras que fue de utilidad ver definiciones de las palabras complejas en el

texto?

Tabla 43


Frecuencia

absoluta

Frecuencia

acumulada

Frecuencia

relativa

Frec.

relativa

acumulada

Frecuencia

porcentual

Frecuencia

porcentual

acumulada

Muy

Insatisfecho 2 2 0.05 0.05 5.00% 5.00%

Insatisfecho 1 3 0.025 0.075 2.50% 7.50%

Neutral 2 5 0.05 0.125 5.00% 12.50%

Satisfecho 17 22 0.425 0.55 42.50% 55.00%

Muy

Satisfecho 18 40 0.45 1 45.00% 100.00%

TOTAL 40 1 100.00%


Figura 18



Análisis: La Figura 18 muestra que el 45% de los encuestados dijo estar “Muy Satisfecho”, el

43% “Satisfecho”, el 5% permaneció en la posición “Neutral”, el 2% dijo estar “Insatisfecho”

y el 5% restante “Muy Insatisfecho”. Por lo cual determinamos que la mayoría representada

por el 88% Considera de utilidad ver las definiciones de las palabras complejas en el texto.

5%2%

5%

43%

45%

Muy Insatisfecho

Insatisfecho

Neutral

Satisfecho

Muy Satisfecho

70

Pregunta 3: ¿Consideras que el sistema posee una interfaz sencilla?

Tabla 44


Frecuencia

absoluta

Frecuencia

acumulada

Frecuencia

relativa

Frec.

relativa

acumulada

Frecuencia

porcentual

Frecuencia

porcentual

acumulada

Muy

Insatisfecho 2 2 0.05 0.05 5.00% 5.00%

Insatisfecho 0 2 0 0.05 0.00% 5.00%

Neutral 3 5 0.075 0.125 7.50% 12.50%

Satisfecho 17 22 0.425 0.55 42.50% 55.00%

Muy

Satisfecho 18 40 0.45 1 45.00% 100.00%

TOTAL 40 1 100.00%


Figura 19



Análisis: En la Figura 19 muestra que el 45% se encuentra “Muy Satisfecho” respecto a la

pregunta “¿Consideras que el sistema posee una interfaz sencilla?”, el 43% dice estar

“Satisfecho”, el 7% permanece en una posición “Neutral” y solo el 5% indico estar “Muy

insatisfecho”.

5%

7%

43%

45%Muy Insatisfecho

Insatisfecho

Neutral

Satisfecho

Muy Satisfecho

71

Pregunta 4: ¿Las herramientas que posee el sistema te ayudaron a comprender de mejor

manera el contenido del texto?

Tabla 45


Frecuencia

absoluta

Frecuencia

acumulada

Frecuencia

relativa

Frec.

relativa

acumulado

Frecuencia

porcentual

Frecuencia

porcentual

acumulada

Muy

Insatisfecho 3 3 0.075 0.075 7.50% 7.50%

Insatisfecho 0 3 0 0.075 0.00% 7.50%

Neutral 2 5 0.05 0.125 5.00% 12.50%

Satisfecho 17 22 0.425 0.55 42.50% 55.00%

Muy

Satisfecho 18 40 0.45 1 45.00% 100.00%

TOTAL 40 1 100.00%


Figura 20



Análisis: La Figura 20 correspondiente a la pregunta 5, muestra una inclinación positiva del

88% dividida en: 45% indicaron estar “Muy Satisfechos” y un 43% están “Satisfechos”, el 5%

muestra una posición “Neutral” y solo el 7% indico estar “Muy insatisfecho”.

7%5% 43%

45%

Muy Insatisfecho

Insatisfecho

Neutral

Satisfecho

Muy Satisfecho

72

Pregunta 5: ¿Desde el punto de vista de usuario final consideras satisfactorio el desempeño

del sistema?

Tabla 46


Frecuencia

absoluta

Frecuencia

acumulada

Frecuencia

Relativa

Frec.

Relativa

Acumulado

Frecuencia

Porcentual

Frecuencia

Porcentual

acumulada

Muy

Insatisfecho 2 2 0.05 0.05 5.00% 5.00%

Insatisfecho 0 2 0 0.05 0.00% 5.00%

Neutral 3 5 0.075 0.125 7.50% 12.50%

Satisfecho 14 19 0.35 0.475 35.00% 47.50%

Muy

Satisfecho 21 40 0.525 1 52.50% 100.00%

TOTAL 40 1 100.00%


Figura 21



Análisis: Los valores presentados en la Figura 21. Se aprecia que el 53% de los encuestados

están “Muy Satisfecho”, un 35% indico estar “Satisfecho”, un 7% permaneció en una posición

“Neutral” y el 5% restante dijo estar “Muy Insatisfecho”.

5%7%

35%

53% Muy Insatisfecho

Insatisfecho

Neutral

Satisfecho

Muy Satisfecho

73

Pregunta 6: ¿Estas Satisfecho con el Sistema?

Tabla 47


Frecuencia

absoluta

Frecuencia

acumulada

Frecuencia

Relativa

Frec.

Relativa

Acumulado

Frecuencia

Porcentual

Frecuencia

Porcentual

acumulada

Muy

Insatisfecho 3 3 0.075 0.075 7.50% 7.50%

Insatisfecho 0 3 0 0.075 0.00% 7.50%

Neutral 1 4 0.025 0.1 2.50% 10.00%

Satisfecho 11 15 0.275 0.375 27.50% 37.50%

Muy

Satisfecho 25 40 0.625 1 62.50% 100.00%

TOTAL 40 1 100.00%


Figura 22



Análisis: Como se puede observar en el Figura 22, el 63% indico estar “Muy Satisfecho”,

seguido del 28% que dijo estar “Satisfecho”, el 2% permaneció en una posición “Neutral” y el

7% restante dijo estar “Muy insatisfecho”. Teniendo como resultado una inclinación positiva

del 91%.

7%

2%

28%

63% Muy Insatisfecho

Insatisfecho

Neutral

Satisfecho

Muy Satisfecho

74

Análisis General Encuesta 2: Los resultados demostraron que el 88% de la muestra

encuestada indicó que el uso de sinónimos y definiciones resulto ser útil, ya que brindan una

ayuda extra a la persona que utiliza el aplicativo para interpretar de mejor manera las palabras

que fueron reemplazadas.

Este mismo porcentaje de individuos encuestados señala que de manera general las

herramientas incluidas en el sistema contribuyeron en gran medida a mejorar su capacidad de

comprensión relacionada a los textos académicos que les fueron mostrados a modo de prueba

en la presente encuesta de satisfacción. Así mismo señalaron estar “Muy Satisfechos” y

“Satisfechos” con el desempeño del sistema.

El grado de satisfacción general con el sistema fue positivo, representado con el 91% de los

encuestados. De esta forma se concluye que el aplicativo desarrollado aporta una solución que

disminuirá el grado de afectación que presentan los estudiantes con los textos académicos por

ser escritos en lenguaje especializado.

Resultados

Evaluación del Conjunto de Datos

Se hizo una búsqueda de las 704 palabras complejas que componen el VYTEDU-CW

en el recurso de Spanish Billion Word, con el fin de que el sistema pueda hallar las similitudes

de estas palabras con las que se pretende reemplazar. El resultado obtenido fue 48 palabras no

encontradas, esto significa que el sistema no podrá hacer la selección del sustituto para esas 48

palabras.

Evaluación del Identificador

El sistema se aplicó a los 55 archivos de texto que posee el corpus VYTEDU y para

comparar la efectividad del identificador se usó el corpus VYTEDU-CW. Se obtuvo los

siguientes resultados:

75

Tabla 48

Evaluación del identificador

Macro F1 Macro Precision Macro Recall

0.208678 0.124094 0.655424


investigación

En la Tabla 48 muestra que, de todas las palabras que los estudiantes consideraron

difíciles, el 65% (Recall) fueron etiquetadas correctamente por el sistema cómo difíciles. El

Precision muestra un decaimiento (12%), esto se debe a que el identificador está etiquetando

varias palabras difíciles como fáciles, según los datos del VYTEDU-CW. El valor de F1

muestra la armonía entre el Precision y Recall, puede ser interpretado como la efectividad

global del identificador, es decir, un 20%.

Este sistema de identificación de palabras fue parte del taller internacional de ALexS

(https://www.alexs-sepln-2020.org/) donde los participantes diseñaron un método para

identificar las palabras complejas del Corpus VYTEDU, dicha identificación fue evaluada con

el Corpus VYTEDU-CW; el sistema de este proyecto obtuvo el cuarto lugar de los ocho

métodos presentados por los participantes del taller sobre la identificación de palabras

complejas (disponible en https://www.alexs-sepln-2020.org/results).

A partir del diagnóstico se evidencia que existen estudiantes con baja competencia

lingüística. Esto puede ser un factor que limita la comprensión de textos académicos en

lenguaje técnico. Asimismo, los resultados ponen de relieve que la población con necesidades

educativas debería contar un recurso tecnológico que les permita con mayor facilidad el acceso

a contenidos de sus asignaturas especializadas.

Respondiendo a la pregunta científica la población que hizo uso del aplicativo

desarrollado consideró que está es intuitiva a nivel de herramientas y utilidades. Por tanto, es

76

un recurso que aportará a la disminución de frustración que genera en los estudiantes el no

poder comprender un determinado texto académico.

A través del juicio de experto se constató que el aplicativo cumple hasta el momento

con el funcionamiento y requerimientos establecidos, como es el uso de tecnología moderna,

aplicación de principios científicos en el desarrollo del software. Además, al igual que los

resultados de la encuesta de satisfacción consideran que es una herramienta de fácil uso.

77

CAPÍTULO IV

CONCLUSIONES Y RECOMENDACIONES

Criterios de Aceptación del Producto o Servicio

El sistema fue validado y aceptado por el Director de la Carrera de Ingeniería en

Sistemas Computacionales de la Facultad de Ciencias Matemáticas y Físicas de la Universidad

de Guayaquil. La Tabla 49 indican los criterios utilizados para la aceptación.

Tabla 49

Criterios de aceptación

Criterios de Aceptación

Tema: Sistema de Detección de Palabras Complejas en Español Aplicando Estrategias de

Simplificación Léxica para Contribuir a la Compresión Lingüística de los Estudiantes

Universitarios

Requerimientos Cumple No cumple

Desarrollado en el lenguaje de programación Python. X

Permite la selección de archivos en formato TXT mediante un

explorador de archivos. X

Permite eliminar los archivos que hayan sido agregados. X

Permite la lectura del contenido del archivo TXT mediante un

visualizador. X

Muestra la opción de análisis léxico mediante un menú

contextual. X

Muestra el informe detallado del análisis de complejidad del

texto. X

Muestra la opción de simplificación del texto mediante un

menú contextual. X

La simplificación del texto muestra sinónimos de la palabra

compleja. X

La simplificación del texto muestra la definición de la palabra

compleja. X

El sistema reemplaza la palabra compleja por un sinónimo más

simple. X

La simplificación del texto se apoya de recursos lingüísticos

como diccionarios en línea, modelos pre entrenados o listas de

frecuencia de palabras.

X

Interfaz gráfica de usuario sencilla y de fácil uso X

Observaciones

Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán; Fuente: Datos de la

investigación.

78

Para dar constancia a la aceptación del producto se generó un certificado de aceptación

el cual puede ser consultado en el Anexo 8.

Conclusiones

• El módulo de detección de palabras complejas fue construido con base a información

científica contrastada, que indican la relación entre una palabra compleja y su

frecuencia de uso. Se tomó en consideración la frecuencia absoluta de las palabras que

se encuentran en el CREA, lo que permitió hacer la discriminación entre una palabra

difícil/compleja y una fácil. Además, con la librería spaCy se pudo clasificar las

palabras identificadas como complejas, con base a la función que cumple en la oración,

esto sirvió para tener una mayor precisión al momento de la selección de sustitutos.

• Tras el análisis de los resultados obtenidos de la identificación de palabras, se obtuvo

que la eficacia de la identificación es de un 20% cabe mencionar que este valor

representa la capacidad del sistema para reconocer una palabra difícil y una fácil; el

análisis también demostró que el sistema fue capaz de identificar correctamente las

palabras que los estudiantes consideraron difíciles en un 65%, un resultado es aceptable

considerando que se ajusta más a lo que los estudiantes consideran una palabra

compleja.

• El módulo de simplificación léxica siguió tres fases: La primera comprende la

identificación de palabras, la generación de sustitutos y la selección de sustituto que

está basada en la técnica que ha dado mejores resultados en investigaciones de

simplificación léxica, y teniendo en cuenta la frecuencia uso de los sustitutos se asegura

que la palabra reemplazada sea más simple.

79

• En síntesis, el aplicativo desarrollado contribuirá a la comprensión lingüística de textos

de alta complejidad por el uso de lenguaje científico, además, será un recurso de apoyo

para la accesibilidad de contenido en el caso de los estudiantes universitarios con

necesidades educativas especiales y limitadas competencias lingüísticas o que carezcan

de estas últimas.

Recomendaciones

• Para la detección de palabras complejas solo se usó la lista de frecuencias del CREA;

se recomienda experimentar con otros recursos y contrastar los resultados para

encontrar posibles mejoras de rendimiento del sistema.

• Crear un corpus de frecuencia que se ajuste a la realidad de los estudiantes

universitarios.

• Agregar un proceso de aprendizaje automático, ya que podría ser beneficioso para el

proceso de simplificación léxica, a partir de las consultas realizadas a las API el sistema

sería capaz de crear un recurso propio y más completo o alimentar uno ya existente, del

cual se podrá hacer consultas de forma local, incluso el recurso podría tener las formas

flexionada de una palabra lo que evitará hacer el proceso de conjugación, mejorando el

tiempo de simplificación.

• Desarrollar una programación paralela, que mejore los tiempos de búsquedas y

optimice el sistema para los archivos grandes.

80

Trabajos Futuros

La siguiente fase del proyecto es la elaboración de un sistema hibrido que combine las

características de otras técnicas aplicadas en experimentaciones en el área de la simplificación

léxica para lograr una mayor precisión en la identificación de las palabras complejas.

Adicionalmente se pretende crear un recurso lingüístico propio, para realizar las consultas a

nivel local.

A partir de este trabajo de investigación se podrían proponer otras investigaciones en

el ámbito educativo aplicando la simplificación léxica con el fin de poder contribuir al

mejoramiento de la competencia lingüística, tales como: sistema de simplificación léxica

dirigido a: estudiantes de las escuelas rurales, estudiantes con NEE, estudiantes de la periferia

de la ciudad, estudiantes de diferentes contextos educativos, entre otros.

81

REFERENCIAS BIBLIOGRÁFICAS

Anula, A. 2008. Lecturas adaptadas a la enseñanza del español como l2: variables lingüísticas para la

determinación del nivel de legibilidad. La evaluación en el aprendizaje y la enseñanza del español

como LE L2:162–170

Alkhars, A., & Mahmoud, W. (2017). Cross-Platform Desktop Development (JavaFX vs. Electron).

Bartolomé Sintes Marco, B. (2020, 10 junio). Que es Visual Studio Code.

https://www.mclibre.org/consultar/informatica/lecciones/vsc.html#:~:text=Visual%20Studio%20Code

%20es%20un,una%20licencia%20gratuita%20no%20libre.

Bassett, L. (2015). Introduction to JavaScript object notation: a to-the-point guide to JSON. " O'Reilly Media,

Inc.".

Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python: analyzing text with the natural

language toolkit. " O'Reilly Media, Inc.".

Bott, S., Rello, L., Drndarević, B., & Saggion, H. (2012, December). Can spanish be simpler? lexsis: Lexical

simplification for spanish. In Proceedings of COLING 2012 (pp. 357-374).

Bott, S., & Saggion, H. (2014). Text simplification resources for Spanish. Language Resources and Evaluation,

48(1), 93-120.

Carroll, J., Minnen, G., Canning, Y., Devlin, S., & Tait, J. (1998, July). Practical simplification of English

newspaper text to assist aphasic readers. In Proceedings of the AAAI-98 Workshop on Integrating

Artificial Intelligence and Assistive Technology (pp. 7-10).

Challenger-Pérez, I., Díaz-Ricardo, Y., & Becerra-García, R. A. (2014). El lenguaje de programación Python.

Ciencias Holguín, 20(2), 1-13.

Chandrasekar, R., Doran, C., & Bangalore, S. (1996). Motivations and methods for text simplification. In

COLING 1996 Volume 2: The 16th International Conference on Computational Linguistics.

Constitución de la República del Ecuador. (2013). Ministerio de Educación. https://educacion.gob.ec/wp-

content/uploads/downloads/2014/01/TRANSP-NORMAS_CONSTITUCIONALES.pdf

Corso, C. L., & Lorena, C. (2009). Aplicación de algoritmos de clasificación supervisada usando Weka.

Córdoba: Universidad Tecnológica Nacional, Facultad Regional Córdoba.

Cristian Cardellino: Spanish Billion Words Corpus and Embeddings (March 2016),

https://crscardellino.github.io/SBWCE/

Guinovart, X. G., & Sacau, E. (2004). Métodos de optimización de la extracción de léxico bilinge a partir de

corpus paralelos. Procesamiento del Lenguaje Natural, 33.

Gutiérrez, J. J. (2014). ¿Qué es un framework web?. Available in: http://www. lsi. us. es/~

javierj/investigacion_ficheros/Framework. pdf Accessed May, 12.

Han, J., Kamber, M., & Pei, J. (2011). Data mining concepts and techniques third edition. The Morgan

Kaufmann Series in Data Management Systems, 83-124.

Hualde, J. I., Olarrea, A., Escobar, A. M., & Travis, C. E. (2010). Introducción a la Lingüística Hispánica.

Cambridge University Press.

Instituto de Estadística de la UNESCO. (2017). Más de la Mitad de los Niños y Adolescentes en el Mundo No

Está Aprendiendo. http://uis.unesco.org/sites/default/files/documents/fs46-more-than-half-children-not-

learning-2017-sp.pdf

82

Instituto Nacional de Evaluación Educativa. (2018). La educación en Ecuador: logros alcanzados y nuevos

desafíos. http://uis.unesco.org/sites/default/files/documents/fs46-more-than-half-children-not-learning-

2017-sp.pdf

Islam, S. A., Heil, B. J., Kearney, C. M., & Baker, E. J. (2018). Protein classification using modified n-grams

and skip-grams. Bioinformatics, 34(9), 1481-1487.

Juárez, A. C., & Hernández, M. H. (2007). Algunas reflexiones y aportaciones en torno a los enfoques teóricos y

prácticos de la investigación en trabajo social. Acciones e investigaciones sociales, (23), 25-55.

Leroy, G., Endicott, J. E., Mouradi, O., Kauchak, D., & Just, M. L. (2012). Improving perceived and actual text

difficulty for health information consumers using semi-automated methods. In AMIA Annual

Symposium Proceedings (Vol. 2012, p. 522). American Medical Informatics Association.

Leroy, G., Endicott, J. E., Kauchak, D., Mouradi, O., & Just, M. (2013). User evaluation of the effects of a text

simplification algorithm using term familiarity on perception, understanding, learning, and information

retention. Journal of medical Internet research, 15(7), e144.

Leroy, G., & Kauchak, D. (2014). The effect of word familiarity on actual and perceived text difficulty. Journal

of the American Medical Informatics Association, 21(e1), e169-e172.

López-Anguita, R., Montejo-Ráez, A., Martínez-Santiago, F. J., & Díaz-Galiano, M. C. (2018). Legibilidad del

texto, métricas de complejidad y la importancia de las palabras. Procesamiento del Lenguaje Natural,

61, 101-108.

Lozada, J. (2014). Investigación aplicada: Definición, propiedad intelectual e industria. CienciAmérica: Revista

de divulgación científica de la Universidad Tecnológica Indoamérica, 3(1), 47-50.

Macaulay, M. (2017). Introduction to web interaction design: With HTML and CSS. CRC Press.

Machine Learning, una expresión de la Inteligencia Artificial. (s. f.). SAS. Recuperado 5 de julio de 2020, de

https://www.sas.com/es_mx/whitepapers/local/machine-

learning.html?gclid=Cj0KCQjw9IX4BRCcARIsAOD2OB0-

42oWQrP9ngn_4NcuvvbBlqQw8kYrUF_eUAPpDMmez__7TVebkN8aAg77EALw_wcB

Matthews, C. (2016). An introduction to natural language processing through Prolog. Routledge.

Moreno, L., Martínez, P., Muguerza, J., & Abascal, J. (2018). Support resource based on standards for

accessible e-Government transactional services. Computer Standards & Interfaces, 58, 146-157.

Ministerio de Educación. (2016). Ministerio de Educación. https://educacion.gob.ec/escuelas-inclusivas/

Naciones Unidas. (2015). Discapacidad y Educación | Disabilities ES.

https://www.un.org/development/desa/disabilities-es/discapacidad-y-educacion.html

Naciones Unidas Derechos Humanos. Convención sobre los derechos de las personas con discapacidad. Artículo

2. 3 de mayo del 2008.

Node.js. (s. f.). Acerca. Recuperado 24 de junio de 2020, de https://nodejs.org/es/about/

Ortiz Zambrano, J. A., & Montejo Ráez, A. (2017). VYTEDU: Un corpus de vídeos y sus transcripciones para

investigación en el ámbito educativo.

Ogden, C. K. (1930). Basic English: A general introduction with rules and grammar.

Oxford University Press (OUP). (s. f.). corpus. Lexico.com. Recuperado 27 de septiembre de 2020, de

https://www.lexico.com/definition/corpus

RAE. (2018). CREA. Real Academia Española. https://www.rae.es/recursos/banco-de-datos/crea

83

Paetzold, G., & Specia, L. (2016, May). Benchmarking lexical simplification systems. In Proceedings of the

Tenth International Conference on Language Resources and Evaluation (LREC'16) (pp. 3074-3080).

Paetzold, G., & Specia, L. (2015, July). Lexenstein: A framework for lexical simplification. In Proceedings of

ACL-IJCNLP 2015 System Demonstrations (pp. 85-90).

Pérez, J. E. (2019). introducción a JavaScript.

Ramiro Beltran, L. (1959). Materiales de Enseñanza en Comunicaciones: Redacción Simplificada (Vol. 2).

https://books.google.com.ec/books?id=noUgAQAAIAAJ&dq=Materiales+de+Ensenanza+en+Comuni

caciones:+Redaccion+Simplificada&hl=es&source=gbs_navlinks_s

Ramsay, J., Frías, H., & Beltrán, L. (1975). Extensión Agrícola Dinámica del Desarrollo Rural (3.a ed.). IICA.

RedHat. (s. f.). ¿Qué es una API? https://www.redhat.com/es/topics/api/what-are-application-programming-

interfaces. Recuperado 27 de septiembre de 2020, de https://www.redhat.com/es/topics/api/what-are-

application-programming-interfaces

Řehůřek, R., & Sojka, P. (2011). Gensim—statistical semantics in python. Retrieved from genism. org.

Rello, L., Baeza-Yates, R., Bott, S., & Saggion, H. (2013, May). Simplify or help? Text simplification strategies

for people with dyslexia. In Proceedings of the 10th International Cross-Disciplinary Conference on

Web Accessibility (pp. 1-10).

Reyzábal, M. V. (2012). LAS COMPETENCIAS COMUNICATIVAS Y LINGÜÍSTICAS, CLAVE PARA LA

CALIDAD EDUCATIVA. REICE. Revista Iberoamericana sobre Calidad, Eficacia y Cambio en

Educación, 10(4), 63-77. https://www.redalyc.org/pdf/551/55124841006.pdf

Russo, C., Ramón, H. D., Alonso, N., Cicerchia, L. B., Esnaola, L., & Tessore, J. P. (2016). Tratamiento masivo

de datos utilizando técnicas de Machine Learning. In XVIII Workshop de Investigadores en Ciencias

de la Computación (Entre Ríos, Argentina).

Saggion, H., Gómez-Martínez, E., Etayo, E., Anula, A., & Bourg, L. (2011). Text simplification in simplext:

Making texts more accessible. Procesamiento del lenguaje natural, (47), 341-342.

Saggion, H., Štajner, S., Bott, S., Mille, S., Rello, L., & Drndarevic, B.: Making it simplext: Implementation and

evaluation of a text simplification system for spanish. ACM Transactions on Accessible Computing

(TACCESS), 6(4), 14. PDF (2015).

Sanmartín, J. (2019). Neología y lematización: acortamientos y siglas en los diccionarios del español. Revista de

Lexicografía, 25, 79-101.

Schwaber, K., & Sutherland, J. (2017). La Guía Definitiva de Scrum: Las Reglas del Juego.

https://www.scrumguides.org/docs/scrumguide/v2017/2017-Scrum-Guide-Spanish-SouthAmerican.pdf

SEPLN | Sociedad Española de Procesamiento del Lenguaje Natural. (2018). SEPLN. Recuperado 1 de julio de

2020, de http://www.sepln.org/sepln

Siddharthan, A. (2002, December). An architecture for a text simplification system. In Language Engineering

Conference, 2002. Proceedings (pp. 64-71). IEEE.

Spaulding, S.: A Spanish readability formula. The Modern Language Journal, 40(8), 433-441. PDF (1956).

Štajner, S., Evans, R., Orasan, C., & Mitkov, R. (2012). What can readability measures really tell us about text

complexity. In Proceedings of workshop on natural language processing for improving textual

accessibility (pp. 14-22).

84

Talamé, L., Cardoso, A., & Amor, M. (2019). Comparación de herramientas de procesamiento de textos en

español extraídos de una red social para Python. In XX Simposio Argentino de Inteligencia Artificial

(ASAI 2019)-JAIIO 48 (Salta).

Torunoglu-Selamet, D., Pamay, T., & Eryigit, G. (2016). Simplification of Turkish sentences. In The First

International Conference on Turkic Computational Linguistics, ss (pp. 55-59).

Trigas Gallego, M. (2012). Metodología Scrum.

http://openaccess.uoc.edu/webapps/o2/bitstream/10609/17885/1/mtrigasTFC0612memoria.pdf

Tronbacke, B. I. (1997). Easy-to-Read-An important part of reading promotion and in the fight against illiteracy.

IFLA journal, 23(3), 185-191.

UNESCO. (2017, 4 mayo). Educación para personas discapacitadas. https://es.unesco.org/themes/inclusion-

educacion/personas-

discapacitadas#:%7E:text=El%20art%C3%ADculo%2024%20de%20la,los%20dem%C3%A1s%20y%

20en%20las

Vargas Cordero, Z. R. (2009). La investigación Aplicada: Una Forma de Conocer las Realidades con Evidencia

Científica. Revista Educación, 33(1), 155-165. https://www.redalyc.org/pdf/440/44015082010.pdf

Vivas, H. L., Muñoz Abbate, H., Petroff, M., Cambarieri, M., & García Martínez, N. (2015). Material Design-

Un lenguaje Visual para el desarrollo Ágil de Software.

Zambrano, J. O., MontejoRáez, A., Castillo, K. N. L., Mendoza, O. R. G., & Perdomo, B. C. C. (2019, March).

VYTEDU-CW: Difficult Words as a Barrier in the Reading Comprehension of University Students. In

The International Conference on Advances in Emerging Trends and Technologies (pp. 167-176).

Springer, Cham.

85

ANEXOS

Anexo 1. Planificación de Actividades del Proyecto


investigación.

86

Anexo 2. Geo-localización del Problema

Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: GoogleMaps

87

Anexo 3. Fundamentación Legal

El presente proyecto de titulación se fundamenta en la constitución, leyes y normas

como se detalla a continuación:

Constitución del Ecuador Contexto

Artículo. 26 La educación es un derecho de las personas a lo largo de su

vida y un deber ineludible e inexcusable del Estado.

Constituye un área prioritaria de la política pública y de la

inversión estatal, garantía de la igualdad e inclusión social y

condición indispensable para el buen vivir.

Artículo 28 La educación responderá al interés público y no estará al

servicio de intereses individuales y corporativos. Se

garantizará el acceso universal, permanencia, movilidad y

egreso sin discriminación alguna

Artículo 350 El sistema de educación superior tiene como finalidad la

formación académica y profesional con visión científica y

humanista; la investigación científica y tecnológica; la

innovación, promoción, desarrollo y difusión de los saberes y

las culturas; la construcción de soluciones para los problemas

del país, en relación con los objetivos del régimen de

desarrollo. Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Constitución

del Ecuador

Artículo de la LOES Contexto

Art. 2.- Objeto Esta Ley tiene como objeto definir sus principios, garantizar

el derecho a la educación superior de calidad que propenda a

la excelencia interculturalidad, al acceso universal,

permanencia, movilidad y egreso sin discriminación alguna y

con gratuidad en el ámbito público hasta el tercer nivel.

Art. 4.- Derecho a la

Educación Superior

El derecho a la educación superior consiste en el ejercicio

efectivo de la igualdad de oportunidades, en función de los

méritos respectivos, a fin de acceder a una formación

académica y profesional con producción de conocimiento

pertinente y de excelencia.

Art. 8.- Fines de la

Educación Superior

d) Formar académicos y profesionales responsables, en todos

los campos del conocimiento, con conciencia ética y

solidaria, capaces de contribuir al desarrollo de las

instituciones de la República, a la vigencia del orden

democrático, y a estimular la participación social; Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán. Fuente: Ley Orgánica

de Educación Superior

88

Decreto N.1014 de

Software libre

Contexto

Artículo 1 Establecer como política pública para las Entidades de

Administración Pública Central la utilización del Software

Libre en sus sistemas y equipamientos informáticos.

Artículo 2 Se entiende por software libre, a los programas de

computación que se pueden utilizar y distribuir sin

restricción alguna, que permitan su acceso a los códigos

fuentes y que sus aplicaciones puedan ser mejoradas.

Artículo 3 Las entidades de la Administración Pública Central previa a

la instalación del software libre en sus equipos, deberán

verificar la existencia de capacidad técnica que brinde el

soporte necesario para el uso de este tipo de software.

Artículo 4 Se faculta la utilización de software propietario (no libre)

únicamente cuando no exista una solución de software libre

que supla las necesidades requeridas, o cuando esté en riesgo

la seguridad nacional, o cuando el proyecto informático se

encuentre en un punto de no retorno Nota: Elaborado por Néstor Daniel Cruz Quezada y Joseph Hari Rodríguez Avellán, Fuente: Estrategia

para la Implementación de Software Libre en la Administración Pública Central.

89

Anexo 4. Criterios Éticos a Utilizarse en el Desarrollo del Proyecto

Criterios Características del

criterios Procedimientos

Credibilidad

Aproximación de los

resultados de una

investigación frente al

fenómeno observado

Hallazgos reales sobre la

problemática de la investigación.

Relevancia del estudio.

Transferibilidad

Conocimiento sobre el

contexto que permite

transferir las conclusiones a

contextos similares

Proporcionar información

detallada del contexto.

Muestro teórico.

Dependencia Estabilidad relativa y

variabilidad de los datos

Proceso de recolección análisis e

interpretación de los datos

Confirmabilidad

Refleja la veracidad de los

resultados y la investigación

realizada

La información está respaldada de

fuentes confiables y científicas

Resultados evaluados y

confirmados por personas

externas a la investigación.


investigación

90

Anexo 5. Formatos de Técnicas de Recolección de Datos Aplicadas para Variables


FACULTAD DE CIENCIAS MATEMATICAS Y FIÍSICAS


Proyecto: Sistema de detección de palabras complejas en español aplicando estrategias de

simplificación léxica para contribuir a la comprensión lingüística de los estudiantes

universitarios.

Objetivo: Desarrollar un sistema de detección de palabras complejas en español aplicando




Encuesta N°: 1 *Obligatorio

CONOCIENDO AL ENCUESTADO*

1) ¿Cuál es tu nombre? ___________________

2) ¿Presentas algún problema de recepción o comprensión de datos? *

SI NO PREFIERO NO CONTESTAR

Si tu respuesta fue NO, menciona cual. * ________________

PREGUNTAS

1) ¿Te gusta leer? *

SI NO A VECES

¿Por qué no te gusta leer? * ___________________

2) ¿Comprendes lo que lees? *

SI NO A VECES

3) ¿Consideras que el contenido de los textos académicos tiene ciertas palabras que no conoces?

*

SI NO

4) ¿Te gustaría que mediante un aplicativo el contenido de un texto pueda ser transformado en

otro que sea fácil de comprender? *

SI NO

5) ¿Te gustaría mediante un aplicativo conocer de forma automática el significado de las palabras

consideradas complejas que están en un texto? *

SI NO

6) ¿Te gustaría que el aplicativo presente de forma automática los sinónimos de las palabras que

te resulten difícil de comprender? *

SI NO

7) ¿Consideras que los estudiantes que tengan bajo nivel de comprensión lectora o posean algún

tipo de discapacidad cognitiva se beneficiarían con este aplicativo? *

SI NO

8) ¿Conoces de un aplicativo que te permita transformar o convertir un texto difícil a otro sencillo

que sea fácil de comprender? *

SI NO

9) Si tu respuesta a la anterior pregunta fue SI, Menciona el aplicativo que conoces. *

___________________________________

10) ¿Te gustaría que este aplicativo pueda ser utilizado por los estudiantes de la UG para facilitar

el aprendizaje de las asignaturas? *

SI NO

91


FACULTAD DE CIENCIAS MATEMATICAS Y FIÍSICAS


Proyecto: Sistema de detección de palabras complejas en español aplicando estrategias de


universitarios.

Objetivo: Desarrollar un sistema de detección de palabras complejas en español aplicando




ENCUESTA DE SATISFACCIÓN

Encuesta N°: 2

*Obligatorio

CONOCIENDO AL ENCUESTADO*

1) ¿Cuál es tu nombre? ___________________

PREGUNTAS

1) ¿Consideras que fue de utilidad ver sinónimos de las palabras complejas en el texto? * Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho

2) ¿Consideras que fue de utilidad ver definiciones de las palabras complejas en el texto?

* Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho

3) ¿Consideras que el sistema posee una interfaz sencilla? * Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho

4) ¿Las herramientas que posee el sistema te ayudaron a comprender de mejor manera el

contenido del texto? * Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho

5) ¿Desde el punto de vista de usuario final consideras satisfactorio el desempeño del

sistema? * Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho

6) ¿Estas Satisfecho con el Sistema? * Muy Insatisfecho Insatisfecho Neutral Satisfecho Muy Satisfecho

92

Anexo 6. Validación de expertos.

APELLIDOS Y NOMBRES DEL EXPERTO TÍTULO PROFESIONAL

DEL EXPERTO AUTORES

Lino Castillo Katty Nancy MSc. Sistemas de

Información Gerencial

Néstor Daniel Cruz

Quezada

Joseph Hari

Rodríguez Avellán

TÍTULO DEL PROYECTO

Sistema de detección de palabras complejas en español aplicando estrategias de


universitarios.

Criterios CUMPLE NO CUMPLE

El sistema muestra una interfaz sencilla. X

El sistema permite explorar archivos para su selección. X

El sistema transforma un texto complejo en accesible (es decir, en otro de fácil comprensión para el lector)

X

El sistema guarda el archivo simplificado. X

El sistema brinda un informe detallado sobre el análisis léxico del texto.

X

El sistema aplica estrategias lingüísticas para facilitar la comprensión del lector.

X

El sistema brinda información complementaria a las palabras complejas encontradas.

X

El sistema emplea lenguajes de programación de vanguardia.

X

El sistema es intuitivo de fácil uso. X

El sistema se basa en aspectos teóricos y científicos. X

El sistema emplea estrategias de comprensión léxica (como es el uso de sinónimos, origen de las palabras, definiciones) que aportan al lector en la comprensión lingüística.

X

El sistema hace uso de recursos científicos externos (VYDETU, CREA).

X


93

94


DEL EXPERTO AUTORES

Freddy David Coto Torres Analista de Sistemas Néstor Daniel Cruz

Quezada

Joseph Hari

Rodríguez Avellán




universitarios.





X



X


X


X


X




X


X


95

96


DEL EXPERTO AUTORES

Yépez Paladines Juan Carlos Licenciado en Sistemas

de Información

Néstor Daniel Cruz

Quezada

Joseph Hari

Rodríguez Avellán




universitarios.





X



X


X


X


X




X


X


97

98

Anexo 7. Acta de Entrega y Recepción Definitiva

En la ciudad de Guayaquil, a los 14 días del mes de octubre de 2020

Por el presente documento.

Los estudiantes no titulados de la Carrera de Ingeniería en Sistemas Computacionales

Néstor Daniel Cruz Quezada con cédula de identidad N° 0929319879 y Joseph Hari Rodríguez

Avellán con cédula de identidad N° 0920249869 hacemos la entrega del código fuente del

proyecto de titulación a la Dirección de la Carrera de Ingeniería en Sistemas Computacionales

en un medio magnético.

Los códigos del programa/producto que se encargaron por compromiso al estar inserto

en el proceso de titulación desde la fecha 27 de julio de 2020.

Para efectos de dar cumplimiento a la entrega del código fuente, cedo todos los derechos

de explotación sobre el programa y, en concreto, los de transformación, comunicación pública,

distribución y reproducción, de forma exclusiva, con un ámbito territorial nacional.

0929319879


0920249869


99

Anexo 8. Certificado de Aceptación del Producto

100

Anexo 9. Manual Técnico




MANUAL TÉCNICO



CONTRIBUIR A LA COMPRENSIÓN LINGÜÍSTICA DE LOS

ESTUDIANTES UNIVERSITARIOS

AUTORES:



TUTOR:



2020 - 2021 CICLO I

101

Introducción

Objetivo

Sistema desarrollado para la detección de palabras complejas en español aplicando


estudiantes de la Carrera de Software de la Facultad de Ciencias Matemáticas y Físicas de

la Universidad de Guayaquil.

Requerimientos

Requerimientos Recomendados

• Nvidia GTX 660 o AMD Radeon HD 7870 con DX11 GPU equivalente

• 2 GB de VRAM

• Core i5-7300U 3,5 GHz

• 8 GB de RAM

• Windows 7/8/10 de 64 bits

Requerimientos Mínimos

• Intel HD 4000 en PC o Intel Iris Pro 5200

• 4 GB de RAM

• Core i3-3225 3,3 GHz

• Windows 7/8/10 de 64 bits o versión de macOS 10.14.6

Herramientas y Versiones

Tipo Detalle

Lenguaje de programación Python 3.7.6, JavaScript

Lenguaje de Etiqueta HTML

Entorno de desarrollo Node JS 12.14.1

Framework Electron JS 9.0.0

Framework CSS Material Design Lite V1.3.0

Librería SpaCy 2.3.2, NLTK 3.5, Pattern 3.6,

Gensim 3.8.3, BeautifulSoup4 4.9.1

102

Node JS, Electron JS y Python

La aplicación de Python usa como componente de GUI el Framework JS a través de la

plataforma de desarrollo Node JS, lo que brinda una GUI moderna.

La comunicación de Electron y Python está dada por el módulo de Node JS, child_process

(https://nodejs.org/api/child_process.html) que permite generar procesos secundarios

Arquitectura

Electron JS Python Node JS

103

Los archivos en formato TXT son tomados desde la GUI de Electron JS y en la cual se

puede seleccionar los procesos de análisis que se desee hacer (análisis léxico o simplificación

léxica) los datos se envían a Python por medio del módulo child_process de Node JS.

El código de Python es el corazón del sistema, en él está todo el procesamiento del

lenguaje; para llevar a cabo los procesos de simplificación y análisis léxico Python se alimenta

de cuatros recursos:

• Lista de Frecuencia del Corpus de Referencia Actual: Esta lista originalmente está

en forma TXT (http://corpus.rae.es/lfrecuencias.html) para este sistema, la lista fue

procesada y convertida en formato .csv y formato del sistema local.

• Thesaurus Altervista: API de sinónimos (https://thesaurus.altervista.org/) Requiere de

una Key API para realizar consultas. Tiene un límite de 1000 consultas por día.

• Wiktionary: Diccionario en línea, las consultas no se hacen a través de la API de

WikiMedia, en su lugar este Sistema realiza consultas directamente a la url con el

siguiente formato: https://es.wiktionary.org/wiki/{}?printable=yes, se obtiene el

HTML de la página, se analiza su estructura y se extrae las definiciones.

• Spanish Billion Words: Modelo pre-entrenado para el análisis de similitudes

(https://crscardellino.github.io/SBWCE/), es un archivo en formato .bin forma parte del

sistema local.

• Al finalizar el análisis del texto dato, se devuelve un JSON a la GUI de Electron JS

104

Formato de JSON

Python devuelve los datos en formato JSON, su estructura es la siguiente:

{

"name": "Nombre del archivo",

"list":

[

{

"word": "Palabra compleja",

"lemma": "Lema de la palabra compleja",

"most_similarity": "sinónimo más similar",

"synonyms": [“sinónimo 1”, “sinónimo 2”, “sinónimo N”],

"definitions": [“Definición de la palabra compleja”],

"etymologies": [“Etimología de la palabra compleja”]

},

{

"word": " Palabra compleja ",

"lemma": ""Lema de la palabra compleja ",

"most_similarity": " sinónimo más similar ",

"synonyms": [“sinónimo 1”, “sinónimo 2”, “sinónimo N”],

"definitions": [“Definición de la palabra compleja”],

"etymologies": [“Etimología de la palabra compleja”]

}

],

"text": "Texto completo del archivo procesado",

"time": Tiempo de duración

}

Detalles

• Name: nombre del archivo sin la extensión.

• List: es un arreglo de lista que contiene datos obtenidos en el en el análisis.

• Word: palabra compleja identificada.

• Lemma: lema o raíz de la palabra.

• Most_similarity: sinónimo más similar en el contexto de la palabra compleja.

• Synonyms: un arreglo de todos los sinónimos obtenidos en la consulta.

• Definitions: arreglo que contiene la definición de la palabra.

• Etymologies: origen etimológico de la palabra compleja

• Text: todo el texto del archivo

• Time: tiempo de duración del análisis expresado en segundos

El texto simplificado se almacena en formato JSON para conversar los valores del

análisis y poder ser leído cuando se lo desee sin volver a realizar el análisis.

105

Flujo de procesos de la Simplificación Léxica

El diseño del flujo de proceso es el siguiente:

106

Identificación de palabras complejas

Consiste en determinar las palabras que sean menores a 1000 en el ranking de frecuencia del

CREA, En esta fase también se crea el etiquetado POS, lematización y N-grams.

Generación de sustitutos

Generación de sustitutos o sinónimos a través de la API Thesaurus Altervista; solo acepta

verbos en infinitivo, esta limita a 1000 consultas por días, posteriormente las palabras deben

ser conjugadas y filtrada por su complejidad aplicando el proceso anterior.

Selección de sustitutos

En esta lista se comparan cada uno de los sustitutos con los N-grams para posteriormente sumar

sus valores; el valor más alto es seleccionado con el sustituto idóneo.

Librerías

SpaCy

Librería para Python de procesamiento de lenguaje natural puede ser descargada de su página

oficial (https://spacy.io/) o en el administrador de paquetes de Python:

pip install -U spacy

Requiere del modelo pre entrado es_core_news_sm es posible descargarlo de la siguiente

forma:

python -m spacy download es_core_news_sm

NLTK

Librería para Python para el procesamiento del lenguaje natural

(https://www.nltk.org/install.html)

pip install --user -U nltk

107

Pattern

Librería para Python de procesamiento de lenguaje natural y minería de datos

(https://github.com/clips/pattern) disponible en el administrador de paquetes de Python:

pip install pattern

Gensim

Librería para Python para el modelado datos, indexación de datos y recuperación de similitudes

disponible en el administrador de paquetes de Python:

pip install gensim

BeautifulSoup4

Librería para Python que facilita la lectura de páginas web disponible en el administrador de

paquetes de Python:

pip install beautifulsoup4

108

Anexo 10. Manual de Usuario




MANUAL DE USUAIO



CONTRIBUIR A LA COMPRENSIÓN LINGÜÍSTICA DE LOS

ESTUDIANTES UNIVERSITARIOS

AUTORES:



TUTOR:



2020 - 2021 CICLO I

109

Introducción

Objetivo

Sistema desarrollado para la detección de palabras complejas en español aplicando


estudiantes de la de la Universidad de Guayaquil que pertenecen a la Carrera de Software

de la Facultad de Ciencias Matemáticas y Físicas

Requerimientos

Requerimientos Recomendados

• Nvidia GTX 660 o AMD Radeon HD 7870 con DX11 GPU equivalente

• 2 GB de VRAM

• Core i5-7300U 3,5 GHz

• 8 GB de RAM

• Windows 7/8/10 de 64 bits

Requerimientos Mínimos

• Intel HD 4000 en PC o Intel Iris Pro 5200

• 4 GB de RAM

• Core i3-3225 3,3 GHz

• Windows 7/8/10 de 64 bits o versión de macOS 10.14.6

Opciones del Sistema

El presente Manual está organizado de acuerdo con la secuencia a continuación detallada

• Ingreso al sistema (Pantalla Principal)

• Archivos agregados.

• Menú Contextual

• Leer (Visualizador de archivos)

• Análisis léxico

• Simplificación léxica.

110

Ingreso al Sistema (Pantalla Principal)

Al iniciar el sistema esta pantalla se mostrará ante el usuario.

En esta pantalla podremos ver al iniciar el sistema el apartado de agregados.

El botón del lado izquierdo será el encargado de abrir un navegador

de archivos para poder añadir los textos en formato .txt que después serán procesados.

En el lado izquierdo se cuenta con un dashboard que nos deja ver 2 opciones.

• Agregados, en esta se mostrarán los archivos que fueron agregados al sistema.

• Simplificados, aquí se muestran los archivos que fueron simplificados por el sistema.

111

Archivos Agregados

Una vez hemos seleccionado los archivos que se agregarán al sistema, estos se mostrarán en la

sección “Agregados”.

Nota: Solo se podrán agregar archivos con extensión “.txt”.

Los textos agregados estarán identificados por su nombre y se mostrarán en formas de mosaicos

ordenados de forma alfabética.

En esta sección podremos apreciar que el sistema brinda la facilidad de “Seleccionar todos”

los archivos, así como seleccionar cada uno de manera individual con un apartado tipo

checkbox que se encuentra en la esquina superior izquierda de cada archivo. Al tener

seleccionado uno o todos los archivos podremos hacer uso de la opción “Eliminar”.

En caso de Eliminar archivos de uno en uno no emergerá ningún mensaje o ventana de

advertencia, pero si hace uso de la opción de eliminar todos al ser esta una operación critica se

mostrará en pantalla un mensaje de advertencia el cual le preguntará al usuario si se encuentra

seguro de eliminar todos los archivos seleccionados.

112

Menú Contextual

Los archivos agregados cuentan con un menú contextual que podrá ser desplegado al dar clic

derecho en uno de ellos.

El menú contextual contara con las siguientes funciones.

113

• Leer: Esta opción nos permitir visualizar el contenido del archivo.

• Análisis Léxico: Se muestran tablas que describen las métricas de la complejidad léxica

que fueron aplicadas al texto.

• Simplificar Texto: Esta opción nos permitirá simplificar el texto seleccionado

convirtiéndolo en un texto mucho más fácil de leer y comprender.

Leer (Visualizador del Archivo)

Para acceder a esta opción hay dos formas.

1) Clic derecho en el archivo y luego clic en la opción “Leer”.

2) Doble clic en el archivo que se desee visualizar.

Una vez dentro del visualizador se abrirá una pestaña con el nombre del archivo, dentro de ella

podremos desplazarnos con el scroll del mouse o ir a una página especifica del documento así

mismo encontraremos un apartado tipo combo box en donde están las opciones de zoom.

114

Nota: El sistema asigna automáticamente el formato al texto.

Análisis Léxico

Al escoger la Opción del análisis léxico nos aparecerá la siguiente barra de progreso, la cual

desaparecerá inmediatamente después de que el análisis léxico haya culminado.

Dependiendo del tamaño del archivo puede tardar más o menos minutos en culminar el análisis

léxico.

115

Una vez culminado el análisis se despliega una ventana que nos muestra Legibilidad del texto

y el Detalle de las Métricas que fueron aplicadas.

• Complejidad Léxica: Valor que indica la complejidad de un texto.

• Palabras de baja frecuencia: Indica el número de palabras de poco uso.

• Índice de baja frecuencia: Valor que representa las palabras de baja frecuencia.

• Palabras de contenido: Son sustantivos, verbos, adjetivos y adverbios.

• Palabras de contenido distintas: Indica el número de palabras de contenido sin

considerar el número de veces que se repitan en el texto.

• Índice de Distribución léxica: Este valor indica cómo se distribuyen las palabras de

contenido distintas por oración.

116

Simplificación Léxica

Al escoger la opción de simplificación léxica se mostrará a continuación un texto nuevo mucho

más fácil de leer y comprender al utilizar sinónimos más sencillos sin alterar el sentido del

texto.

Las palabras que fueron reemplazadas se muestran resaltadas de un color distintivo.

Al pasar el mouse por la palabra reemplazada se desplegará una ventana que nos detalla la

palabra original, el lema, otros sinónimos, su etimología y su definición.