Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
MPGI UCMAGISTER EN PROCESAMIENTO Y GESTIÓN DE LA INFORMACIÓN
César Antonio Aguilar
Facultad de Lenguas y Letras
08/10/2020
Internet y sociedad: comunicacion
y cultura en la era digital
2
Síntesis de la clase anterior (1)
En la clase anterior, vimos cómo la minería de textos puede ser un
método sumamente útil para obtener información significativa que
proveniente de corpus lingüísticos.
3
Síntesis de la clase anterior (2)
Hoy en día existen muchas herramientas que permiten realizar una
minería de textos en documentos humanísticos. Un caso en concreto,
Voyant, desarrollada por Stéfan Sinclair y Geoffrey Rockwell:
Para saber más:
https://voyant-tools.org
4
Síntesis de la clase anterior (3)
Finalmente, si bien no hay un método único para hacer minería de
textos, en general los procesos que se consideran para esta clase de
tarea son:
Lenguaje y matemáticas (1)
Retomando una discusión qur tuvimos al principio del curso, las
matemáticas y la lingüística han mantenido relaciones estrechas entre sí, de
tal suerte que muchos fenómenos del lenguaje pueden ser representados o
explicados con nociones lógico-matemáticas, p. e.:
5
6
Por alguna razón, la lingüística teórica ha mostrado una mayor
resistencia para aceptar los modelos estadísicos que la lingüística
aplicada. La lingüística de corpus es un buen caso:
Lenguaje y matemáticas (2)
7
En contraparte, si le preguntamos a un gramático cuál es el papel
que juega la estadística en sus métodos de análisis, algunas de sus
respuestas posibles son:
Lenguaje y matemáticas (3)
El jardín en donde los senderos se bifurcan (1)
El jardín en donde los senderos se bifurcan (2)
El jardín en donde los senderos se bifurcan (3)
11
El jardín en donde los senderos se bifurcan (4)
12
All grammars leak (1)
13
All grammars leak (2)
Para saber más:
https://nlp.stanford.edu/~manning/papers/probsyntax.pdf
15
All grammars leak (4)
16
All grammars leak (5)
17
All grammars leak (6)
18
All grammars leak (7)
19
All grammars leak (8)
20
La disyuntiva del gramático contemporáneo
21
El enfoque distribucionista (1)
Volvamos a los años 50, en concreto a Estados Unidos. Como
hemos dicho, el modelo teórico que empezaba a emerger era el
generativista, el cual es el fruto de las ideas de Chomsky..., así como
su mentor, Zellig Harris.
22
El enfoque distribucionista (2)
Empero, a diferencia de Chomsky, Harris consideraba que debía
haber una relación armónica entre una hipótesis y los datos que la
sustenten, esto es:
23
El enfoque distribucionista (3)
Harris ponía un énfasis especial en el análisis de
datos lingüísticos, sobre todo para corroborar, a partir
de la frecuencia de ocurrencia de un fenómeno
determinado, qué tanto una hipótesis resultaba
explicativa o no.
En sus propias palabras, consideraba que:
24
El enfoque distribucionista (4)
Una manera de explicar la propuesta de Harris es por medio de un
fenómeno que se conoce como coocurrencia léxica, esto es:
cuando una palabra aparece en una oración, ¿qué tan probable es
que vaya acompañada por otras? Digamos:
25
El enfoque distribucionista (6)
En el ejemplo anterior tenemos un caso de ambigüedad léxica, esto
es,inferir el significado de estas palabras considerando cuáles son sus
vecinos, para saber si su presencia (o ausencia) muestra alguna relación
con dicho significado.
Otra forma de entender esto es considerar las siguientes palabras y sus
frecuencias:
26
El enfoque distribucionista (7)
27
El enfoque distribucionista (8)
28
Vectores de palabras (1)
Si estos datos los traducimos en vectores (esto es, en objetos matemáticos
representables en un plano espacial), entonces podemos generar vectores
de palabras (ing. Word Embedding), y así visualizar mejor qué tanta
información semántica comparten estos pares de palabras. Veamos:
29
Vectores de palabras (2)
30
El significado es una ventana al pensamiento (1)
Si bien este título parece una “verdad de Perogrullo”, lo que plantea es la
posibilidad de acceder al plano cognitivo de la mente humana a través de la
comprensión de la semántica del lenguaje natural.
Esta idea fue planteada por Ray Jackendoff, y ha sido analizada e
implementada por lingüistas, filósofos, psicólogos y computólogos.
Ray Jackendoff
(1945)
Para saber más:
www.youtube.com/watch?v=R9U5zee32jg
31
El significado es una ventana al pensamiento (1)
Veamos si esto es cierto, aplicando un método basado en vectores
de palabras, y así saber si realmente el análisis semántico nos lleva a
un plano cognitivo. Identifiquemos nombres y verbos en esta oración:
32
El significado es una ventana al pensamiento (2)
33
El significado es una ventana al pensamiento (3)
34
El significado es una ventana al pensamiento (4)
35
El significado es una ventana al pensamiento (5)
36
El significado es una ventana al pensamiento (6)
37
El significado es una ventana al pensamiento (7)
38
El significado es una ventana al pensamiento (8)
39
La ley de Zipf (1)
40
La ley de Zipf (2)
41
La ley de Zipf (3)
42
La ley de Zipf (4)
43
La ley de Zipf (5)
En el siguiente video que les dejo, el Dr. Pascual Cantos Gómez explica
cómo se puede emplear la ley de Zipf para hacer análisis tanto lingüísticos
como literarios, brindando un antecedente importante para las Humanidades
Digitales en español.
Para saber más:
www.youtube.com/watch?v=mdudv1UgodI
Blog del curso:
https://cesaraguilar.weebly.com/internet-y-
sociedad.html
Gracias por su atención