Internet y sociedad: comunicación y cultura en la …...La ley de Zipf (5) En el siguiente video...

Preview:

Citation preview

MPGI UCMAGISTER EN PROCESAMIENTO Y GESTIÓN DE LA INFORMACIÓN

César Antonio Aguilar

Facultad de Lenguas y Letras

08/10/2020

Internet y sociedad: comunicacion

y cultura en la era digital

Cesar.Aguilar72@gmail.com

2

Síntesis de la clase anterior (1)

En la clase anterior, vimos cómo la minería de textos puede ser un

método sumamente útil para obtener información significativa que

proveniente de corpus lingüísticos.

3

Síntesis de la clase anterior (2)

Hoy en día existen muchas herramientas que permiten realizar una

minería de textos en documentos humanísticos. Un caso en concreto,

Voyant, desarrollada por Stéfan Sinclair y Geoffrey Rockwell:

Para saber más:

https://voyant-tools.org

4

Síntesis de la clase anterior (3)

Finalmente, si bien no hay un método único para hacer minería de

textos, en general los procesos que se consideran para esta clase de

tarea son:

Lenguaje y matemáticas (1)

Retomando una discusión qur tuvimos al principio del curso, las

matemáticas y la lingüística han mantenido relaciones estrechas entre sí, de

tal suerte que muchos fenómenos del lenguaje pueden ser representados o

explicados con nociones lógico-matemáticas, p. e.:

5

6

Por alguna razón, la lingüística teórica ha mostrado una mayor

resistencia para aceptar los modelos estadísicos que la lingüística

aplicada. La lingüística de corpus es un buen caso:

Lenguaje y matemáticas (2)

7

En contraparte, si le preguntamos a un gramático cuál es el papel

que juega la estadística en sus métodos de análisis, algunas de sus

respuestas posibles son:

Lenguaje y matemáticas (3)

El jardín en donde los senderos se bifurcan (1)

El jardín en donde los senderos se bifurcan (2)

El jardín en donde los senderos se bifurcan (3)

11

El jardín en donde los senderos se bifurcan (4)

12

All grammars leak (1)

13

All grammars leak (2)

Para saber más:

https://nlp.stanford.edu/~manning/papers/probsyntax.pdf

14

All grammars leak (3)

Para saber más:

http://hpsg.stanford.edu

15

All grammars leak (4)

16

All grammars leak (5)

17

All grammars leak (6)

18

All grammars leak (7)

19

All grammars leak (8)

20

La disyuntiva del gramático contemporáneo

21

El enfoque distribucionista (1)

Volvamos a los años 50, en concreto a Estados Unidos. Como

hemos dicho, el modelo teórico que empezaba a emerger era el

generativista, el cual es el fruto de las ideas de Chomsky..., así como

su mentor, Zellig Harris.

22

El enfoque distribucionista (2)

Empero, a diferencia de Chomsky, Harris consideraba que debía

haber una relación armónica entre una hipótesis y los datos que la

sustenten, esto es:

23

El enfoque distribucionista (3)

Harris ponía un énfasis especial en el análisis de

datos lingüísticos, sobre todo para corroborar, a partir

de la frecuencia de ocurrencia de un fenómeno

determinado, qué tanto una hipótesis resultaba

explicativa o no.

En sus propias palabras, consideraba que:

24

El enfoque distribucionista (4)

Una manera de explicar la propuesta de Harris es por medio de un

fenómeno que se conoce como coocurrencia léxica, esto es:

cuando una palabra aparece en una oración, ¿qué tan probable es

que vaya acompañada por otras? Digamos:

25

El enfoque distribucionista (6)

En el ejemplo anterior tenemos un caso de ambigüedad léxica, esto

es,inferir el significado de estas palabras considerando cuáles son sus

vecinos, para saber si su presencia (o ausencia) muestra alguna relación

con dicho significado.

Otra forma de entender esto es considerar las siguientes palabras y sus

frecuencias:

26

El enfoque distribucionista (7)

27

El enfoque distribucionista (8)

28

Vectores de palabras (1)

Si estos datos los traducimos en vectores (esto es, en objetos matemáticos

representables en un plano espacial), entonces podemos generar vectores

de palabras (ing. Word Embedding), y así visualizar mejor qué tanta

información semántica comparten estos pares de palabras. Veamos:

29

Vectores de palabras (2)

30

El significado es una ventana al pensamiento (1)

Si bien este título parece una “verdad de Perogrullo”, lo que plantea es la

posibilidad de acceder al plano cognitivo de la mente humana a través de la

comprensión de la semántica del lenguaje natural.

Esta idea fue planteada por Ray Jackendoff, y ha sido analizada e

implementada por lingüistas, filósofos, psicólogos y computólogos.

Ray Jackendoff

(1945)

Para saber más:

www.youtube.com/watch?v=R9U5zee32jg

31

El significado es una ventana al pensamiento (1)

Veamos si esto es cierto, aplicando un método basado en vectores

de palabras, y así saber si realmente el análisis semántico nos lleva a

un plano cognitivo. Identifiquemos nombres y verbos en esta oración:

32

El significado es una ventana al pensamiento (2)

33

El significado es una ventana al pensamiento (3)

34

El significado es una ventana al pensamiento (4)

35

El significado es una ventana al pensamiento (5)

36

El significado es una ventana al pensamiento (6)

37

El significado es una ventana al pensamiento (7)

38

El significado es una ventana al pensamiento (8)

39

La ley de Zipf (1)

40

La ley de Zipf (2)

41

La ley de Zipf (3)

42

La ley de Zipf (4)

43

La ley de Zipf (5)

En el siguiente video que les dejo, el Dr. Pascual Cantos Gómez explica

cómo se puede emplear la ley de Zipf para hacer análisis tanto lingüísticos

como literarios, brindando un antecedente importante para las Humanidades

Digitales en español.

Para saber más:

www.youtube.com/watch?v=mdudv1UgodI

Blog del curso:

https://cesaraguilar.weebly.com/internet-y-

sociedad.html

Gracias por su atención

Recommended