39
1 Dr. Francisco Arcas [email protected] Universidad Católica San Antonio de Murcia - Tlf: (+34) 968 27 88 00 [email protected] - www.ucam.edu EL PLN EN LA SOCIEDAD DEL CONOCIMIENTO

EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

1

Dr. Francisco Arcas – [email protected]

Universidad Católica San Antonio de Murcia - Tlf: (+34) 968 27 88 00 [email protected] - www.ucam.edu

EL PLN EN LA SOCIEDAD

DEL CONOCIMIENTO

Page 2: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

2

Page 3: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

3

Tiempos exponenciales Motivación

Page 4: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

4

Tiempos exponenciales Motivación

Page 5: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

5

Tiempos exponenciales Motivación

Page 6: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

6

Tiempos exponenciales Motivación

Page 7: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

7

Tiempos exponenciales Motivación

Page 8: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

8

Tiempos exponenciales Motivación

Existen unas 540.000 palabras en inglés. 5 veces mas que en tiempos de W. Shakespeare.

Se publican 3.000 libros al día en el mundo. Cada vez mas, directamente en formato digital y on-line.

La información on-line, se duplica cada dos años. Se prevé que en el 2015, se duplique cada 72 horas.

1.5 Exabytes de información escrita en el 2011. Mas que la acumulada durante 5.000 años precedentes.

La información on-line se mide en Yottabytes. Google: mas de 40 mil mill. de búsquedas este mes

2.7 mil mill. en el 2006

Page 9: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

9

No solo texto Motivación

YouTube muestra 100 mill de videos diarios

Existen miles de millones de imágenes en Internet

El contenido de estos formatos está dejando de ser invisible al PLN (TED, Youtube CC, …)

Page 10: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

10

El razonamiento humano Motivación

100 billones de clicks/día sobre 55 trillones de links, la misma cantidad que impulsos nerviosos y sinapsis del cerebro.

YottaBytes de almacenamiento en línea, entre 1 y 1.000 TeraBytes es capacidad estimada del cerebro.

1 quintillón de neuronas, frente a 1.000 mill de ordenadores en línea.

20 petaHz de tiempo de disparo de sinapsis, frente al gigaHz del ordenador.

Fuente: “Instituto de Perceción” de la Facultad de Informatica de la universidad de Edimburgo

Page 11: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

11

Origen del conocimiento Motivación

El lenguaje humano posee dos tipos de información: •Conceptual (naturaleza semántica)

•Computacional (naturaleza metadiscursiva)

La organizamos de forma metareprentacional, convirtiéndola en conocimiento e indexándola en formato lingüístico.

(Wilson, 2000 y No, 2000)

Lo importante es el significado, no su representación => MULTILINGÜISMO

Page 12: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

12

Procesamiento del Lenguaje Natural

El PLN es una aproximación computacional al análisis de textos.

Es un área de investigación en desarrollo MUY ACTIVA.

Es una disciplina híbrida: Lingüística y Computacional.

Es el medio para tareas como traducción automática, extracción de información, Respuesta automática, etc.

Definición: “Natural Language Processing is a theoretically motivated range of computational techniques for analyzing and representing naturally occurring texts at one or more levels of linguistic analysis for the purpose of achieving human-like language processing for a range of tasks or applications”. Liddy, E.D. 2001. Natural Language Processing. In Encyclopedia of Library and Information Science, 2nd Ed. NY. Marcel Decker, Inc.

Page 13: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

13

¿PLN o CLN?

Los primeros artículos usaban el término NLU.

Posteriormente se cambió Comprensión por Procesamiento.

¿Hemos alcanzado el nivel de comprensión esperado?

La comprensión debería conseguir:

•Parafrasear un texto de entrada. 1. Explicación o interpretación amplificativa de un texto para ilustrarlo o hacerlo más claro o inteligible.

2. Traducción en verso en la cual se imita el original, sin verterlo con escrupulosa exactitud.

3. Frase que, imitando en su estructura otra conocida, se formula con palabras diferentes.

•Traducir texto entre idiomas.

•Contestar preguntas sobre el contenido del texto.

•Generar inferencias a partir del texto Leer entre líneas, partir de un cierto grado inicial de conocimiento universal, ...

Page 14: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

14

Niveles/Fases del PLN

Fonología (TTS y STT)

Cadenas de Markov

Síntesis Diphones, codificación profética

lineal, HMM, PSOLA, …

Morfología

Lexicón: Pre-registr-ar, Pre-registr-o, Post-registr-

ado, …

Léxico

Lexicón

Amar, Verbo transitivo animado.

Sintáctico

Gramática

Paco ama a su trabajo, La perro conduce el

camionero.

Semántico

Superficial: asigna papeles semánticos a lexemas.

Profundo: Otorga Significado.

Discurso

Unidades de texto mayor que la frase.

Anáfora (entidades) Discurso (papeles)

Pragmático

• Leer entre líneas: Intención, contexto, …

• Requiere conoc. del mundo e intenciones.

Page 15: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

15

Enfoques sobre el PLN Estadístico:

•Grandes conjuntos de textos preclasificados (Corpora).

•Técnicas matemáticas (Cadenas de Markov, autómatas finitos probabilísticos).

•No aporta significado.

•Reconocimiento del habla, adquisición léxica, parsing, etiquetado de partes del discurso, traducción automática, ...

Conexionista/Híbrido: •Similar al estadístico pero añadiendo teorías de representación (lógica, reglas, …)

•Complejo de comprender por observación.

•Más potente y menos restrictivo que el estadístico.

•Redes semánticas, modelos distribuidos, …

•Desambiguización, generación de texto, inferencia limitada, …

Simbólico: •Análisis profundo basada en representación de hechos para la comprensión del significado.

•Conocimiento representado en forma de hechos o reglas.

•Motor de razonamiento, conceptual clustering, sistemas basados en el conocimiento, ...

•Extracción de información, categorización de textos, desambiguización, …

Page 16: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

16

El significado

Es el fin último del PLN.

Parece propiedad del nivel semántico en adelante.

Pero TODOS los niveles aportan algo al significado.

DRAE – 22 ed

Page 18: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

18

Extracción de Información

Create new Calendar entry

Page 19: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

19

Análisis de Sentimientos

nice and compact to carry!

since the camera is small and light, I won't need to carry around those heavy, bulky professional cameras either!

the camera feels flimsy, is plastic and very light in weight you have to be very delicate in the handling of this camera

……

Attributes: zoom affordability size and weight flash ease of use

Page 20: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

20

Traducción Automática

Automática

20

Enter Source Text:

Translation from a Phrasal dictionary:

这 不过 是 一 个 时间 的 问题 .

This is only a matter of time.

Asistida

Page 21: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

21

Compresión de preguntas y confección de respuestas

Page 22: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

22

Significado: Scribblenauts

Page 23: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

23

23

http://www.narrativescience.com

http://automatedinsights.com/products_and_solutions

Negocios reales

Page 24: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

24

Algunas Aplicaciones

Part-of-speech (POS) tagging

Named entity recognition (NER)

Muy eficientes

Spam detection

Let’s go to Agra!

Buy V1AGRA …

Colorless green ideas sleep furiously.

ADJ ADJ NOUN VERB ADV

Einstein met with UN officials in Princeton

PERSON ORG LOC

Coreference resolution

Word sense disambiguation (WSD)

Parsing

Information extraction (IE)

Machine translation (MT)

Sentiment analysis

En evolución

You’re invited to our dinner party, Friday May 27 at 8:30

Party May 27 add

Best roast chicken in San Francisco!

The waiter ignored us for 20 minutes.

Carter told Mubarak he shouldn’t run again.

I need new batteries for my mouse.

The 13th Shanghai International Film Festival…

第13届上海国际电影节开幕…

I can see Alcatraz from the window!

Question answering (QA)

Paraphrase

Summarization

Dialog

Poco desarrolladas

The Dow Jones is up

Housing prices rose

Economy is good

Q. How effective is ibuprofen in reducing fever in patients with acute febrile illness?

XYZ acquired ABC yesterday

ABC has been taken over by XYZ

Where is Citizen Kane playing in SF?

Castro Theatre at 7:30. Do you want a ticket?

The S&P500 jumped

Page 25: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

25

Idioma no estándard

Great job @justinbieber! Were SOO PROUD of what youve accomplished! U taught us 2 #neversaynever & you yourself should never give up either♥

Modismos

dark horse get cold feet

lose face throw in the towel

Neologismos

unfriend Retweet

bromance

Nombres complejos

Where is A Bug’s Life playing …

Let It Be was recorded …

… a mutation on the for gene …

Conocimiento del entorno

Mary and Sue are sisters.

Mary and Sue are mothers.

Segmentaciones

the New York-New Haven Railroad

the New York-New Haven Railroad

¿Porqué el PLN es un reto?

Page 26: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

26

Evolución de la Web Motivación

Page 27: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

27

La Web Semántica

Page 28: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

28

La Web Semática (WS) Motivación

“El futuro de la web se está gestando en la investigación de formas de intelección artificiales cualitativas, similares a la humana” (Berners-Lee, 2001)

Objetivos de la WS, los mismos que los del PLN: Extracción de información, Generación de resúmenes, Búsqueda de respuestas, Recuperación de información multilingüe, Clasificación de textos, Traducción automática, Etc.

La WS es el gran reto para el PLN.

Anotar semánticamente la totalidad de la Web y convertirla en un corpus marcado y etiquetado

ontológicamente, dada su magnitud y dinamicidad, parece un empeño inasequible.

Page 29: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

29

La Web Semántica

Berners-Lee quería incluir semántica desde la web 1.0.

Iba a ser la Web 2.0, pero lo social se le adelantó.

Va a ser la Web 3.0, pero la ubicuidad se está adelantando.

¿Será la Web 4.0?

Hay voces críticas que aseguran que la WS va a ser el primer fracaso oficial del W3C.

Yo no lo creo, los estándares creados para la WS están sirviendo para proyectos en escala pero mas tangibles.

Aunque lo “vendido” aún está muy lejos por escala y porque ha acabado chocando con la necesidad del PLN.

Page 30: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

30

La Web Semántica

Web 1.0: Ver y oír Ruido

Web 2.0: Producir Ruido

Web 3.0: Filtrar Ruido

Web 4.0: Silenciar Ruido, SmartNoise

Page 31: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

31

La Web Semántica

Partimos de las siguientes premisas necesarias:

•Un sistema de etiquetado de Metadatos (RDF).

•Un mecanismo de representación de Ontologías (OWL).

•Motores de Razonamiento (varios).

•Lenguajes de Consulta (SPARQL)

•Los tenemos, el W3C se está encargando.

Page 32: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

32

La Web Semántica: Metadatos

Los metadatos los deben poner ¿los autores?

Etiquetar información correctamente requiere formación.

•“Acemos Kontinuas varvaridades con idioma en web”.

•Errores y equivocaciones de etiquetado.

Falsear metadatos semánticos para conseguir SEO.

•Ningún motor de búsqueda se fía de los metadatos que ya tienen las páginas.

¿Escribo una entrada en un blog y etiqueto semánticamente?.

•Con los hashtags de Twitter ya lo hacen.

Billones de páginas ya publicadas en cientos de idiomas.

•¿Qué hacemos con ello?.

Page 33: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

33

La Web Semántica: Ontologías

¿Cuál es la ontología universal del saber humano?

•En IC ha dado resultados tangibles en ámbitos concretos.

•Necesitamos un consenso planetario sobre cualquier cosa.

•Existe miles de ontologías generales y específicas.

•Existe el esfuerzo de conectarlas.

•Proyecto LinkOpenData (LOD) del W3C con unas 300 ontologías.

Page 34: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

34

La Web Semántica: Ontologías

Circle size Triple count Arrow thickness Triple count

Very large >1B Thick >100k

Large 1B-10M Medium 100k-1k

Medium 10M-500k Thin <1k

Small 500k-10k

Very small <10k

Circle

size

Triple count Arrow

thickness

Triple

count

Very large >1B Thick >100k

Large 1B-10M Medium 100k-1k

Medium 10M-500k Thin <1k

Small 500k-10k

Very

small

<10k

Page 35: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

35

DBPedia: “El Rey Sol”

“The ontology currently covers over 320 classes which form a subsumption hierarchy and are described by 1,650 different properties.”

Ontología

Page 36: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

36

La Web Semántica: Razonam.

Hay varios motores, tanto abiertos como comerciales

•FaCT++, Pellet, Jena, Sesame, KAON2, …

Representan el conocimiento con Lógica Descriptiva

•OWL DL

Se basan el algoritmos como Rete o Tableau.

Pero el nivel de rendimiento exigible para una auténtica Web Semántica aún no es factible.

Watson usa UIMA.

Page 37: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

37

La Web Semántica: Razonam. 31.000 millones de búsquedas mensuales en Google.

Crece exponencialmente, hace 6 años eran 36 mill.

Se publican 1 millón de libros/año en el mundo.

Google Books escanea 1.000 páginas/hora

Se producen 250 millones de comentarios mensuales en Facebook y Youtube, hace 6 años no existían.

Desde el 2001, la Wikipedia atesora 13 millones de artículos en 200 idiomas.

Por un Cisco Nexus 7000 pasa la Wikipedia entera en 0.01 segundos.

¿CÓMO REALIZAR PLN EN ESTAS CONDICIONES?

Page 38: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

38

Web Semántica y PLN

Hoy por hoy la Web Semántica no existe como tal.

•Hay estándares, protocolos, normas.

•Hay investigaciones, experimentos a escala, casos de éxito.

•No hay contenidos globales etiquetados semánticamente.

•No hay capacidad de razonar en tiempo real tanto volumen.

•El etiquetado semántico no es asumible a mano.

•Implica la automatización de las tareas de generación de contenidos web semánticos.

PLN y la RI pueden aportar solución en la creación.

•Generación automática de información semántica que dé cuerpo a la Web Semántica y la conviertan en una realidad.

Page 39: EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... · 2020-03-13 · •Parafrasear un texto de entrada. 1. Explicación o interpretación

39

• Vivimos inundados de datos pero ávidos de conocimiento.

• El PLN es la disciplina que puede arrojar luz sobre esta “biblioteca de Babel” que es la era full connect.

• Ya existen estándares y proyectos reales con resultados interesantes de aplicación comercial.

• Las velocidades de proceso , comunicación, almacenamiento de las máquinas y las fuentes de datos accesibles permiten aplicaciones reales.

• Queda mucho por hacer, acabamos de empezar a recoger frutos.

Preguntas