EL PLN EN LA SOCIEDAD DEL CONOCIMIENTOcesaraguilar.weebly.com/uploads/2/7/7/5/2775690/master... ·...

Preview:

Citation preview

1

Dr. Francisco Arcas – farcas@ucam.edu

Universidad Católica San Antonio de Murcia - Tlf: (+34) 968 27 88 00 info@ucam.edu - www.ucam.edu

EL PLN EN LA SOCIEDAD

DEL CONOCIMIENTO

2

3

Tiempos exponenciales Motivación

4

Tiempos exponenciales Motivación

5

Tiempos exponenciales Motivación

6

Tiempos exponenciales Motivación

7

Tiempos exponenciales Motivación

8

Tiempos exponenciales Motivación

Existen unas 540.000 palabras en inglés. 5 veces mas que en tiempos de W. Shakespeare.

Se publican 3.000 libros al día en el mundo. Cada vez mas, directamente en formato digital y on-line.

La información on-line, se duplica cada dos años. Se prevé que en el 2015, se duplique cada 72 horas.

1.5 Exabytes de información escrita en el 2011. Mas que la acumulada durante 5.000 años precedentes.

La información on-line se mide en Yottabytes. Google: mas de 40 mil mill. de búsquedas este mes

2.7 mil mill. en el 2006

9

No solo texto Motivación

YouTube muestra 100 mill de videos diarios

Existen miles de millones de imágenes en Internet

El contenido de estos formatos está dejando de ser invisible al PLN (TED, Youtube CC, …)

10

El razonamiento humano Motivación

100 billones de clicks/día sobre 55 trillones de links, la misma cantidad que impulsos nerviosos y sinapsis del cerebro.

YottaBytes de almacenamiento en línea, entre 1 y 1.000 TeraBytes es capacidad estimada del cerebro.

1 quintillón de neuronas, frente a 1.000 mill de ordenadores en línea.

20 petaHz de tiempo de disparo de sinapsis, frente al gigaHz del ordenador.

Fuente: “Instituto de Perceción” de la Facultad de Informatica de la universidad de Edimburgo

11

Origen del conocimiento Motivación

El lenguaje humano posee dos tipos de información: •Conceptual (naturaleza semántica)

•Computacional (naturaleza metadiscursiva)

La organizamos de forma metareprentacional, convirtiéndola en conocimiento e indexándola en formato lingüístico.

(Wilson, 2000 y No, 2000)

Lo importante es el significado, no su representación => MULTILINGÜISMO

12

Procesamiento del Lenguaje Natural

El PLN es una aproximación computacional al análisis de textos.

Es un área de investigación en desarrollo MUY ACTIVA.

Es una disciplina híbrida: Lingüística y Computacional.

Es el medio para tareas como traducción automática, extracción de información, Respuesta automática, etc.

Definición: “Natural Language Processing is a theoretically motivated range of computational techniques for analyzing and representing naturally occurring texts at one or more levels of linguistic analysis for the purpose of achieving human-like language processing for a range of tasks or applications”. Liddy, E.D. 2001. Natural Language Processing. In Encyclopedia of Library and Information Science, 2nd Ed. NY. Marcel Decker, Inc.

13

¿PLN o CLN?

Los primeros artículos usaban el término NLU.

Posteriormente se cambió Comprensión por Procesamiento.

¿Hemos alcanzado el nivel de comprensión esperado?

La comprensión debería conseguir:

•Parafrasear un texto de entrada. 1. Explicación o interpretación amplificativa de un texto para ilustrarlo o hacerlo más claro o inteligible.

2. Traducción en verso en la cual se imita el original, sin verterlo con escrupulosa exactitud.

3. Frase que, imitando en su estructura otra conocida, se formula con palabras diferentes.

•Traducir texto entre idiomas.

•Contestar preguntas sobre el contenido del texto.

•Generar inferencias a partir del texto Leer entre líneas, partir de un cierto grado inicial de conocimiento universal, ...

14

Niveles/Fases del PLN

Fonología (TTS y STT)

Cadenas de Markov

Síntesis Diphones, codificación profética

lineal, HMM, PSOLA, …

Morfología

Lexicón: Pre-registr-ar, Pre-registr-o, Post-registr-

ado, …

Léxico

Lexicón

Amar, Verbo transitivo animado.

Sintáctico

Gramática

Paco ama a su trabajo, La perro conduce el

camionero.

Semántico

Superficial: asigna papeles semánticos a lexemas.

Profundo: Otorga Significado.

Discurso

Unidades de texto mayor que la frase.

Anáfora (entidades) Discurso (papeles)

Pragmático

• Leer entre líneas: Intención, contexto, …

• Requiere conoc. del mundo e intenciones.

15

Enfoques sobre el PLN Estadístico:

•Grandes conjuntos de textos preclasificados (Corpora).

•Técnicas matemáticas (Cadenas de Markov, autómatas finitos probabilísticos).

•No aporta significado.

•Reconocimiento del habla, adquisición léxica, parsing, etiquetado de partes del discurso, traducción automática, ...

Conexionista/Híbrido: •Similar al estadístico pero añadiendo teorías de representación (lógica, reglas, …)

•Complejo de comprender por observación.

•Más potente y menos restrictivo que el estadístico.

•Redes semánticas, modelos distribuidos, …

•Desambiguización, generación de texto, inferencia limitada, …

Simbólico: •Análisis profundo basada en representación de hechos para la comprensión del significado.

•Conocimiento representado en forma de hechos o reglas.

•Motor de razonamiento, conceptual clustering, sistemas basados en el conocimiento, ...

•Extracción de información, categorización de textos, desambiguización, …

16

El significado

Es el fin último del PLN.

Parece propiedad del nivel semántico en adelante.

Pero TODOS los niveles aportan algo al significado.

DRAE – 22 ed

18

Extracción de Información

Create new Calendar entry

19

Análisis de Sentimientos

nice and compact to carry!

since the camera is small and light, I won't need to carry around those heavy, bulky professional cameras either!

the camera feels flimsy, is plastic and very light in weight you have to be very delicate in the handling of this camera

……

Attributes: zoom affordability size and weight flash ease of use

20

Traducción Automática

Automática

20

Enter Source Text:

Translation from a Phrasal dictionary:

这 不过 是 一 个 时间 的 问题 .

This is only a matter of time.

Asistida

21

Compresión de preguntas y confección de respuestas

22

Significado: Scribblenauts

23

23

http://www.narrativescience.com

http://automatedinsights.com/products_and_solutions

Negocios reales

24

Algunas Aplicaciones

Part-of-speech (POS) tagging

Named entity recognition (NER)

Muy eficientes

Spam detection

Let’s go to Agra!

Buy V1AGRA …

Colorless green ideas sleep furiously.

ADJ ADJ NOUN VERB ADV

Einstein met with UN officials in Princeton

PERSON ORG LOC

Coreference resolution

Word sense disambiguation (WSD)

Parsing

Information extraction (IE)

Machine translation (MT)

Sentiment analysis

En evolución

You’re invited to our dinner party, Friday May 27 at 8:30

Party May 27 add

Best roast chicken in San Francisco!

The waiter ignored us for 20 minutes.

Carter told Mubarak he shouldn’t run again.

I need new batteries for my mouse.

The 13th Shanghai International Film Festival…

第13届上海国际电影节开幕…

I can see Alcatraz from the window!

Question answering (QA)

Paraphrase

Summarization

Dialog

Poco desarrolladas

The Dow Jones is up

Housing prices rose

Economy is good

Q. How effective is ibuprofen in reducing fever in patients with acute febrile illness?

XYZ acquired ABC yesterday

ABC has been taken over by XYZ

Where is Citizen Kane playing in SF?

Castro Theatre at 7:30. Do you want a ticket?

The S&P500 jumped

25

Idioma no estándard

Great job @justinbieber! Were SOO PROUD of what youve accomplished! U taught us 2 #neversaynever & you yourself should never give up either♥

Modismos

dark horse get cold feet

lose face throw in the towel

Neologismos

unfriend Retweet

bromance

Nombres complejos

Where is A Bug’s Life playing …

Let It Be was recorded …

… a mutation on the for gene …

Conocimiento del entorno

Mary and Sue are sisters.

Mary and Sue are mothers.

Segmentaciones

the New York-New Haven Railroad

the New York-New Haven Railroad

¿Porqué el PLN es un reto?

26

Evolución de la Web Motivación

27

La Web Semántica

28

La Web Semática (WS) Motivación

“El futuro de la web se está gestando en la investigación de formas de intelección artificiales cualitativas, similares a la humana” (Berners-Lee, 2001)

Objetivos de la WS, los mismos que los del PLN: Extracción de información, Generación de resúmenes, Búsqueda de respuestas, Recuperación de información multilingüe, Clasificación de textos, Traducción automática, Etc.

La WS es el gran reto para el PLN.

Anotar semánticamente la totalidad de la Web y convertirla en un corpus marcado y etiquetado

ontológicamente, dada su magnitud y dinamicidad, parece un empeño inasequible.

29

La Web Semántica

Berners-Lee quería incluir semántica desde la web 1.0.

Iba a ser la Web 2.0, pero lo social se le adelantó.

Va a ser la Web 3.0, pero la ubicuidad se está adelantando.

¿Será la Web 4.0?

Hay voces críticas que aseguran que la WS va a ser el primer fracaso oficial del W3C.

Yo no lo creo, los estándares creados para la WS están sirviendo para proyectos en escala pero mas tangibles.

Aunque lo “vendido” aún está muy lejos por escala y porque ha acabado chocando con la necesidad del PLN.

30

La Web Semántica

Web 1.0: Ver y oír Ruido

Web 2.0: Producir Ruido

Web 3.0: Filtrar Ruido

Web 4.0: Silenciar Ruido, SmartNoise

31

La Web Semántica

Partimos de las siguientes premisas necesarias:

•Un sistema de etiquetado de Metadatos (RDF).

•Un mecanismo de representación de Ontologías (OWL).

•Motores de Razonamiento (varios).

•Lenguajes de Consulta (SPARQL)

•Los tenemos, el W3C se está encargando.

32

La Web Semántica: Metadatos

Los metadatos los deben poner ¿los autores?

Etiquetar información correctamente requiere formación.

•“Acemos Kontinuas varvaridades con idioma en web”.

•Errores y equivocaciones de etiquetado.

Falsear metadatos semánticos para conseguir SEO.

•Ningún motor de búsqueda se fía de los metadatos que ya tienen las páginas.

¿Escribo una entrada en un blog y etiqueto semánticamente?.

•Con los hashtags de Twitter ya lo hacen.

Billones de páginas ya publicadas en cientos de idiomas.

•¿Qué hacemos con ello?.

33

La Web Semántica: Ontologías

¿Cuál es la ontología universal del saber humano?

•En IC ha dado resultados tangibles en ámbitos concretos.

•Necesitamos un consenso planetario sobre cualquier cosa.

•Existe miles de ontologías generales y específicas.

•Existe el esfuerzo de conectarlas.

•Proyecto LinkOpenData (LOD) del W3C con unas 300 ontologías.

34

La Web Semántica: Ontologías

Circle size Triple count Arrow thickness Triple count

Very large >1B Thick >100k

Large 1B-10M Medium 100k-1k

Medium 10M-500k Thin <1k

Small 500k-10k

Very small <10k

Circle

size

Triple count Arrow

thickness

Triple

count

Very large >1B Thick >100k

Large 1B-10M Medium 100k-1k

Medium 10M-500k Thin <1k

Small 500k-10k

Very

small

<10k

35

DBPedia: “El Rey Sol”

“The ontology currently covers over 320 classes which form a subsumption hierarchy and are described by 1,650 different properties.”

Ontología

36

La Web Semántica: Razonam.

Hay varios motores, tanto abiertos como comerciales

•FaCT++, Pellet, Jena, Sesame, KAON2, …

Representan el conocimiento con Lógica Descriptiva

•OWL DL

Se basan el algoritmos como Rete o Tableau.

Pero el nivel de rendimiento exigible para una auténtica Web Semántica aún no es factible.

Watson usa UIMA.

37

La Web Semántica: Razonam. 31.000 millones de búsquedas mensuales en Google.

Crece exponencialmente, hace 6 años eran 36 mill.

Se publican 1 millón de libros/año en el mundo.

Google Books escanea 1.000 páginas/hora

Se producen 250 millones de comentarios mensuales en Facebook y Youtube, hace 6 años no existían.

Desde el 2001, la Wikipedia atesora 13 millones de artículos en 200 idiomas.

Por un Cisco Nexus 7000 pasa la Wikipedia entera en 0.01 segundos.

¿CÓMO REALIZAR PLN EN ESTAS CONDICIONES?

38

Web Semántica y PLN

Hoy por hoy la Web Semántica no existe como tal.

•Hay estándares, protocolos, normas.

•Hay investigaciones, experimentos a escala, casos de éxito.

•No hay contenidos globales etiquetados semánticamente.

•No hay capacidad de razonar en tiempo real tanto volumen.

•El etiquetado semántico no es asumible a mano.

•Implica la automatización de las tareas de generación de contenidos web semánticos.

PLN y la RI pueden aportar solución en la creación.

•Generación automática de información semántica que dé cuerpo a la Web Semántica y la conviertan en una realidad.

39

• Vivimos inundados de datos pero ávidos de conocimiento.

• El PLN es la disciplina que puede arrojar luz sobre esta “biblioteca de Babel” que es la era full connect.

• Ya existen estándares y proyectos reales con resultados interesantes de aplicación comercial.

• Las velocidades de proceso , comunicación, almacenamiento de las máquinas y las fuentes de datos accesibles permiten aplicaciones reales.

• Queda mucho por hacer, acabamos de empezar a recoger frutos.

Preguntas