Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
1
Dr. Francisco Arcas – [email protected]
Universidad Católica San Antonio de Murcia - Tlf: (+34) 968 27 88 00 [email protected] - www.ucam.edu
EL PLN EN LA SOCIEDAD
DEL CONOCIMIENTO
2
3
Tiempos exponenciales Motivación
4
Tiempos exponenciales Motivación
5
Tiempos exponenciales Motivación
6
Tiempos exponenciales Motivación
7
Tiempos exponenciales Motivación
8
Tiempos exponenciales Motivación
Existen unas 540.000 palabras en inglés. 5 veces mas que en tiempos de W. Shakespeare.
Se publican 3.000 libros al día en el mundo. Cada vez mas, directamente en formato digital y on-line.
La información on-line, se duplica cada dos años. Se prevé que en el 2015, se duplique cada 72 horas.
1.5 Exabytes de información escrita en el 2011. Mas que la acumulada durante 5.000 años precedentes.
La información on-line se mide en Yottabytes. Google: mas de 40 mil mill. de búsquedas este mes
2.7 mil mill. en el 2006
9
No solo texto Motivación
YouTube muestra 100 mill de videos diarios
Existen miles de millones de imágenes en Internet
El contenido de estos formatos está dejando de ser invisible al PLN (TED, Youtube CC, …)
10
El razonamiento humano Motivación
100 billones de clicks/día sobre 55 trillones de links, la misma cantidad que impulsos nerviosos y sinapsis del cerebro.
YottaBytes de almacenamiento en línea, entre 1 y 1.000 TeraBytes es capacidad estimada del cerebro.
1 quintillón de neuronas, frente a 1.000 mill de ordenadores en línea.
20 petaHz de tiempo de disparo de sinapsis, frente al gigaHz del ordenador.
Fuente: “Instituto de Perceción” de la Facultad de Informatica de la universidad de Edimburgo
11
Origen del conocimiento Motivación
El lenguaje humano posee dos tipos de información: •Conceptual (naturaleza semántica)
•Computacional (naturaleza metadiscursiva)
La organizamos de forma metareprentacional, convirtiéndola en conocimiento e indexándola en formato lingüístico.
(Wilson, 2000 y No, 2000)
Lo importante es el significado, no su representación => MULTILINGÜISMO
12
Procesamiento del Lenguaje Natural
El PLN es una aproximación computacional al análisis de textos.
Es un área de investigación en desarrollo MUY ACTIVA.
Es una disciplina híbrida: Lingüística y Computacional.
Es el medio para tareas como traducción automática, extracción de información, Respuesta automática, etc.
Definición: “Natural Language Processing is a theoretically motivated range of computational techniques for analyzing and representing naturally occurring texts at one or more levels of linguistic analysis for the purpose of achieving human-like language processing for a range of tasks or applications”. Liddy, E.D. 2001. Natural Language Processing. In Encyclopedia of Library and Information Science, 2nd Ed. NY. Marcel Decker, Inc.
13
¿PLN o CLN?
Los primeros artículos usaban el término NLU.
Posteriormente se cambió Comprensión por Procesamiento.
¿Hemos alcanzado el nivel de comprensión esperado?
La comprensión debería conseguir:
•Parafrasear un texto de entrada. 1. Explicación o interpretación amplificativa de un texto para ilustrarlo o hacerlo más claro o inteligible.
2. Traducción en verso en la cual se imita el original, sin verterlo con escrupulosa exactitud.
3. Frase que, imitando en su estructura otra conocida, se formula con palabras diferentes.
•Traducir texto entre idiomas.
•Contestar preguntas sobre el contenido del texto.
•Generar inferencias a partir del texto Leer entre líneas, partir de un cierto grado inicial de conocimiento universal, ...
14
Niveles/Fases del PLN
Fonología (TTS y STT)
Cadenas de Markov
Síntesis Diphones, codificación profética
lineal, HMM, PSOLA, …
Morfología
Lexicón: Pre-registr-ar, Pre-registr-o, Post-registr-
ado, …
Léxico
Lexicón
Amar, Verbo transitivo animado.
Sintáctico
Gramática
Paco ama a su trabajo, La perro conduce el
camionero.
Semántico
Superficial: asigna papeles semánticos a lexemas.
Profundo: Otorga Significado.
Discurso
Unidades de texto mayor que la frase.
Anáfora (entidades) Discurso (papeles)
Pragmático
• Leer entre líneas: Intención, contexto, …
• Requiere conoc. del mundo e intenciones.
15
Enfoques sobre el PLN Estadístico:
•Grandes conjuntos de textos preclasificados (Corpora).
•Técnicas matemáticas (Cadenas de Markov, autómatas finitos probabilísticos).
•No aporta significado.
•Reconocimiento del habla, adquisición léxica, parsing, etiquetado de partes del discurso, traducción automática, ...
Conexionista/Híbrido: •Similar al estadístico pero añadiendo teorías de representación (lógica, reglas, …)
•Complejo de comprender por observación.
•Más potente y menos restrictivo que el estadístico.
•Redes semánticas, modelos distribuidos, …
•Desambiguización, generación de texto, inferencia limitada, …
Simbólico: •Análisis profundo basada en representación de hechos para la comprensión del significado.
•Conocimiento representado en forma de hechos o reglas.
•Motor de razonamiento, conceptual clustering, sistemas basados en el conocimiento, ...
•Extracción de información, categorización de textos, desambiguización, …
16
El significado
Es el fin último del PLN.
Parece propiedad del nivel semántico en adelante.
Pero TODOS los niveles aportan algo al significado.
DRAE – 22 ed
17
Respuestas a Preguntas: IBM Watson
El proyecto Watson de IBM ganó Jeopardy el 16/02/2011
WILLIAM WILKINSON’S
“AN ACCOUNT OF THE PRINCIPALITIES OF
WALLACHIA AND MOLDOVIA”
INSPIRED THIS AUTHOR’S
MOST FAMOUS NOVEL
Bram Stoker
18
Extracción de Información
Create new Calendar entry
19
Análisis de Sentimientos
nice and compact to carry!
since the camera is small and light, I won't need to carry around those heavy, bulky professional cameras either!
the camera feels flimsy, is plastic and very light in weight you have to be very delicate in the handling of this camera
……
Attributes: zoom affordability size and weight flash ease of use
20
Traducción Automática
Automática
20
Enter Source Text:
Translation from a Phrasal dictionary:
这 不过 是 一 个 时间 的 问题 .
This is only a matter of time.
Asistida
21
Compresión de preguntas y confección de respuestas
22
Significado: Scribblenauts
23
23
http://www.narrativescience.com
http://automatedinsights.com/products_and_solutions
Negocios reales
24
Algunas Aplicaciones
Part-of-speech (POS) tagging
Named entity recognition (NER)
Muy eficientes
Spam detection
Let’s go to Agra!
Buy V1AGRA …
✓
✗
Colorless green ideas sleep furiously.
ADJ ADJ NOUN VERB ADV
Einstein met with UN officials in Princeton
PERSON ORG LOC
Coreference resolution
Word sense disambiguation (WSD)
Parsing
Information extraction (IE)
Machine translation (MT)
Sentiment analysis
En evolución
You’re invited to our dinner party, Friday May 27 at 8:30
Party May 27 add
Best roast chicken in San Francisco!
The waiter ignored us for 20 minutes.
Carter told Mubarak he shouldn’t run again.
I need new batteries for my mouse.
The 13th Shanghai International Film Festival…
第13届上海国际电影节开幕…
I can see Alcatraz from the window!
Question answering (QA)
Paraphrase
Summarization
Dialog
Poco desarrolladas
The Dow Jones is up
Housing prices rose
Economy is good
Q. How effective is ibuprofen in reducing fever in patients with acute febrile illness?
XYZ acquired ABC yesterday
ABC has been taken over by XYZ
Where is Citizen Kane playing in SF?
Castro Theatre at 7:30. Do you want a ticket?
The S&P500 jumped
25
Idioma no estándard
Great job @justinbieber! Were SOO PROUD of what youve accomplished! U taught us 2 #neversaynever & you yourself should never give up either♥
Modismos
dark horse get cold feet
lose face throw in the towel
Neologismos
unfriend Retweet
bromance
Nombres complejos
Where is A Bug’s Life playing …
Let It Be was recorded …
… a mutation on the for gene …
Conocimiento del entorno
Mary and Sue are sisters.
Mary and Sue are mothers.
Segmentaciones
the New York-New Haven Railroad
the New York-New Haven Railroad
¿Porqué el PLN es un reto?
26
Evolución de la Web Motivación
27
La Web Semántica
28
La Web Semática (WS) Motivación
“El futuro de la web se está gestando en la investigación de formas de intelección artificiales cualitativas, similares a la humana” (Berners-Lee, 2001)
Objetivos de la WS, los mismos que los del PLN: Extracción de información, Generación de resúmenes, Búsqueda de respuestas, Recuperación de información multilingüe, Clasificación de textos, Traducción automática, Etc.
La WS es el gran reto para el PLN.
Anotar semánticamente la totalidad de la Web y convertirla en un corpus marcado y etiquetado
ontológicamente, dada su magnitud y dinamicidad, parece un empeño inasequible.
29
La Web Semántica
Berners-Lee quería incluir semántica desde la web 1.0.
Iba a ser la Web 2.0, pero lo social se le adelantó.
Va a ser la Web 3.0, pero la ubicuidad se está adelantando.
¿Será la Web 4.0?
Hay voces críticas que aseguran que la WS va a ser el primer fracaso oficial del W3C.
Yo no lo creo, los estándares creados para la WS están sirviendo para proyectos en escala pero mas tangibles.
Aunque lo “vendido” aún está muy lejos por escala y porque ha acabado chocando con la necesidad del PLN.
30
La Web Semántica
Web 1.0: Ver y oír Ruido
Web 2.0: Producir Ruido
Web 3.0: Filtrar Ruido
Web 4.0: Silenciar Ruido, SmartNoise
31
La Web Semántica
Partimos de las siguientes premisas necesarias:
•Un sistema de etiquetado de Metadatos (RDF).
•Un mecanismo de representación de Ontologías (OWL).
•Motores de Razonamiento (varios).
•Lenguajes de Consulta (SPARQL)
•Los tenemos, el W3C se está encargando.
32
La Web Semántica: Metadatos
Los metadatos los deben poner ¿los autores?
Etiquetar información correctamente requiere formación.
•“Acemos Kontinuas varvaridades con idioma en web”.
•Errores y equivocaciones de etiquetado.
Falsear metadatos semánticos para conseguir SEO.
•Ningún motor de búsqueda se fía de los metadatos que ya tienen las páginas.
¿Escribo una entrada en un blog y etiqueto semánticamente?.
•Con los hashtags de Twitter ya lo hacen.
Billones de páginas ya publicadas en cientos de idiomas.
•¿Qué hacemos con ello?.
33
La Web Semántica: Ontologías
¿Cuál es la ontología universal del saber humano?
•En IC ha dado resultados tangibles en ámbitos concretos.
•Necesitamos un consenso planetario sobre cualquier cosa.
•Existe miles de ontologías generales y específicas.
•Existe el esfuerzo de conectarlas.
•Proyecto LinkOpenData (LOD) del W3C con unas 300 ontologías.
34
La Web Semántica: Ontologías
Circle size Triple count Arrow thickness Triple count
Very large >1B Thick >100k
Large 1B-10M Medium 100k-1k
Medium 10M-500k Thin <1k
Small 500k-10k
Very small <10k
Circle
size
Triple count Arrow
thickness
Triple
count
Very large >1B Thick >100k
Large 1B-10M Medium 100k-1k
Medium 10M-500k Thin <1k
Small 500k-10k
Very
small
<10k
35
DBPedia: “El Rey Sol”
“The ontology currently covers over 320 classes which form a subsumption hierarchy and are described by 1,650 different properties.”
Ontología
36
La Web Semántica: Razonam.
Hay varios motores, tanto abiertos como comerciales
•FaCT++, Pellet, Jena, Sesame, KAON2, …
Representan el conocimiento con Lógica Descriptiva
•OWL DL
Se basan el algoritmos como Rete o Tableau.
Pero el nivel de rendimiento exigible para una auténtica Web Semántica aún no es factible.
Watson usa UIMA.
37
La Web Semántica: Razonam. 31.000 millones de búsquedas mensuales en Google.
Crece exponencialmente, hace 6 años eran 36 mill.
Se publican 1 millón de libros/año en el mundo.
Google Books escanea 1.000 páginas/hora
Se producen 250 millones de comentarios mensuales en Facebook y Youtube, hace 6 años no existían.
Desde el 2001, la Wikipedia atesora 13 millones de artículos en 200 idiomas.
Por un Cisco Nexus 7000 pasa la Wikipedia entera en 0.01 segundos.
¿CÓMO REALIZAR PLN EN ESTAS CONDICIONES?
38
Web Semántica y PLN
Hoy por hoy la Web Semántica no existe como tal.
•Hay estándares, protocolos, normas.
•Hay investigaciones, experimentos a escala, casos de éxito.
•No hay contenidos globales etiquetados semánticamente.
•No hay capacidad de razonar en tiempo real tanto volumen.
•El etiquetado semántico no es asumible a mano.
•Implica la automatización de las tareas de generación de contenidos web semánticos.
PLN y la RI pueden aportar solución en la creación.
•Generación automática de información semántica que dé cuerpo a la Web Semántica y la conviertan en una realidad.
39
• Vivimos inundados de datos pero ávidos de conocimiento.
• El PLN es la disciplina que puede arrojar luz sobre esta “biblioteca de Babel” que es la era full connect.
• Ya existen estándares y proyectos reales con resultados interesantes de aplicación comercial.
• Las velocidades de proceso , comunicación, almacenamiento de las máquinas y las fuentes de datos accesibles permiten aplicaciones reales.
• Queda mucho por hacer, acabamos de empezar a recoger frutos.
Preguntas