15
Tecnologías Semánticas, Big Data & PLN Autores: Esther Villar Rodriguez Ana Isabel Torre Bastida

Esther Villar, Tecnalia - I+D+i en las lenguas / I+G+b hizkuntzetan

Embed Size (px)

Citation preview

Tecnologías

Semánticas,

Big Data

& PLN

Autores:

Esther Villar Rodriguez

Ana Isabel Torre Bastida

Hoja de ruta

¿Que es Big Data?

¿Qué son las tecnologías Semánticas?

¿Qué es PLN?

¿Por qué estas tecnologías?

En un futuro…

¿Qué es Big

Data?

“Big data” is high Volume, Velocity and Variety

information assets that demand cost-

effective, innovative forms of information

processing for enhanced insight and decision

making.” Gartner 2012

Tres Vs: Volumen, velocidad y variedad

Formas de procesamiento innovadoras y efectivas

en coste. “Big processing”

Valor de la información.

Big Data

Map-Reduce

(Hadoop)

Almacenamiento Análisis

Bases de datos NOSQL

¿Qué son

Tecnologías

Semánticas?

“La Web Semántica es una extensión de la Web

actual en la que a la información disponible se le

otorga (anota o marca) una semántica bien

definida.”, Tim Berners Lee, 2002.

Web semántica

RDF

RDFS

OWL

SPARQL

¿Qué es PLN?

Procesamiento del Lenguaje Natural

Comunicación

Significado

convencional

Significado

Contextual

Representación

gramatical

preposicional

Actitud de los

hablantes

Significado

concreto del

proceso

comunicativo

Diccionarios

actualizados

Tratamientos

sofisticados

de construcciones

complejas

Realidad

social

Emociones

Realidad

Social individual

Conocimiento

¿Por que estas

tecnologías?

Linked Open Data

CloudFormato RDF Acceso libre

Interconexión

Dominios y modelos heterogéneos

Análisis de grandes Bases de conocimientoExtracción de información con significado en

grandes volúmenes semantizados o en bruto

Otros Corpus

sin modeloGoogle n-gram

corpus

USENET corpus

¿Por qué estas tecnologías?

Necesidades de PLN:

Detectar la semántica de los textos.

LOP Posibles fuentes de conocimiento para rescatar

información de contexto estructurada.

• Participación en RepLab 2013 en la tarea de filtrado

(relación de un tweet con una entidad):

Sensitivity = 0,32729

Reliability = 0,944078

¿Por qué semántica + PLN?

Necesidades de PLN:

“Análisis y procesamiento de grandes

volúmenes de datos con técnicas de PLN

implementadas con modelos de programación

como Hadoop.”

Grandes corpus en Lenguaje Natural:

• Google N-grams

• Usenet

¿Por qué Big Data + PLN?

Problema de PLN:

“Falta de escalabilidad y distribución de

actuales algoritmos de PLN”

En un futuro …

Business Intelligence :

1. Análisis y extracción de información valida de grandes

volúmenes aplicando las tres técnicas.

2. Semantización de corpus en lenguaje natural mediante

generación automática de ontologías.

Sistemas de búsqueda inteligente: Google Knowledge

Graph

1. Generación del contexto semántico del usuario y de sus

consultas y aplicación de técnicas de PLN para la

desambiguación de las respuestas.

Problemas de escalabilidad y distribución (Gartner 2011)

Big Data +Tecnologías semánticas + PLN

Dudas y preguntas

Gracias