SQL Server y Textos - del char al análisis semántico

Preview:

DESCRIPTION

http://summit.solidq.com Tratamiento de textos en SQL Server, un repaso a todo lo que se puede hacer con la plataforma de datos de MS con textos, y su aplicación a diferentes escenarios (y sus combinaciones) - FullText - FullText Semantics (a partir de 2012) - DQS - Fuzzy Lookup y Fuzzy Grouping en SSIS - Funciones de búsqueda difusa en MDS - Q&A en Power BI - Otras opciones de tratamiento de textos (¿minería?, sistemas basados en metadatos, Big Data, …)

Citation preview

#SQSummit

@pausempere

SQL Server y TextosDel char(1) al análisis semántico

DPS – Business Intelligence

Clic para añadir certificacionClic para añadir certificacionClic para añadir certificacion

psempere@solidq.com

MAP 2012

Pau Sempere Sánchez

Objetivos

Repasar las opciones de tratamiento de textos que ofrece SQL Server

Predicar con el ejemplo

Agenda

Similitud de textos–Fonética–Sintáctica

Análisis semántico

Agenda

Similitud de textos–Fonética–Sintáctica

Análisis semántico

Similitud de texto

SOUNDEXHuella fonéticaCódigo de 4 caracteres

DIFFERENCEDiferencias fonéticasEscala de 0 a 4

6

DEMOSOUNDEX

Agenda

Similitud de textos–Fonética–Sintáctica

Análisis semántico

Similitud de texto

HERRAMIENTAS• SSIS• Fuzzy Grouping • Fuzzy Lookup

• DQS

• Consultas personalizadas

Similitud de texto

LevenshteinJaro-WinklerJaccardCommonSubstring

Función en la BD de MDS

SUMMIT 2014

SUMMIT 2013SUMMIT 2013

Similitud de texto

¡RUIDO!

ArtículosPreposicionesPalabras comunes dentro del dominio

¿Llamar a SSIS con una query?

DATA SOURCE

DATA STREAMING DESTINATION

OLEDB PROVIDER FOR SSIS

LINKED SERVER

SQL QUERY

SSIS PACKAGE

12

DEMOBuscador Online

CONJUNTO DE

REFERENCIANUEVOS ELEMENTO

S

MDS

DQS

Buscador

Fuzzy Lookup

Similarity MDS

Agenda

Similitud de textos–Fonética–Sintáctica

Análisis semántico

Análisis Semántico

FULL-TEXTClausulas propias:

–CONTAINS / CONTAINSTABLE• NEAR• ISABOUT (WEIGHT)• FORMSOF

Análisis Semántico

FULL-TEXTClausulas propias:

–FREETEXT / FREETEXTABLE

Análisis Semántico

• Wordbreakers

• Stoplists (ruido)

• Stemmers

• Tesauros personalizados

Análisis Semántico

FileTable• Carpeta/

tabla• FileStream• Versionado

de ficheros• Indexable

FullTextFILESTREAM

FILETABLE

ACCESO TRANSACCIONAL

ACCESO WINDOWS

BDCarpetas y ficheros

Acceso FileStrea

m BLOBS

FULLTEXT

SEMANTICS

19

DEMOEligiendo lecturas con Full-Text

Análisis Semántico

FULL-TEXT Semantics • Semántica

y contexto• Instalación

adicional• BD propia• Filter packs FILESTREAM

FILETABLE

ACCESO TRANSACCIONAL

ACCESO WINDOWS

BDCarpetas y ficheros

Acceso FileStrea

m BLOBS

FULLTEXT

SEMANTICS

23

DEMOFull-Text Semantics

Conclusiones

• La fonética no es suficiente

• Gestión avanzada de similitud • Fuzzy Lookup• Similarity MDS

• Queries full-text para búsqueda avanzada

• Gestión documental con FileTables y Semantics

2525

Power BI para usuarios de negocio

25

Curso onlineClases virtuales presenciales14, 15, 16, 21, 22 y 23 de JulioDe 16 a 20 h

Máster en BI 4ª Edición (Inicio Octubre 2014)- Clases presenciales virtuales- 450 horas (60 ECTS) - SolidQ – UPM

- Clases + trabajo práctico + proyecto- Beca de hasta 1.300 € para los primeros inscritos.

Máster en Big Data & Analytics1ª Edición (Inicio Octubre 2014)- Clases presenciales virtuales- 1 año (60 ECTS) UMA

- Clases + trabajo práctico + proyecto

Información e inscripción: http://university.solidq.com / ibinfo@solidq.com

Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu

oportunidad.

http://summit.solidq.com

Síguenos:

26

@pausempere

DPS – Business Intelligence

Pau Sempere Sánchez