24
#SQSummit @pausempere SQL Server y Textos Del char(1) al análisis semántico DPS – Business Intelligence Clic para añadir certificac ion Clic para añadir certificac ion Clic para añadir certificac ion [email protected] MAP 2012 Pau Sempere Sánchez

SQL Server y Textos - del char al análisis semántico

  • Upload
    solidq

  • View
    476

  • Download
    1

Embed Size (px)

DESCRIPTION

http://summit.solidq.com Tratamiento de textos en SQL Server, un repaso a todo lo que se puede hacer con la plataforma de datos de MS con textos, y su aplicación a diferentes escenarios (y sus combinaciones) - FullText - FullText Semantics (a partir de 2012) - DQS - Fuzzy Lookup y Fuzzy Grouping en SSIS - Funciones de búsqueda difusa en MDS - Q&A en Power BI - Otras opciones de tratamiento de textos (¿minería?, sistemas basados en metadatos, Big Data, …)

Citation preview

Page 1: SQL Server y Textos - del char al análisis semántico

#SQSummit

@pausempere

SQL Server y TextosDel char(1) al análisis semántico

DPS – Business Intelligence

Clic para añadir certificacionClic para añadir certificacionClic para añadir certificacion

[email protected]

MAP 2012

Pau Sempere Sánchez

Page 2: SQL Server y Textos - del char al análisis semántico

Objetivos

Repasar las opciones de tratamiento de textos que ofrece SQL Server

Predicar con el ejemplo

Page 3: SQL Server y Textos - del char al análisis semántico

Agenda

Similitud de textos–Fonética–Sintáctica

Análisis semántico

Page 4: SQL Server y Textos - del char al análisis semántico

Agenda

Similitud de textos–Fonética–Sintáctica

Análisis semántico

Page 5: SQL Server y Textos - del char al análisis semántico

Similitud de texto

SOUNDEXHuella fonéticaCódigo de 4 caracteres

DIFFERENCEDiferencias fonéticasEscala de 0 a 4

Page 6: SQL Server y Textos - del char al análisis semántico

6

DEMOSOUNDEX

Page 7: SQL Server y Textos - del char al análisis semántico

Agenda

Similitud de textos–Fonética–Sintáctica

Análisis semántico

Page 8: SQL Server y Textos - del char al análisis semántico

Similitud de texto

HERRAMIENTAS• SSIS• Fuzzy Grouping • Fuzzy Lookup

• DQS

• Consultas personalizadas

Page 9: SQL Server y Textos - del char al análisis semántico

Similitud de texto

LevenshteinJaro-WinklerJaccardCommonSubstring

Función en la BD de MDS

SUMMIT 2014

SUMMIT 2013SUMMIT 2013

Page 10: SQL Server y Textos - del char al análisis semántico

Similitud de texto

¡RUIDO!

ArtículosPreposicionesPalabras comunes dentro del dominio

Page 11: SQL Server y Textos - del char al análisis semántico

¿Llamar a SSIS con una query?

DATA SOURCE

DATA STREAMING DESTINATION

OLEDB PROVIDER FOR SSIS

LINKED SERVER

SQL QUERY

SSIS PACKAGE

Page 12: SQL Server y Textos - del char al análisis semántico

12

DEMOBuscador Online

Page 13: SQL Server y Textos - del char al análisis semántico

CONJUNTO DE

REFERENCIANUEVOS ELEMENTO

S

MDS

DQS

Buscador

Fuzzy Lookup

Similarity MDS

Page 14: SQL Server y Textos - del char al análisis semántico

Agenda

Similitud de textos–Fonética–Sintáctica

Análisis semántico

Page 15: SQL Server y Textos - del char al análisis semántico

Análisis Semántico

FULL-TEXTClausulas propias:

–CONTAINS / CONTAINSTABLE• NEAR• ISABOUT (WEIGHT)• FORMSOF

Page 16: SQL Server y Textos - del char al análisis semántico

Análisis Semántico

FULL-TEXTClausulas propias:

–FREETEXT / FREETEXTABLE

Page 17: SQL Server y Textos - del char al análisis semántico

Análisis Semántico

• Wordbreakers

• Stoplists (ruido)

• Stemmers

• Tesauros personalizados

Page 18: SQL Server y Textos - del char al análisis semántico

Análisis Semántico

FileTable• Carpeta/

tabla• FileStream• Versionado

de ficheros• Indexable

FullTextFILESTREAM

FILETABLE

ACCESO TRANSACCIONAL

ACCESO WINDOWS

BDCarpetas y ficheros

Acceso FileStrea

m BLOBS

FULLTEXT

SEMANTICS

Page 19: SQL Server y Textos - del char al análisis semántico

19

DEMOEligiendo lecturas con Full-Text

Page 20: SQL Server y Textos - del char al análisis semántico

Análisis Semántico

FULL-TEXT Semantics • Semántica

y contexto• Instalación

adicional• BD propia• Filter packs FILESTREAM

FILETABLE

ACCESO TRANSACCIONAL

ACCESO WINDOWS

BDCarpetas y ficheros

Acceso FileStrea

m BLOBS

FULLTEXT

SEMANTICS

Page 21: SQL Server y Textos - del char al análisis semántico

23

DEMOFull-Text Semantics

Page 22: SQL Server y Textos - del char al análisis semántico

Conclusiones

• La fonética no es suficiente

• Gestión avanzada de similitud • Fuzzy Lookup• Similarity MDS

• Queries full-text para búsqueda avanzada

• Gestión documental con FileTables y Semantics

Page 23: SQL Server y Textos - del char al análisis semántico

2525

Power BI para usuarios de negocio

25

Curso onlineClases virtuales presenciales14, 15, 16, 21, 22 y 23 de JulioDe 16 a 20 h

Máster en BI 4ª Edición (Inicio Octubre 2014)- Clases presenciales virtuales- 450 horas (60 ECTS) - SolidQ – UPM

- Clases + trabajo práctico + proyecto- Beca de hasta 1.300 € para los primeros inscritos.

Máster en Big Data & Analytics1ª Edición (Inicio Octubre 2014)- Clases presenciales virtuales- 1 año (60 ECTS) UMA

- Clases + trabajo práctico + proyecto

Información e inscripción: http://university.solidq.com / [email protected]

Page 24: SQL Server y Textos - del char al análisis semántico

Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu

oportunidad.

http://summit.solidq.com

Síguenos:

26

@pausempere

DPS – Business Intelligence

Pau Sempere Sánchez