48
Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Embed Size (px)

Citation preview

Page 1: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Minería de textosy

datos para-textuales

Universitat Autónoma de Barcelona

SEA

2 de febrero 2007

Mónica Bécue Bertaut

Universitat Politècnica de Catalunya

Page 2: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Indice:

1. Introducción

2. Métodos de análisis. Codificación y distancia

3. Primer ejemplo: evaluación de un producto mediante una nota y comentarios abiertos

4. Segundo ejemplo: clasificación de los entrevistados a partir de sus preguntas cerradas y abiertas

Minería de textos y datos para-textuales

Page 3: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Minería de textos y datos para-textuales

La minería de textos analiza textos en lengua natural mediante procedimientos automáticos para: • extraer los temas• determinar la estructura de un texto: localización de las rupturas…• visualizar la proximidad entre documentos y/o entre términos• indexar les documentos (multi-indexación)• construir bases de documentos para una interrogación automática posterior• …

1. Introducción:

Page 4: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Búsqueda de información BI versus Extracción de información EI

• BI: tratamiento global de un gran número de documentos, búsqueda de temas, construcción de una tipología de los documentos

• EI: búsqueda de información “ciblada”, para alimentar una base de datos estructurada (relleno automático de los campos de la base)

Minería de textos y Estadística textual

Page 5: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Estadística léxica, Lexicometría y estadística textual, Minería de textos

Medida del vocabulario: recuento de las palabras

Minería de textos y Estadística textual

• Estadística léxica (Muller, Labbé, Holmes). Estructura de un texto o de una obra. Análisis de textos clásicos. Modelos de urnas.

• El corpus visto como una tabla de frecuencias (J.P. Benzécri, L. Lebart). Métodos multidimensionales

• Más recientemente, métodos de data mining, como LSI, SVM, Market basket analysis

Page 6: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Tipos de textos analizados

• Encuestas de opinión

• Encuestas de satisfacción de clientela

• Entrevistas semi-abiertas en estudios de clientela

• Revistas de prensa

• Vigilia tecnológica: resúmenes de artículos

contenidos en las bases científicas, patentes, …

Minería de textos y Estadística textual

Page 7: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Minería de textos y datos

Textos e información complementaria• Encuestas: preguntas abiertas + preguntas cerradas

• más generalmente, textos acompañados de una información complementaria “cerrada” - guía de vinos: comentarios + nota dada al vino

- sentencias de tribunal: texto de la sentencia + fecha, juez-ponente, delito

Métodos que analizan simultáneamente los textos y la información cerrada No hay una única manera de hacerlo. La elección del méetodo depende de los objetivos y de los datos.

Page 8: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

2. Métodos de análisis

Dos puntos importantes:

• la codificación: se debe saber cómo se codifica el corpus (algunas veces, el software opera una codificación parcialmente transparente para el usuario)

• el papel fundamental de la distancia escogida en el análisis estadístico de textos. Distancia entre que elementos (entrevistados, categorías de entrevistados, palabras, etc.)

Minería de textos y datos

Page 9: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Individuos/textos

Codificación del corpus: tabla léxica

Variable textual

pal1 palt2

kij

La codificación transforma el corpus en una tabla que se puede analizar mediante métodos estadísticos

Minería de textos y datos

Page 10: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Utilizar la información cerrada

Individuos

Information a analizar: ¿cuál es la parte activa? ¿cuál es la parte suplementaria?

VariablescuantitativasVariables

textuales

Variablescualitativas

Tabla mixta

Minería de textos y Estadística textual

Page 11: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

1

La codificación escogida tiene una incidencia sobre la distancia

¿A partir de que información se calcula la distancia?

A partir

• de las palabras,

• de los lemas

• de las palabras y de las preguntas cerradas

¿Cuál es la distancia escogida?

Minería de textos y Estadística textual

Page 12: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Representación gráfica :

Análisis de correspondencias

Tipología de documentos:

Clasificación

Tipología a partir de tablas múltipes:

Análisis factorial múltiple y clasificación

Minería de textos y Estadística textual

Page 13: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

•Enfoque geométrico que visualiza las proximidades entre filas, las proximidades entre columnas, y las interrelaciones

.

.

.

.

..

i

G

F1

F2

O

G1

G2

k

.

. .

.

.

.

.

.

.

.

Minería de textos y Estadística textual

Análisis de correspondencias

Page 14: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

• Formación de clases homogéneas

Clasificación

Minería de textos y Estadística textual

Page 15: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Primer ejemplo:

Evaluación de vinos mediante notas y comentarios

Page 16: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Castilla y León

5 denominaciones:Bierzo, Cigales, Ribera del Duero, Rueda, Toro

Minería de textos y Estadística textual

Page 17: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

---- Note= 80 Valdelosfriales-2003Joven típico, con notas de tempranillo y balsámicos; en boca amable y frutoso.

---- Note=91 Tares P3-2001 premiumMucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final.

Minería de textos y Estadística textual

Ejemplo: guía de vinos de Castilla y León

Page 18: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Doble objetivo

• Estudiar la relación entre la nota y la evaluación en forma de comentario libre

• Si esta relación existe, sería posible construir un nuevo score que tenga en cuenta a la vez la nota y los comentarios (mediante el recuenta de las palabras utilizadas)?

Problemática similar a la abordada por los métodos multicanónicos: buscar la(s) variable(s) general(es) que constituye la mejor síntesis de varios grupos de variables

Minería de textos y Estadística textual

Page 19: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Columnas Filas

Tabla de frecuencias Palabras

1 j Jf

Tabla cuantitativa

1 j Jc

1

Vinos i

I

proporciones

n

nf ij

ij

.if

Valores cuantitativos

ijx

j.f

1

Método de referencia: AC

Métode de referencia: ACP

Tabla a analizar

Grupo textual Jf columnas Grupo notas Jc columnas

Minería de textos y Estadística textual

Page 20: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Tabla léxica activa

Minería de textos y Estadística textual

Page 21: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Nota y commentarios activosMinería de textos y Estadística textual

Page 22: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Minería de textos y Estadística textual

A PARTIR DE AQUÍ,

SÓLO LOS VINOS TINTOS

Page 23: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Nota y commentarios activos

Minería de textos y Estadística textual

9797

9393

-3.0 -1.5 1.5

-1.5

1.5

3.0

4.5

6.0

Mesoneros de Castilla (03)

Torondos (02)

Valdelosfrailes (03)

Fuentenarro (02)

Gayubar (02)

Valdetán (02)

Carramimbre (03)Viña Eremos (03)

Marqués de Peñamonte (01)

7878

7979

8080

8181 82828383

8484 8585 86868787

8989

8888 9090 9191 9292

9494

9595

Axis 2 : 1.75%

Axis 1: 3.52%

Jaros Chafandín (01)

Tares P3 (01)Termanthia (02)

San Román (01)Numanthia (02)

Gran Elías Mora (00)

Bienvenida Sitio de El Palo (01) Bienvenida Sitio de El Palo (02)

Vega Sicilia 'Único' (94)Viña Sastre Pesus(01)

First Principal PlaneWINES & MARKS

Tinto joven

Gran Reserva

Tinto crianza

Tinto reservaTinto roble

Eje de calidad

Page 24: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

-1.0 -0.5 0 0.5 1.0

-0.75

0.75

1.50

2.25tempranillo

tiempo

equilibrio

intensidad

estructuraconcentración

n vinociruela

paladararomatintocuerpo

cuero

madurez mineralestilo

cocotacto

vezpotencial

pólvora

torrefacto

cascajo

roble

consistencia

crianzasequedad

Riberapaso

recuerdo acidez

frutosidadexpresi ón

sobremadurezcapa

tuestes

gominola

fondo

tierrazumo

cenizagrosella

caf éhierba%bosque

montecarne

sílexchocolate

bouquet

First Principal PlaneNOUNS

Axis 2 : 1.75%

frutillos

Axis 1: 3.52%

Minería de textos y Estadística textual

Page 25: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

-1.50 -0.75 0.75

-0.75

0

0.75

1.50

2.25

típico

joven

amable

corto

herbáceofácil precioso

tradicional

frutalligero

limpioamericano

franco frutosoprimer gran

enérgico

salado

denso

impresionante

graso

granulosonoble

magnífico

mojado

aromá ticosalino

amargo

largo

rico

vigorososabroso

silvestrejugoso

potenteoscuro

voluptuosotodo

complejoconcentrado

integradopulido

linealrústico

vivo

First Principal PlaneADJECTIVES Axis2 : 1.75%

Axis1: 3.52%agradablemedio

accesible

abiertoensamblado

tostado

Minería de textos y Estadística textual

Page 26: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Minería de textos y Estadística textual

82

highest marks

enérgico

lowest marks

Average mark: 85.16

corto

cocopólvoravoluptuosomagnífico

-1,9 -1,1 1,30,90,5-1,5 -0,7 -0,3 0,1

herbáceo

tradicionalrústicojovenroblelineal

amable

densosaladoimpresionante

83 86

consistencia

frutalcrianzaalgolimpioligerobeberevolucionarfácil

agradablesobremadurezsequedadmediotempranilloligeramenteamericanocapa

tuestesciertoabiertoalgúndemasiadofranco

reducidodiscretofrutosidadensambladosecoclásicodominar

rojotípicoexpresióncompotadosuaveRiberacestatoque

vezgrasotorrefactogranulosograntiempo

todonoblecascajo

estiloconcentradonecesitarpotencialsabrososorprendetactocomplejolargo

potentepurodejarmineralprimermodernocarnosoamargo

salinofinodondemuchoserbouquetsílexintensofirmevinochocolate

Mark81 84 85 87 88 89 90

Page 27: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Minería de textos y Estadística textual

82

highest marks

enérgico

lowest marks

Average mark: 85.16

corto

cocopólvoravoluptuosomagnífico

-1,9 -1,1 1,30,90,5-1,5 -0,7 -0,3 0,1

herbáceo

tradicionalrústicojovenroblelineal

amable

densosaladoimpresionante

83 86

consistencia

frutalcrianzaalgolimpioligerobeberevolucionarfácil

agradablesobremadurezsequedadmediotempranilloligeramenteamericanocapa

tuestesciertoabiertoalgúndemasiadofranco

reducidodiscretofrutosidadensambladosecoclásicodominar

rojotípicoexpresióncompotadosuaveRiberacestatoque

vezgrasotorrefactogranulosograntiempo

todonoblecascajo

estiloconcentradonecesitarpotencialsabrososorprendetactocomplejolargo

potentepurodejarmineralprimermodernocarnosoamargo

salinofinodondemuchoserbouquetsílexintensofirmevinochocolate

Mark81 84 85 87 88 89 90

Criterio dominante: potencia del vino; las palabras denso, graso, concentrado

Se oponen a ligero, fácil, Algunos defectos: sequedad, sobremadurez, evolucionado

defectos importantes en el mundo del vino

Page 28: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

- 0,8 + 0,8- 0,4 + 0,4

Factor 2 : 1,75%

Factor 1 : 3,52

Separate Axis 2of free comments

Separate Axis 1of free commentsPrice

Mark

Lengthresponses

Minería de textos y Estadística textual

Variables suplementarias

Page 29: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

1.5

3.0

4.5

1.5- 3.0 - 1.5

- 1.5

8381

82

84 85

88 90 91 92

93

94

97

95

79

80

78

86 87

Gran Reserva

50-99,9€

30-49,9€

89

15-19,9€

20-24,9€

25-29,9€Tinto joven

0-4,9€ 5-9,9€

Tinto crianza

10-14,9€

Tinto reserva

Tinto roble

Axis2

Axis1

Vega Sicilia 'Único' (94)

Viña Sastre Pesus(01)

Jaros Chafandín (01)

100-300€

Astrales (02)

Punta Esencia (01)

Tares P3 (01)

Termanthia (02)

Gran Elías Mora (00)

Bienvenida Sitio de El Palo (01)

Bienvenida Sitio de El Palo (02)

Numanthia (02)

San Román (01)

Valdetán (02)

Torondos (02)

Mesoneros de Castilla (03)

Valdelosfrailes (03)

Fuentenarro (02)

Valdecuadrón (02)

Gayubar (02)

Viñatorondos (03)

Viña Valdable (03)

Marqués de Olivara (98)Rauda (01)

El Marqués (02)

Carramimbre (03)Viña Eremos (03)

Valsotillo (01)

Marqués de Peñamonte (01)

Minería de textos y Estadística textual

Variables suplementarias

Page 30: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

)()(1

)( 1111

xGS

xxjGfiZ

X

i

Jjijf

f

)()()( 11 xGjGniZfJj

ij

Importancia relativa de los comentarios y de la nota

Contribución de cada palabra al score global

La nota aporta 51.7% de la varianza del score global y las palabras 48.3%

Minería de textos y Estadística textual

palabra nota

Page 31: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Tares P3-2001 premium: • score global máximo• nota inicial 91• emplea 8 de las 20 palabras con coordenadas mayores sobre

el primer eje (impresionant/, gran/ vez graso/ cascajo, pólvora largo/and tacto/

Vega Sicilia 'Único' -1.994 • Es sólo el tercero en score global • nota inicial 97• 4 de las 20 palabras con coordenadas mayores sobre el

primer eje (enérgico, tiempo, gran, y largo)

Legaris-2001 (85): • lejos (por abajo) de los otros vinos con la misma nota• Note incial 85• 4 de las 20 palabras de coordenadas más

negativas(consistencia, lineal, frutal y algo)

Minería de textos y Estadística textual

Punto de vista global/

punto de vista parcial

Page 32: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

---- Wine 212 (mark= 85) Legaris-2001Tuestes, gominolas y buenos balsámicos marcan la intensidad media frutal de este crianza. En boca aparece muy lineal, con consistencia media; el retrogusto frutal todavía tapado por una madera algo rústica.

---- Wine 30 (mark=91) Tares P3-2001 premiumMucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final.

---- Wine 314 (mark=97) Vega Sicilia 'Único-1994Hay que realizar un ejercicio de disciplina gustativa de primer rango para describir este gran vino. el bouquet es fresco, bien armado de fruta roja que se ve potenciada por tintes de chocolates, tabacos, notas de sotobosque y una madera que se manifiesta pero que resulta difícil de localizar y menos de concretar. Tenemos el caso raro de un tinto que sale ileso del paso del tiempo sin lucir su armadura, que es la barrica. En boca joven, aunque ya tiene su cuerpo vigoroso y enérgico bastante ensamblado, con la excepción de algunos taninos saltamontes que quedan para domesticar. Largo y vibrante final que mezcla madurez con una notable finura fresca.

Minería de textos y Estadística textual

Page 33: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Presentación detallada de la metodología en:

Bécue-Bertaut, M. & Pagès J.

“Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data.”

aceptado para publicación por Computational Statistics and Data Analysis

Minería de textos y Estadística textual

Page 34: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Segundo ejemplo:

Los niños y la lectura

Page 35: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

1. En la escuela, leemos (poco, bastante, mucho)2. En casa, tenemos (pocos, bastantes, muchos libros)3. Leo (poco, bastante, mucho)4. Leo (muy fácilmente, fácilmente, con dificultades)5. Libros dados por maestro (me gustan, no me gustan)6. Leo cuando (me gusta, hago trabajos, los dos)7. Prefiero leer (en silencio, en voz alta, las dos cosas)8. Leer los libros escolares (me gusta, no me gusta, depende)

Preguntas cerradas

Preguntas abiertas (datos textuales)• Para mí leer es… • Creo que leer es importante porque…

Encuesta LecturaNuria Rajadell, UB

Page 36: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

----A130es un rollo porque hay muchas letras++++si no sabes leer no sabes escribir

----D214como vivir otra clase de vida, aprendo, me divierto y me entrego, no sé como explicarlo, pero me gusta leer++++aprendes cosas nuevas

Minería de textos y Estadística textual

Ejemplos de respuestas

Page 37: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Respuestas abiertas:---- para mí, leer eses muy interesante porque te puedes ir al mundo de la fantasía. por ejemplo puedes viajar a la edad media o estar en la prehistoria++++ Leer es importante por quesin la lectura no podría viajar

---- para mí, leer esaprender++++ Leer es importante por quese aprenden cosas nuevas

J127 Respuestas cerradas: leo bastante, leo muy fácilmente

N314Respuestas cerradas: leo bastante, leo muy fácilmenteRespuestas abiertas:

ABIERTO y CERRADO

Page 38: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Preguntas cerradas categóricas

Q1 Q2 Q3

I1 Ik1

Pregunta abierta 1

Aprender Aventura…

Pregunta abierta 2

Aprender Importante

Ind1

Ind i

Ind n

001 1000 0100 1 … 2 0 0 0 ……2…

En el ejemplo: tabla múltiple mixta

Minería de textos y Estadística textual

Page 39: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Primer plano factorial: Individuos

-2 0 2 4 6

-3.0

-1.5

0

1.5

3.0

Factor 1

Factor 2

J127

N314

Axis

1=1.4; 2%

Axis

2=1.2; 1.7%

Minería de textos y Estadística textual

Page 40: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

-1 1 2 3

-1.50

-0.75

0

0.75

1.50

eje 1

eje 2

Ieo poco

Leo bastante

Leo muchoLeo con dificultadesLeo muy fácilmente

aburrido

aburrimiento

aprender

aprendes

aprendo

aventura

aventuras

diversion

divertida

divertidodivertirme

divierto

enseña

entrar

entretenido

entretenimiento

fantasia

imaginacion

importante

interesante

mundo

rollo

saber

aprende

aventuras

diviertes

imaginación

importante

importantes

sinoNOTA GLOBAL: SUSPENSO

NOTA GLOBAL: EXCELENTE

PADRE.: SIN ESTUDIOS

CLASE SOCIAL ELEVADA

PADRE EST. SUP

leo fácilmente

( 1=1.4, 2%)

(2=1.2, 1.7%)

Minería de textos y Estadística textual

Page 41: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Análisis Cluster de los individuos a partir de sus coordenadas sobre los 7 primeros ejes

Método jerárquico, con el criterio de Ward

7 clases (una residual cluster con 11 niños)

Minería de textos y Estadística textual

Page 42: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

GRUPO 220 NIÑOS

CERRADAS Leo mucho (50% ; 28%)Leo muy fácilmente (81%; 58%)….

PARA MI, LEER ES

MEDIA EN LA MUESTRA

6.8 PALABRAS

PALABRAS SOBRE-REPRESENTADASpasar (pasar un buen rato), diversión, aventura, rato tiempo, divertirme, mundo, libro entrar, fantasia, forma

MEDIA: 8.8 PALABRASRESPUESTAS MODALES-Entrar en el libro que estoy leyendo y pasar las aventuras que hay en el libro -Entrar en el libro, ser el protagonista y pasar aventuras leyendo

CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA7.4 PALABRAS

PALABRAS SOBRE-REPRESENTADASimaginación, hace , aprende, vocabulario, divertido, ayuda, aventuraMEDIA: 8.7 PALABRASRESPUESTAS MODALES-Te enseña palabras nuevas. Viajas a paises con la imaginación -Aprendo ortografía, se me abre la imaginación

Minería de textos y Estadística textual

Page 43: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Pregunta Coef. de Cramer

En casa tenemos (cantidad de libros) Leer los libros escolares Leo (cantidad de lectura) Para mí, leer es (abierta)Leo (facilidad de lectura) Leer es importante porque (abierta)Los libros dados por el maestro Prefiero leer (forma de leer) Leo cuando (contexto de la lectura) En la escuela leemos (cantidad de lectura escolar)

0.520.440.410.380.350.270.260.200.200.14

Minería de textos y Estadística textual

)c,rmin(nV

11

2

Page 44: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Si sólo se tiene en cuenta las preguntas cerradas, tomando las palabras y respuestas como ilustrativas

Se obtiene…

Minería de textos y Estadística textual

Page 45: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

GRUPO 168 NIÑOS

CERRADAS CATEGORIAS SOBREREPRESENTADASLEO MUCHO (82%; 28%)LEO MUY FÁCILMENTE (93%; 58%)…

PARA MI, LEER ES

MEDIA EN LA MUESTRA6.8 PALABRAS

PALABRAS SOBRE-REPRESENTADASNINGUNA

MEDIA, 7.6 PALABRAS

CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA7.4 PALABRAS

PALABRAS SOBRE-REPRESENTADASAprende, cosas

MEDIA 7.8 PALABRAS

RESPUESTAS MODALES-Se aprende -Se aprende

Minería de textos y Estadística textual

Page 46: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Pregunta Coeficiente deCramer

Leo (cantidad de lectura) Leo con (facilidad de lectura) Leo cuando (contexto de lectura)Los libros dados por el maestro Leer los libros escolares En la escuela, leemos (cantidad) I prefer reading (manera de leer) At home, we have (cantidad de libros) For me, to read means (open-ended)Reading is important because (open-ended)

0,620.500.450.430.390.390.320.300.170.15

Minería de textos y Estadística textual

Page 47: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Conclusión: textos e información paratextual

Olvidaros

Es prácticoTodo es automático

Minería de textos y Estadística textual

Page 48: Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Bibliografía

Lebart, Salem, Bécue, 2000, Análisis estadístico de textos

Editorial MILENIO, Lleida

Minería de textos y Estadística textual

Presentación detallada de la metodología en:

Bécue-Bertaut, M. & Pagès J.“Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data.” aceptado para publicación por Computational Statistics and Data Analysis

Sobre el estudio de los vinos:Bécue-Bertaut M., Pagès J., Alvarez-Esteban R., Vásquez Burguete J.L. Détermination d’une note globale, synthèse d’une évalautaion numérique et d’appréciations libres. Application aux études de marché.

Actes des JADT2006.http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2006/tocJADT2006.htm