La gestión informática de grandes recopilaciones … · Web viewA esta obra se añadió pronto una gramática del inglés, un curso de inglés para extranjeros y una variada colección

Gestión informática de grandes recopilaciones de textos y extracción de información

Aquilino SánchezUniversidad de Murcia

En los últimos 20 años se ha venido desarrollando una importante actividad en torno al tratamiento informático de datos lingüísticos, que suele recibir el nombre de ‘industrias de la lengua’. Entre otros ámbitos de estudio, investigación y aplicaciones, figuran las grandes recopilaciones de texto, denominados ‘corpus lingüísticos’. Los corpus constituyen no solamente un instrumento excelente para el análisis lingüístico ‘tradicional’, sino la herramienta más idónea e imprescindible para llegar a inferencias o proyecciones de ‘comportamientos lingüísticos’ en todas sus facetas. En este sentido, el tratamiento computacional del lenguaje natural descansa fundamentalmente en estas recopilaciones lingüísticas y se vale de ellas para emular los algoritmos y generalizaciones presentes en una lengua determinada. Uno de los mayores retos a los que se enfrenta la lingüística computacional es descubrir los mecanismos de que nos valemos en el uso del lenguaje o en los procesos de desambiguación de los diferentes sentidos de las palabras. En esta conferencia me detendré en la exposición de los instrumentos computacionales utilizados para extraer información útil de los corpus lingüísticos, en los resultados que pueden obtenerse y en las distintas etapas recorridas o que aún quedan por recorrer en este campo de estudio e investigación.

En los últimos 20 años se ha venido desarrollando una importante actividad relativa al tratamiento informático de elementos o datos lingüísticos, o el análisis del lenguaje con el fin de hacer posible su procesamiento informático, que suele recibir el nombre, quizás raro para los profanos, de industrias de la lengua. Otros se refieren a lo mismo con el más lucido nombre de ingeniería lingüística. Por ‘industrias de la lengua’ se entiende:

la aplicación del análisis y conocimientos sobre la lengua al desarrollo de sistemas informáticos que sean capaces de reconocer, manejar y generar lenguaje humano en todas sus formas, o de suministrar la variedad de datos lingüísticos que se soliciten.

Una de las áreas que más atención y estudio han merecido es la del reconocimiento y generación del habla. Y los resultados ya se pueden percibir actualmente en muchos ámbitos: las consultas telefónicas a empresas pueden ser respondidas por un ordenador, y hasta en los teléfonos móviles de última generación podemos traer a pantalla el número de teléfono de quien deseemos pronunciando su nombre…

1

También es bien conocida la actividad en torno a la traducción automática. En organismos como la Unión Europea, la traducción automática de documentos diversos es ya habitual desde hace años.

Más conocida en los medios ‘filológicos’ es la aplicación de los ordenadores en la lexicografía y en la compilación de diccionarios, primero a partir de una simple organización de las palabras y sus definiciones en grandes bases de datos, luego proporcionando fuentes cada vez más abundantes para que el lexicógrafo pueda identificar el uso mediante muestras reales y actuales de un idioma.

También en los últimos 20 años se ha popularizado entre los lingüistas la denominación de ‘lingüística del corpus’ (denominación que, por cierto, no supone ninguna nueva teoría lingüística). La Lingüística del Corpus solamente se propone hacer lingüística mediante una herramienta que hace muy pocos años no estaba siquiera al alcance de nuestras manos: los corpus o grandes recopilaciones de textos (Sinclair, 1987; Sánchez, 1995).

En una u otra área de las mencionadas, o en cualquier otro ámbito en el que se pretenda obtener resultados útiles, tanto para los lingüistas con fines analíticos, como para las empresas y para la sociedad en general, con fines de utilidad práctica, los corpus lingüísticos constituyen ya una herramienta imprescindible. Los corpus lingüísticos se están convirtiendo en un nuevo e imprescindible punto de referencia para la investigación lingüística. Y ello se debe a una razón fácilmente comprensible: las grandes recopilaciones de textos garantizan de manera razonable la representatividad de los resultados obtenidos respecto a la lengua en su conjunto. Claro está, siempre que esas recopilaciones estén bien diseñadas y estructuradas.

Los corpus lingüísticos admiten todas las variantes posibles y casi imaginables, tanto en extensión como en variedad: pueden recopilarse corpus del habla, de sectores varios (del habla en general, del habla de los niños, de los adultos, de los pilotos, de los ancianos, etc.), de textos escritos (también de cualquiera de sus variedades), o de textos o muestras del habla en distintas zonas geográficas o de diferentes modalidades de uso. Los corpus pueden ser también de múltiples tamaños, según los fines que se persigan: corpus generales que alcancen varios cientos de millones de palabras, corpus específicos de 2 ó 4 millones de palabras, etc. El lenguaje escrito, especialmente en la era de Internet, es ya fácil de captar y hace posible la recopilación de muestras que sólo 20 años atrás eran o muy costosas o imposibles de recopilar y almacenar en formato digital.

En todos los casos mencionados, así como en todas las aplicaciones industriales, el objetivo último siempre es el de poder procesar y manejar datos lingüísticos para facilitar la obtención, transmisión e intercambio de información. En este sentido, una de las claves del éxito -no la única, claro está- reside en cómo procesar los datos lingüísticos, de manera tal que seamos capaces de obtener lo que buscamos. Para determinadas empresas, el interés residirá, por ejemplo, en extraer la información más relevante de un texto recibido, sin tener que leer todo el texto, o de traducir ese texto, incluso de manera resumida, o de identificar el habla recibida y responder, también oralmente, a tal mensaje. Si se trata de traducir un texto, el sistema deberá no solamente identificar cada palabra o conjuntos de palabras en el aspecto formal, sino también desambiguar el significado que corresponda, entre los varios que un término o frase puede contener, dentro del contexto en que se encuentra.

2

Y todo esto debe ser realizado por una máquina que es creación del ser humano y sigue unos procesos estrictamente lógicos. Al tratar el tema que me he propuesto desarrollar, este hecho ha de ser tenido especialmente en cuenta. No cabe olvidar, entre otros aspectos, que

i. el ordenador es una máquina creada por el ser humano y, por tanto, a imagen y semejanza del ser humano.ii. en consecuencia con lo anterior, el principio o punto de partida es que esa máquina no tiene conocimientos ‘infusos’: sólo dispone de aquellos que le hemos suministrado o que podemos suministrarle, y a partir de ellos también es posible lograr que ‘aprenda’ o adquiera algunos más. Ahí acaba su poder. iii. un ordenador puede identificar formalmente todas las palabras de una lengua con rapidez y facilidad. Puede tener a su alcance el más extenso diccionario, de dos o de doce volúmenes, y puede acceder a ellos y a cada voz con una velocidad asombrosa. Pero no debemos olvidar que el ordenador es una máquina creada para trabajar de una determinada manera y con determinadas limitaciones.

Entre otras, hay que destacar que el ordenador, en su estructura interna, no conoce las palabras de la misma manera que las conocemos nosotros. Para nosotros, el término mesa es inmediatamente asociado a un objeto especial, que suele constar de una superficie plana que descansa sobre una o más patas. La relación de significado y significante es instantánea. Para un ordenador, en cambio, la estructura lógica de ‘mesa’ no es sino un conjunto de secuencias de 0 y 1, los que en el código ASCII corresponden a cada una de las letras que la componen. Eso es lo que sabe el ordenador. Incluso más: el ordenador solamente sabe que una serie especial de 0 y 1 equivale a un espacio en blanco, de lo cual puede inferir que lo que está entre dos secuencias de esta índole son lo que nosotros llamamos ‘palabra’.

Lo mismo puede ser aplicado a otros modalidades del lenguaje, en especial al lenguaje oral, aunque teniendo en cuenta que el procesamiento del habla añade dificultades adicionales, primero porque las pausas no corresponden a las palabras, y luego porque los sonidos deben ser captados a partir de ondas sonoras, antes de ser pasadas al código ASCII, que es el que la máquina entiende.

Continuando con los límites y el alcance de la ‘sabiduría’ que posee el ordenador, y en relación con las palabras, también hay que reconocer que actualmente los ordenadores son capaces de asociar cada palabra a los posibles significados que ésta pueda tener con mucha mayor rapidez que la mente humana. De modo que tampoco sería un problema para el ordenador buscar la información pertinente de ‘mano’, por ejemplo, en los más de 250 significados que figuran en el Gran Diccionario de Uso del Español Actual (GDUESA, SGEL, 2001). Y tampoco sería problema asociar cada uno de esos significados a los correspondientes de una o más lenguas diferentes (por ejemplo, el inglés o el francés). A estas alturas podríamos afirmar que quizás lo que ‘sabe’ o ‘puede saber’ un ordenador no es poco. Y desde luego, su capacidad de almacenar datos es inmensa, y la velocidad para acceder a ellos supera con creces a la propia de la mente humana. ¿Dónde están, pues, las dificultades?

3

Las dificultades residen en el manejo, inserción y combinación de estos y algunos otros conocimientos -especialmente los derivados del contexto- en el flujo del lenguaje natural, tanto para entenderlo, como para generarlo.

Nosotros, los seres humanos, aunque no seamos conscientes de ello, añadimos al conocimiento que podamos tener de cada palabra,

i) conocimientos que provienen del contexto próximo y lejano del texto que leemos o del habla que escuchamos. Ese contexto funciona a varios niveles, de mayor a menor cercanía, pero sin límites en la extensión. A manera de ilustración, podemos centrarnos en el contexto oracional. Si analizamos la palabra ‘ronda’, por ejemplo, podemos encontrarnos con unos 13 significados. Estos son los ejemplos que ilustran algunas definiciones de esta voz en un diccionario basado en un corpus actual del español (GDUEsA, Sánchez 2001):

1. Estos grupos de autodefensa eran similares a las rondas campesinas del Perú.2. Vive en la Ronda Litoral.3. Sólo se veía el paso de las rondas vigilando a todas horas.4. El viernes finalizó la tercera ronda de conversaciones entre Brasil y Argentina.5. Venga, ¿nos tomamos otra ronda?

El lexicógrafo ha de ser capaz de identificar el sentido exacto que la palabra ‘ronda’ tiene en cada ejemplo y poner eso por escrito. Pero, aunque no sea un profesional de las palabras, algo similar tiene que hacer también cualquier hablante del español. En este sentido, no hay diferencias entre especialista y usuario normal de una lengua. Ambos tienen que valerse del contexto para acceder al significado de los términos que oye, lee o usa. ¿Qué es lo que nos permite identificar cada uno de los diferentes sentidos de esa misma palabra, que es ronda? Simplificando un poco, podríamos afirmar que la claves para identificar cada sentido en estas frases reside en muy pocas palabras. Aplicando la estrategia de los telegramas, cada frase podría ser reducida a unos mínimos de ‘cantidad léxica’ que permitirían comprender el sentido de ‘ronda’ en cada caso:

1. autodefensa rondas campesinas (Perú)2. Vive Ronda Litoral3. rondas vigilando 4. finalizó ronda conversaciones 5. ¿tomamos otra ronda?

ii) Además, en el lenguaje natural, estas frases están insertas dentro de un contexto más amplio, que excede al oracional: tal contexto puede ser un párrafo, un capítulo, o toda una conversación, o un libro. Esta realidad nos obliga a concluir que la palabra ‘ronda’ no llega de improviso o de la nada, no cae sola del vacío para quien participa en la lectura o en un diálogo. Llega dentro de un contexto próximo y lejano. Y tal contexto es lo que hace posible la comprensión por parte del ser humano. El ordenador no ‘conoce’ ese contexto si no le suministramos las claves para conocerlo.

4

iii) También hay otros elementos sobre los cuales los lingüistas se deleitan hablando para explicar la captación o comprensión del significado, especialmente si se trata del contexto extralingüístico (gestos, entorno geográfico, miradas, etc.). La pragmática pone particular énfasis en el estudio y análisis de esos elementos no estrictamente lingüísticos, pero íntimamente asociados a ellos.

Abundan también las frases hechas, que aunque constan de varias palabras, aportan un significado fijo, y están sujetas a determinados patrones sintácticos. Por ejemplo, en español, si usamos ‘depender’, sabemos que ha de seguir el elemento preposicional ‘de’:

Depende de… (‘Esta actitud depende de un adecuado control’).

Si decimos,De perdidos al río, (‘Y no es que la agradasen las esquelas, pero de perdidos, al río’).

no estamos hablando realmente de ríos, sino que hacemos referencia a la situación de quien estando en apuros o sin esperanzas, es mejor que opte por aprovechar cualquier posibilidad, por mala que ésta sea.

Y son muy frecuentes los conjuntos de palabras que parece que se necesitan mutuamente, ya que siempre aparecen juntas, como en estado de asociación permanente. Si nos referimos al tren que llegará próximamente a Valladolid alcanzado velocidades muy por encima de las habituales en los trenes convencionales, no decimos

Tren de elevada/enorme/mucha velocidad, sino

Tren de Alta Velocidad.

Dentro de este contexto y realidad, si ahora volvemos nuestra mirada hacia el ordenador, esta criatura del ser humano, no tendrá problemas en la interpretación del valor de ‘de’ siempre que siga a una de las formas del verbo ‘depender’, ya que al ser predecible su presencia y función, es posible suministrarle esa información a la máquina y ésta no tendrá dificultad en captarla. Ni tendrá dificultades en captar el valor de ‘Tren de Alta Velocidad’, que se ha convertido en una expresión fija y no ambigua. Claro que si tal información no la conoce, entonces el Tren de Alta velocidad, al ser traducido a otros idiomas, podría topar con dificultades. Lo de ‘alta’ en inglés, podría ser traducido, por ejemplo, como Tall Speed Train, a no ser que el ordenador sepa de antemano que ‘tall’ no se aplica a la velocidad de los trenes…

Un problema similar encontraríamos para traducir al inglés De perdidos al río: careciendo de datos suplementarios o contextuales, un ordenador lo traduciría como lo han traducido tantos alumnos: From lost to the river, frase que provocaría la sorpresa e hilaridad de cualquier hablante inglés, además de no facilitar la correcta comprensión de lo que es una expresión peculiar en español. Pero, ¿cómo lo podría traducir el ordenador de otra manera si

5

previamente no le hemos dicho que esa frase, exactamente esa frase, equivale a algo que no tiene que ver con las palabras de que consta? Además, cuando alguien dice esa frase, sabemos que no suele estar contando cosas agradables y bonitas, sino que se refiere más bien a hechos poco afortunados o que encierran peligro…

Por lo tanto, si lo que buscamos es que el ordenador identifique, interprete y genere una lengua concreta, la que sea, sólo podrá hacerlo adecuadamente cuando posea o tenga acceso a la información necesaria para llevar a cabo esa tarea. Puesto que el ordenador es una máquina hecha por el ser humano y a imagen de éste en lo que al manejo del conocimiento se refiere, el objetivo es desentrañar primero qué es y cómo funciona nuestra mente en el uso y generación del lenguaje, para luego ser capaces de transmitir a la máquina esos mismos procedimientos o procesos, pero en lenguaje de máquina.

Como nota complementaria y con ánimo de reflejar la realidad, conviene tener en cuenta que los seres humanos tampoco somos perfectos en el uso y comprensión del lenguaje. A veces nos equivocamos al hablar o escribir, cometemos errores que conducen a la interpretación errónea de nuestros mensajes, o bien no captamos adecuadamente los mensajes recibidos, oralmente o por escrito. El hecho obliga a admitir que no cabría esperar que el ordenador, máquina hecha a nuestra imagen y semejanza, alcance la perfección en el uso de esa misma herramienta creada para la comunicación interpersonal, que es el lenguaje.

Hechas estas aclaraciones, pasemos ahora a analizar lo que un ordenador puede ofrecernos en términos de información lingüística.

Etapas en el desarrollo de las posibilidades de los ordenadores para identificar elementos lingüísticos.

A tenor de lo expuesto hasta ahora, el paso decisivo que es preciso dar para que el ordenador sea capaz de identificar plenamente el sentido y valor de las palabras es la comprensión del contexto, el cercano y, a ser posible, el más alejado. Existen varios proyectos actualmente, y también los ha habido en años anteriores, cifrados en el análisis de aspectos léxico-semánticos o semánticos, además de los puramente morfológicos y sintácticos. Menciono por ejemplo el proyecto Word Net y la construcción de las ontologías. No cabe duda que todos estos esfuerzos han supuesto y suponen importantes contribuciones al análisis lingüístico. Pero en la medida en que no contribuyen directamente a la identificación del contexto por parte del ordenador, en esa medida es difícil prever que puedan contribuir a dar un salto cualitativo en el procesamiento del lenguaje mediante ordenador y en el logro de la desambiguación léxica automática. También se han realizado estudios y proyectos más centrados en el análisis del contexto como medio para desambiguar automáticamente el sentido de las palabras (Ravin & Leacock, 2000). Es preciso reconocer, sin embargo, que los resultados no son aún todo lo satisfactorios que desearíamos (parece ser que la tasa máxima de éxito alcanzado no supera el 70% . Millar and Leacock, 2000, en Ravin & Leacock, 2000). La identificación del contexto es extremadamente compleja y se trabaja en el desarrollo de modelos automáticos más refinados, como se hace en el proyecto MindNet, que se lleva a cabo dentro de la empresa Microsoft

6

(Dolan, Wanderwenden and Richardson, 2000, en Ravin & Leacock, 2000). Sin embargo, antes de llegar a esta situación relativamente avanzada, el procesamiento del lenguaje por parte de los ordenadores ha tenido que superar etapas más elementales y ‘primitivas’. Esas primeras etapas estaban condicionadas por dos factores interrelacionados: la capacidad de los ordenadores y la cantidad de texto que podía someterse a análisis.

Como nuestro objetivo no es estudiar el desarrollo histórico de la capacidad de proceso de los ordenadores, comenzaré con la etapa en la que hacen su aparición las grandes recopilaciones de textos o ‘corpus lingüísticos’. Este hecho se da en la década de los ochenta, si bien en los sesenta ya se había recopilado y tratado computacionalmente el Brown Corpus, de 1 millón de palabras (Francis, W. N. and H. Kucera, 1964).

¿Por qué me centro en los corpus lingüísticos? La respuesta es sencilla: sólo las grandes recopilaciones textuales permiten obtener datos fiables sobre comportamientos lingüísticos, a partir de los cuales es posible proyectar los resultados hacia patrones generales. En este ámbito, de poco valen las teorías lingüísticas elaboradas ‘desde arriba’ con el ánimo de someter a ellas la realidad del lenguaje. Más bien es preciso proceder a la inversa: analizar el lenguaje para descubrir las reglas o patrones que gobiernan su uso.

Los corpus lingüísticos como base de trabajo y punto de partida.

El primer corpus lingüístico de cierta entidad se recopiló a finales del s. XIX. Atkins y Zampolli (1994:21) mencionan a F. W. Kaeding, quien en 1898 publicó un listado de frecuencias basado en un corpus de once millones de palabras (Häufigkeitswörterbuch der deutschen Sprache), recopilado y analizado manualmente, en el que se dice que trabajaron más de 5.000 ayudantes. Poco después, en 1907, J. B. Estoup (Gammes sténographiques) utilizó esos datos para realizar algunos cálculos estadísticos sobre la frecuencia de palabras y formas en el texto. No menos conocida es la moda o la pasión por los listados de frecuencias léxicas en la década de los años treinta y posteriormente en la década de los años sesenta (propiciada por la metodología audio-oral en la enseñanza de lenguas extranjeras). Destacan, por ejemplo, Thorndike y Lorge en 1944 (The Teacher's workbook of 30.000 words) y la General Service List of English Words, de Michael West (1953), punto de referencia obligada para muchos autores de manuales y profesores de inglés como segunda lengua. Se trata, sin embargo, de esfuerzos aislados que aún no han encontrado ni el caldo de cultivo adecuado ni los medios técnicos que eviten tan ingente esfuerzo humano.

La aparición de los ordenadores es lo que realmente da un impulso decisivo a este tipo de estudios. En la década de los 80 los corpus entran en una clara fase de desarrollo: tanto los adelantos en la potencia de los ordenadores como la posibilidad de captar ópticamente textos escritos por medios mecánicos permiten aumentar considerablemente el tamaño o volumen de los datos susceptibles de ser procesados automáticamente. Nace así una segunda generación de corpus, iniciada con el proyecto "Cobuild", liderado por el lingüista J. Sinclair, en la Universidad de Birmingham (Sinclair 1987) y seguida por el Longman/Lancaster English

7

Language Corpus, el primero de unos 7 millones de palabras en su formato básico y el segundo de más de 20 millones de palabras.

El proyecto Cobuild se llevó a cabo en colaboración con una empresa editorial (Collins). Sin lugar a duda fue este hecho el que propició una notable popularización de los corpus. Hasta entonces estos instrumentos habían servido para el estudio e investigación de sólo unos pocos y su divulgación ni siquiera era significativa entre los mismos lingüistas. Con el proyecto Cobuild se añade una dimensión nueva: la recopilación no solamente ha de servir para estudios científicos sino que debe dar origen a aplicaciones prácticas y útiles, y debe servir de base a publicaciones que puedan llegar a todo tipo de públicos, no solamente a especialistas en lingüística. Por parte de la editorial se intentan recuperar las inversiones realizadas. Para los autores del proyecto este hecho implica analizar los materiales lingüísticos de manera que los resultados sean accesibles al público no especializado. El primer producto de estos trabajos se concretó en un diccionario de la lengua inglesa (Collins-Cobuild Dictionary of the English Language, 1987), elaborado con algunos criterios novedosos y fundamentado en ejemplos tomados del corpus. A esta obra se añadió pronto una gramática del inglés, un curso de inglés para extranjeros y una variada colección de publicaciones basadas todas ellas en el corpus. El hecho más sobresaliente fue, sin duda, que la publicidad dada al proyecto Cobuild popularizó la idea del corpus en los estudios lingüísticos. Desde entonces no solamente ha aumentado el número de recopilaciones en varias lenguas, sino también los estudios lingüísticos basados en los datos aportados por los corpus. De otra parte, el imparable avance en el campo de los ordenadores ha hecho posible la aparición de corpus "de tercera generación", mucho más grandes en cantidad y amplitud. Entre ellos sobresale el British National Corpus, liderado por Oxford University Press, en colaboración con Longman Group, Chambers Pubishers, las Universidades de Lancaster y Oxford y la British Library, de 100 millones de palabras, etiquetado morfológicamente e incluyendo muestras orales y escritas. El fervor por los corpus ya se ha extendido a prácticamente todos los países y lenguas. Los proyectos que hace sólo unos años parecían pioneros, grandes obras ‘de Estado’, como el BNC o el Corpus de Referencia de la RAE, ya parece que han sido superados por la realidad. Actualmente es posible recopilar grandes cantidades de texto a bajo coste y en poco tiempo mediante la expansión de Internet. Baste tener en cuenta que en sólo 24 horas circula por Internet -en formato digital, por lo tanto- más ‘lengua’ que la circulaba en varios siglos juntos del pasado.

El estudio analítico de la lengua llevado a cabo por especialistas no debe ser equiparado al procesamiento y manipulación de la lengua por parte del ordenador. Pero el uso y manejo de los corpus de lengua con fines analíticos no sería posible sin la ayuda del ordenador. Ahora bien, el análisis que podemos hacer de tales recopilaciones depende en gran medida de los programas informáticos que apliquemos y de la potencialidad y posibilidades que tales programas nos faciliten.

En el procesamiento de textos por parte del ordenador podríamos establecer varias etapas, cada una de ellas con mayores posibilidades respecto a la anterior, todas ellas de utilidad creciente para el análisis lingüístico y, en consecuencia, también para el manejo autónomo del lenguaje por parte de la máquina.

8

Etapa 1ªIdentificación y cuenteo de palabras:

a) mediante la lectura lineal de textos

Hablar de una ‘primera etapa’ no equivale en absoluto a hablar de una etapa primitiva o poco significativa. Me refiero a una ‘primera etapa’ en razón de que en este estadio se inicia el tratamiento computacional de textos y por tanto no puede ser denominada de otra manera. Además, hay que tener en cuenta que lo que aquí denomino ‘primera etapa’ incluye programas de gestión de textos que siguen siendo válidos y siguen siendo utilizados actualmente, precisamente porque la sencillez de las herramientas permite su fácil manejo y rápida universalización. No obstante, los resultados que pueden obtenerse con las herramientas surgidas en cada etapa tienen también las limitaciones propias de los ordenadores en cada momento histórico. Genéricamente podría decirse que las limitaciones de los principios se centran en:

i) lectura lineal de textos,ii) identificación de las palabras sólo mediante los espacios en blanco que las separan,iii) limitada capacidad de proceso en memoria y en velocidad.

Es posible ilustrar la situación con algunos hechos: - En los primeros años de la década de los 90, un millón de palabras bloqueaba la memoria de proceso de un ordenador y éste se quedaba ‘colgado’.- Un pentium I de primera generación tardaba unos 20 minutos en leer 4 millones de palabras.- La extracción de datos útiles a partir de grandes recopilaciones de textos se cifraba en

i) el reconocimiento y cuenteo de formas o palabras, tal cual aparecían escritasii) la extracción de concordancias o palabras en contexto, con X palabras a la

izquierda y X palabras a la derecha.iii) el cálculo de estadísticas diversas basadas en el cuenteo realizado.

Estos son algunos ejemplos de los resultados que podían obtenerse

a.1. Frecuencia de las palabras en las lenguasFrecuencia total y por tramos Cumbre (español)

(20 M. palabras)Lacell (Inglés) (20 M. palabras)

Total de formas diferentes (types) 253.300 253.806

De frecuencia 2 ó más 147.870 104.200

1001 - 1.216.593 1.845 2.130

101-1.000 10.970 9.465

21-100 24.915 18.462

11-20 17.936 12.777

6-10 22.928 11.829

9

2-5 69.276 49.343

1 105.430 149.800

TOTAL PALABRAS RECONOCIDAS: 146TOTAL PALABRAS SELECCIONADAS: 146TOTAL VOCABULARIO: 98PALABRA MÁS LARGA (EN LETRAS): 16PALABRA MÁS CORTA (EN LETARS): 1N1 MEDIO DE LETRAS POR PALABRA: 5,49N1 MEDIO DE LETRAS POR FORMA: 6,5

TOTAL ORACIONES: 5ORACIÓN MÁS LARGA (EN PALABRAS): 39ORACIÓN MÁS CORTA (EN PALABRAS): 21N1 MEDIO DE PALABRAS POR ORACIÓN: 29,2ORACIONES CON > 50 PALABRAS: 0 0%ORACIONES CON 40-49 PALABRAS: 0 0%ORACIONES CON 30-39 PALABRAS: 3 60%ORACIONES CON 20-29 PALABRAS: 2 40%ORACIONES CON 10-19 PALABRAS: 0 0%ORACIONES CON < 9 PALABRAS: 0 0%

1 2 3 4 5 6 7 8 9

FRECUENCIA FRECUENCIA FORMAS PALABRAS TOTAL TOTAL % FORMAS % PALABRAS % TEXTO RELATIVA FORMAS PALABRAS T.FORMAS T.PALABRAS 1 0.68493 79 79 79 79 80.61 54.11 54.11 2 1.36986 8 16 87 95 88.78 65.07 10.96 3 2.05479 5 15 92 110 93.88 75.34 10.27 4 2.73973 2 8 94 118 95.92 80.82 5.48 6 4.10959 1 6 95 124 96.94 84.93 4.11 7 4.79452 2 14 97 138 98.98 94.52 9.59 8 5.47945 1 8 98 146 100.00 100.00 5.48 RATIO FORMAS/PALABRAS: 0.67123

a.2. Longitud de las palabras.

Español InglésMedia de letras por palabra 5,1 5

a.3. Número y longitud de las oraciones.

Español InglésMedia de palabras por oración 10,5 11

10

Oración con más palabras 28 25

a.4. Cuenteo de afijos

Afijos Inglés Español

-dom 4.000 ----ness 25.500 ----hood 2.150 ---- ship 11.150 ----able 50.500 27.200-ador(a/os/as) (-ator) 7.800 35.000dis- 52.900 46.000 Over- 35.700 (sobre-) 9.190Sub- 18.400 12.000Ultra- 355 637Anti- 4.240 4.000Contra- (counter-) 4.700 22.700Inter- 30.000 31.000Super- 5.000 11.000Ex 106.000 99.500Poly- 1.320 1.500Multi- 2.600 2.850Neo- 425 1.200

a.5. Cuenteo de palabras, en cualquier lengua

Inglés Español1. the, 12636212. of, 6208413. and, 5845264. to, 5652235. a, 4800326. in, 3985307. that, 2641868. is, 2347529. it, 22741410. for, 19055911. you, 17243012. on, 15436413. was, 14757914. with, 14141515. be, 13872516. as, 13377717. are, 115053

de 1216593la 770656que 673494y 563139el 557608en 522624a 429826los 327038se 265864no 233880un 222746las 215618del 211604por 202115con 183781una 181191es 176187

11

18. he, 11087219. at, 10912420. this, 10430121. have, 10397722. we, 10385323. by, 10002224. they, 9942825. but, 9751726. or, 9044527. from, 9018828. not, 8999729. there, 7322730. an, 7223131. his, 7133132. which, 7110433. one, 6782634. will, 6463935. all, 6365636. had, 6292237. if, 6072438. can, 5982239. has, 5783840. so, 5731141. what, 5714442. their, 5554743. were, 5467144. about, 5062745. been, 4793246. more, 4792847. would, 4760448. when, 4729949. who, 4635550. she, 4486651. your, 4424352. do, 4416953. up, 4376354. no, 4362055. out, 4277856. her, 4080757. some, 3922258. said, 3901159. them, 3664760. time, 3575361. people, 3489062. other, 3483263. er, 3431964. two, 3403065. like, 3346566. my, 3343167. into, 3330968. then, 3253969. well, 3196170. very, 3177071. its, 3152272. now, 3135373. than, 3082374. just, 3033575. only, 3010276. new, 2933577. think, 29321

lo 137537para 135083su 127901al 113580como 102577más 93074pero 72694me 69189le 61247ha 55331sus 54089si 53544yo 47042ya 45649este 42028porque 38804muy 38398todo 38351cuando 37518qué 37472sin 36372son 36067sobre 35467está 34596también 33752esta 33333hay 33141sí 33067entre 31747ser 31317era 31293mi 30871dos 29334había 28013nos 27671años 27604tiene 26605hasta 26062desde 25753te 25473eso 25374fue 24739todos 24580puede 23953pues 23722han 23513así 23160bien 23031vez 21350ni 21134sólo 20690ahora 20130él 19975uno 19047parte 18868ese 18736tiempo 18128vida 18086mismo 17886otro 17405

12

78. any, 2872579. know, 2861680. these, 2770081. may, 2757582. could, 2752683. our, 2684684. also, 2676085. first, 2669386. me, 2617887. how, 2520688. over, 2514489. because, 2509290. him, 2500291. re, 2432692. get, 24308 93. see, 2355494. after, 2287395. most, 2266896. don, 2259397. where, 2258598. should, 2223099. many, 21642100. way, 21470

día 17357cada 17225hacer 17146siempre 17000entonces 16891nada 16844donde 16768esa 16764hace 16658bueno 16574decir 16543tan 16504otra 16485esto 16388después 15823ella 15733menos 15282tanto 15269otros 15232mundo 15203aquí 15182va 15163poco 14904

El cuenteo de palabras podría parecer, a primera vista, inocuo. Sin embargo, es más útil de lo que a primera vista se aprecia: permite análisis cuantitativos de toda clase, comparaciones entre lenguas, fijar usos más o menos recurrentes, etc. Añado algunos otros ejemplos, también derivados del mero cuenteo de las formas, combinado con algún otro elemento de estudio, como pueden ser los significados de las palabras:

a.6. Comparación de usos de una palabra determinada frente a otras y entre lenguas diversos:

Mano

Palabras Frecuencia por cada conjunto de X palabras

Inglés thehandweekwatercitybankdoctorsex

1/161/2.1471/2.1041/2.7951/4.6301/4.7741/7.3071/11.110

Español de manociudadverdad

1/161/1.8181 /2.3101/ 2.310

13

pesetabancomédicofoto

1/ 4.3001/ 4.3001/ 4.9111/ 14.000

En lo referido a la amplitud de uso, el lema hand suma en nuestro corpus un total de 6.031 ocurrencias en su forma singular y 3.281 en su forma plural (9.312 ocurrencias en total), lo cual equivale a un 0,046% sobre el total. La palabra mano, a su vez, aparece en el corpus Cumbre 6.393 veces, y manos 4.631 veces (11.024 veces en total), que equivale a un 0,055% sobre el total de palabras del corpus. En la lista de frecuencias del inglés, el lema hand ocupa uno de los primerísimos lugares, el 176, muy similar al que ocupa la palabra mano en español (el 169).

Inglés EspañolFrecuencia respecto al total 0,046% 0,055%Lugar en orden de frecuencia 176 169Usada 1 vez en cada conjunto de

2.147 palabras 1.818 palabras

Estructura de los significados de mano/hand

Campos semánticos Inglés Español

Como ‘miembro físico’ 55% 48%

Con significados referentes a su ‘funcionalidad’ 12% 6%

Otros: a) personificación del ser humano, b) cosa que se agarra con la mano, c) del tamaño de la mano) 1% 1%

Expresiones/frases idiomáticas/subvoces 32% 45%

Y el simple cuenteo de palabras y su agrupación por frecuencias, también puede proporcionarnos resultados tan útiles, para lingüistas o para el procesamiento automático de textos, como estos:

a.7. Análisis de las frecuencias y concordancias de palabras determinadas:

Si nos centramos en el verbo "tener", es importante conocer no solamente las veces que aparece este verbo, sino también la frecuencia de sus diferentes formas verbales, especialmente las irregulares.

14

En el corpus Cumbre, el lema tener aparece 104.468 veces en sus diferentes formas y flexiones:

tenemos tenéis teníais tuvieras tuvierais tengo tenía tenías ... tenido/a/os/as

7.076422205357.92610.5962954.296

tiene tienen tienes

26.55010.7543.274

Formas de presente indicativo (total)tiene

53,6% (= 56.002)

25,4%flexiones con irregularidad e>ie 40.578 ( = 38,8% del

total)

Tendr* 5.237Tenga* 4.246Formas regulares de pres. ind. e imperfecto + tener o teniendo

Tenemos Tenéis Tenía…Tener Teniendo H* tenid*

36.779

7.07642214.1189.6501.3464.167

En conjunto, las formas irregulares tienen un mayor protagonismo que las regulares. La relación entre uso y cambios morfológicos puede quizás ilustrarse en otros muchos ejemplos. En tal caso un corpus podría muy bien avalar datos históricos sobre la evolución de una lengua o sobre cambios determinados que se han dado en ella. )Sería posible relacionar el uso más o menos frecuente con la evolución más o menos intensa de las formas?

A este estudio cabe todavía añadir otros datos de interés relacionados con el contexto en que aparece cada una de las formas.

El sintagma "tener que" (en sus diversas formas) aparece en 17.900 ocasiones, lo cual equivale a decir que de todas las oraciones en que aparece "tener", el 17,13% cobra el valor que le añade la adición de "que" (expresión de obligatoriedad).

Tien* que 6.479

15

Ten* queTuv* que

9.5271.894

(total)Tener que 17.900 (17,13% del total de

‘tener’)

Resultados de interés referidos a la presencia de tres verbos en el español y sobre los usos de sus diferentes formas pueden obtenerse también del análisis de frecuencias relativas a los verbos "ser", "estar" y "tener", como se puede apreciar en la siguiente tabla:

TENER ESTAR SER

tiene 26550 tenía 14118 tienen 10754

tenía 10596tener 9650tengo 7926 tenemos 7.076 tenido/os/a/as 4296 h* tenid* 4167tienes 3.274. tenga 2318teniendo 1346tendría 1210

tenéis 422tenías 295 tendré 209tuvieras 53teníais 20 tuvierais 5

está 34498estaba 14248están 13772

estar 7283estamos 6876estoy 6658estaban 3850 h* estad* 2691estás 2674estuvo 2175esté 2117estará 1129estábamos 1054

estén 991estuviera 805estaría 801estuve 724estuvieron 592estuvieras 27estuvisteis 2estuvieren 8

es 176238son 36097

ser 31388era 31374fue 24838sea 14123h* sid* 13506eran 6574será 6468fueron 6341fuera 6144soy 4945sería 5196 siendo 3815sean 2613somos 2572eres 2117

serán 1926fui 1109

serían 727fuese 671sois 380seas 319seré 165fuere 160seréis 19seríais 9

a.8. Palabras que concurren con otras o que suelen acompañarlas

Aplicando sencillos cálculos de cuenteo y relacionando la frecuencia con la proximidad de unas palabras respecto a otra es posible también determinar qué palabras suelen acompañar a otras palabras, y sería posible incluso hacer un mapa de qué formas en una lengua determinada acompañan regularmente a cada una de las formas del idioma dentro de unos determinados parámetros, como podría ser el contexto oracional, o el de un párrafo, o el de una página. Esta

16

información es muy útil para muchos fines, tanto sintácticos, como morfológicos, pero también para los de carácter semántico.

Si llevamos a cabo un análisis con la voz ‘economía / economy’, en dos idiomas diferentes para percibir mejor los contrastes, los resultados son ilustrativos: el entorno léxico de estas voces en inglés y en español dista de ser coincidente, aunque comparte muchos elementos léxicos:

Español InglésSustantivos (en orden de frecuencia):

*mundo, *gobierno, *país, *mercado, *política, determinar, *ministro, millones, nacional, *crecimiento, económico, *ministerio, *desarrollo, *empresas, crisis, *sector, *prensa, *banco, *empleo, inversión, *trabajo, mundial, internacional, *comisión, etc.

*market, *sector, * rates, recession, year, *policy, *chancellor, *news, -party, * society, -budget, *figures, -interest, people, *state, way, cent, *markets, page, programme, rest, century, deficit, demand, *government, *growth, part, rise, etc.

Adjetivos:*española, *nacional, *económica, *económico, público, mundial, *internacional, europea, *importante, pasado, *real, financieros, diario, *económicos, políticas, etc.

*british, *political, *economic, high, foreign, last, *national, modern, *real, created, financial, *international, monetary, new, own, recent, single, *strong, *considerable, first, etc.

Verbos: determinar, *tener, *ser, *decir, *poder, *crear, pesar, reducir

*said, *are, *have, make, *may, *created, growing, keep, rise, based, declared

Y un análisis similar con la voz mano, arroja los siguientes resultados de co-ocurrencia:

17

una/o* sus* mi/mis* todo* dos* otra* está* ojos* ser* hay * obra* tiene* tenía* tu* cabeza* derecha* tiempo* son* dijo* puede* dedos * izquierda* hacer* cara * boca * parte* va * ver * mucho * veces * poder*

Términos compartidos

other* one * your* their * my* be* have* all* had* right* face* said* head* left* two* eyes* may* side* time* see* do* much * mouth * fingers * go* work* power *

cuerpo algo hace frente mujer mundo hombre casa cada años señor nada día momento vida decir misma padre puerta

Términos no compartidos

put away back both holding our own took held get take got people hold first looked together know shook made feet way hair

Y sería posible comparar estos resultados con muchos otros idiomas, en cuyo caso podrían apreciarse matices o rasgos contrastivos de importancia.

a.9. Riqueza léxica de un texto, literario o no

Calcular la riqueza léxica de una obra o de un autor es una operación sencilla, siempre que se disponga de los textos en formato digital. A partir de la fórmula propuesta por Sánchez y Cantos (1997), que refleja la relación del incremento de types y tokens en los textos, se infiere también otra fórmula para calcular el factor K, citado por dichos autores. El factor K (curva parabólica de incremento léxico) refleja también, necesariamente, la riqueza léxica, en la medida en que a mayor número de palabras diferentes corresponde mayor riqueza léxica. Pues bien, de tal fórmula ( Types = K

) deriva esta otra:

K (densidad léxica) =

DL = Densidad o riqueza léxicaTypes: Palabras o formas diferentesTokens: Número total de formas o palabras de un texto.

Si tomamos como ejemplo la novela Heart of Darkness, el número de formas lingüísticas es de 39.085, y el número de formas o palabras diferentes es de 5.498. Aplicando la fórmula mencionada anteriormente, (raíz cuadrada de 39.085 = 197,69. 5.498 dividido por 197,69 = 27,8), obtenemos el índice K, de riqueza o densidad léxica: 27,8.Naturalmente, el valor de este coeficiente cobra mayor valor si cabe cuando lo comparamos con coeficientes de otros autores o de otras obras. En realidad, puesto que solamente se puede hablar de mayor o menor riqueza léxica si establecemos comparaciones entre

18

diversos autores, sólo a través de esa comparación es posible hacer afirmaciones al respecto. He aquí algunos ejemplos ilustrativos:

Literatura Inglesa:Total (tokens, formas)

Total (types, formas diferentes)

Coeficiente de densidad léxica

Heart of Darkness (Conrad)

Lord Jim

The Nigger

Typhoon

39.085

139.172

55.061

31.377

5.498

10.859

7.106

4.941

27,8

29,1

30,28

27,9

Persuasion (J. Austen)

Sense and Sensibility

85.450

121.674

6.062

6.618

20,73

18,98

Moby Dick (Melville)

Typee (Melville)

214.718

114.747

17.256

10.710

37,24

31.72

Obsérvese que Melville sobresale claramente sobre el resto de autores en riqueza léxica, mientras que J. Austen queda a notable distancia respecto al conjunto de todos los autores comparados. Las características del lenguaje de Jane Austen, más pegado a la realidad cotidiana, parece responder al grado de riqueza léxica resultante. Cabría preguntarse, no obstante, por qué Melville nunca es mencionado como autor rico en vocabulario. Su riqueza léxica supera con creces a Conrad.

Literatura española:Los datos recogidos de obras literarias en español permiten establecer

comparaciones fiables respecto al inglés. En algunas novelas analizadas, los resultados se reflejan en la siguiente tabla:

Total (tokens, formas)

Total (types, formas diferentes)

Coeficiente de densidad léxica

Pedro Páramo (Rulfo)Otros relatos cortos

25.80774.002

4.8208.495

30,0131,23

Don Quijote de la Mancha, (I y II)

139.552 11.857 31,7

Aira, Battista, Borges, Cortázar, Sábato, Saer y Soriano

(autores argentinos)

55.648 9.865 41,8 (NB: el coeficiente de DL es superior por ser varios los autores analizados como un todo)

19

Donde ríen las arenas (M. Villar, España)

97.297 (311,9) 12.146 38,9

a.9. Concordancias

Al menos en los estudios lingüísticos, uno de los formatos de extracción de información más populares y conocidos es el de las concordancias, que no consisten más que en la extracción de un término o forma con un contexto determinado, de su izquierda o de su derecha. Inicialmente, estos eran los parámetros: palabra o sintagma, más X palabras a la izquierda y X palabras a la derecha, convenientemente alineadas para facilitar la consulta:

depende de 42 EO121 E-x Pol ta y cinco, por ejemplo?. B Yo no sé situarlo porque depende de cómo evolucionen los acontecimientos, pero un panor EO123 E-x Otr quiera, digo yo o tú cómo lo ves. H Yo creo que sí, depende de cómo te cases. Si te casas por la iglesia pensarás EO114 E-x Otr firiendo al cutis. B Eso es el vello. C No, oye, y, depende de donde sea el vello, porque me estáis diciendo... B EO112 E-i Edu tificadas, que realmente su mejora en la sociedad no depende de ellos mismos, que depende de otros, que la única ví EO114 E-i Cul del Rey. Esto, reunirlos en el Hospital Távera, que depende de la Fundación Medinaceli, por vías más o menos de co EO121 E-x Otr leyes dicen, la responsabilidad política es algo que depende de la interpretación de las actuaciones de cada cual, Ho113 MC- Soc uado y con bolas de leche, qué le recomienda? A No, depende de la leche que le esté dando. Yo le recomiendo mucho HO003 MJ C-B aico y caemos en los momentos xxx, en la vulgaridad, depende de la manera que tratemos los elementos. Si nosotros q EO123 E-x Otr nidad, a mí me ha ido muy bien con la primera. M Eso depende de la mujer. N Yo llevo veintitrés años casado y me va EO124 E-x Pol petía en distintas películas con cierto ingenio, no? depende de la película, de aventuras, que ocurrían en las mont EO124 E-x Pol elícula, de aventuras, que ocurrían en las montañas, depende de la película, si urbana. Entonces era difícil, a pri EO121 E-x Otr de la responsabilidad de los estados y luego también depende de la responsabilidad de la Unión Europea. Tiene usted EO111 E-v Eco Bueno, la verdad es que yo tendría que ... A Claro, depende de la situación. B ... tendría que conocer la regulaci Ho124 V-v Eco dónde van a estar los mayores índices de rendimiento depende de la situación de cada país, si ha habido dinero, si EO114 E-v Eco claro, es por el dinero, más o menos, porque, claro, depende de las dos pensiones muy pequeñas y, no sé. A Es que, EO114 E-v Eco as pensiones que las personas mayores tenga, eh? Eso depende de las necesidades que tenga en ese momento. In situ, HO122 MBF Pol fases en este asunto de la basura ... C O cuatro. D Depende de las que queramos. La recolección, la transportación EO113 E-i Edu consumo externo, claro que, son alumnos xxx del o , depende de las sedes y los sitios, son gentes de la empresa, f EO111 E-i MeA uien es comisionista, no estamos diciendo nada malo, depende de lo que cobre por esa comisión. La economía se mueve Ho124 V-v Eco ciero mucho más desarrollado si lo hay, pero esto ya depende de lo que usted quiera. A Y aquella gente simplemente EO124 E-x Pol Dudar. K Pero, él, bueno, o sea, en los matrimonios depende de los acuerdos, quiero decir, él era muy libre de hac EO114 E-i Cul bién, para vidas y personas y, es decir, pero eso no depende de los españoles ni de los franceses ni de los inglese

Actualmente, es usual extraer las palabras en contexto tomando la frase en su totalidad, porque este hecho facilita la captación del significado:

No comparto la interpretación de quienes piensan que como resultado del Plan de Acción de los Presidentes, -que asignó al {BANCO} Interamericano de Desarrollo el rol principal en el campo de la educación-, la OEA vaya a dejar de trabajar en uno de los temas centrales del CIECC.

Muy por el contrario, el hecho de que instituciones tales como el {BANCO} Mundial y el BID vayan a destinar centenares de millones de dólares a financiar programas en educación durante los próximos años, constituye garantía de que en este frente habrá mucho más espacio para una efectiva acción colectiva.

Desde el punto de vista internacional, diversos organismos desarrollan acciones en este campo, como el {BANCO} Mundial, El Programa de Naciones Unidas para el Desarrollo y otras agencias de Naciones Unidas, el BID y agencias bilaterales de cooperación como la AID.

20

La moneda, la moneda como valor de cambio, la moneda que no es lo que hoy nosotros conocemos con el nombre de moneda, o el billete emitido por el {BANCO} Central, autorizado para ser, este, valor de cambio.

Así aparecen las cooperaciones de bancos, así aparecen las operaciones que se hacen a través de papeles de comercio, es el tipo de letra de cambio, xxx de un {BANCO} que está en Estados Unidos para que se le pague al acreedor que está en el Japón.

En esta primera etapa, estos resultados requerían su tiempo. Los programas debían leer todo el texto para ofrecernos los datos solicitados. Si partimos de la base de que en estos años la velocidad de reloj del procesador era de 4, 8, 12 o, más tarde, 64 Mgz, se entiende que las recopilaciones que pasaban de un millón de palabras exigían una inversión notable en tiempo y en paciencia. Actualmente estas mismas operaciones pueden hacerse en cuestión de segundos, incluso procesando varios millones de palabras, aunque si el total supera los 5 o 10 millones, los PCs personales ya pueden requerir cierto tiempo, dependiendo de la memoria RAM disponible.

b) Identificación y cuenteo de palabras mediante el procesamiento a partir de textos indexados

Las bases de datos son quizás el formato de trabajo más adecuado para los ordenadores. Los datos, en este caso palabras o sintagmas, están estructurados previamente, el acceso a ellos es inmediato, en milésimas de segundos, y a partir de las formas indexadas, el acceso a los textos donde aparecen es también inmediato.

Los programas que manejan los textos indexados tienen la gran ventaja de que la cantidad de texto que pueden procesar es mucho mayor: en la actualidad, decenas o incluso cientos de millones de palabras. Además, la velocidad de proceso es muy alta a la hora de suministrar los datos solicitados. En realidad este tipo de programas devuelven en cuestión de segundos cinco concordancias o dos millones de concordancias, sin que el usuario advierta la diferencia del tiempo que el proceso requiere.

La razón estriba en que el ordenador parte de una lista de todas las formas que aparecen en todos los textos indexados y en cada una de esas formas registradas reside toda la información necesaria para que el programa acceda directamente al texto donde se encuentra cada forma, sin necesidad de leer secuencialmente todos los textos, como ocurría con los programas a los que me he referido anteriormente. Esta velocidad en el suministro de datos se puede aplicar también a los filtros que puedan establecerse para tal suministro o búsqueda. Si por ejemplo hemos anotado los textos con códigos o claves referidos a

País de origenTipo de medio en el que aparecenFecha en que aparecen,etc.

21

Las búsquedas devuelven con igual rapidez no solamente las formas solicitadas, sino también esas mismas formas pero tras haber aplicado los filtros deseados (por ejemplo: zona geográfica, modalidad de expresión, etc.).He aquí un ejemplo:

22

No cabe duda de que los corpus o textos indexados ofrecen unas prestaciones en la presentación de información que superan con creces a los programas de lectura secuencial. En este sentido, son ciertamente preferibles. La desventaja para el usuario estriba en el hecho de que los programas indexados tienen que haber sido tratados previamente mediante un programa indexador. Es decir, en realidad los textos han de ser tratados o procesados en dos etapas sucesivas:

- etapa de indexado de los textos- etapa de extracción de información a partir de los textos indexados

Para que los textos puedan ser indexados, hay que prepararlos previamente y darles la estructura que el programa exija. Esta circunstancia hace que sean poco populares, ya que requieren algunos conocimientos por parte de quien los utiliza, en contraste con los programas de lectura secuencial, que no requieren preparación alguna, exceptuando el requisito de que los textos han de estar en formato de SÓLO TEXTO o ASCII.

Es preciso resaltar de nuevo que, aunque en estos programas el ordenador sólo identifica las formas de las palabras, la información que puede derivar de los datos suministrados con sólo esa información, es enorme y extremadamente útil.

23

b.1. Los textos etiquetados

Como ya señalé anteriormente, si el ordenador tuviese más información sobre las palabras y los textos que lee, en tal caso sería también capaz de devolvernos más información. Esto es lo que se pretende con los textos etiquetados: suministrar al ordenador más información sobre las palabras que componen un texto, para que así podamos también recabar información más precisa sobre ellos. Los textos etiquetados se asemejan, en cuanto a estructura y procedimiento, a cualquier producto identificado mediante una etiqueta, como podría ser una prenda de vestir, por ejemplo. Una etiqueta lingüística puede aplicarse a una palabra, a una secuencia de palabras, a un sonido, a una secuencia de sonidos, etc. Y naturalmente, tales etiquetas pueden contener información variada, según la naturaleza del etiquetado o según lo que nosotros queramos identificar. Las etiquetas morfológicas, que son las más habitualmente usadas, suelen constar de datos sobre:

Parte de la oraciónGéneroNúmeroModo, tiempo y persona (si es verbo)Lema (al que pertenece la palabra en cuestión).

El conjunto de etiquetas morfológicas basadas en esos datos suele oscilar en torno a las 100. Un texto etiquetado morfológcamente, sería, pues, un texto en el cual, después de cada palabra o asociados a cada palabra, se insertan las etiquetas identificadoras que le correspondan. Si se trata de la palabra ‘mesa’, la etiqueta sería:

Sustantivo, fem, sing, (lema) mesa.

También cabe la posibilidad de usar etiquetas funcionales o sintácticas, o etiquetas relativas a los rasgos semánticos de cada término. En general, el etiquetado de las palabras suele referirse a los componentes clásicos de una lengua:

Etiquetas referidas al lenguaje oral (fonética)Etiquetas morfológicas (nombre, singular/pl, ma/f…)Etiquetas sintácticas o funcionales (Sujeto, OD…)Etiquetas semánticas y/o pragmáticas (rasgos léxicos, acepciones…).

Aunque ya existen corpus etiquetados, incluso en el mercado (BNC, Cumbre, de español) y las etiquetas están incluso estandarizadas en algunos documentos (EAGLES, por ejemplo), la definición de estos parámetros no está cerrada para nadie. El investigador puede adaptar los estándares existentes, o puede crear los suyos propios. Todo dependerá de los recursos con que cuente y de los resultados que quiera obtener.Este es, por ejemplo, un modelo de etiquetado morfológico, usado en el corpus Cumbre, de español y organizado en una base de datos:

24

o-h1Palabra Lema Categoría Flexión

1 - - Signo Guión Corto Ø

2 ... ... Puntuación Puntos Susp. y seguido Ø

3 uno uno Pronombre Indefinido MS

4 como como Adverbio Modo Ø

5 el el Artículo Determinado MS

6 juntarse juntar Verbo Principal Normal + 1 Clítico INF

7 , , Puntuación Coma Ø

8 pues pues Conjunción Subordinada Adverbial Ø

9 , , Puntuación Coma Ø

10 con con Preposición Ø

11 dos dos Determinante Cardinal Ø

12 tres tres Determinante Cardinal Ø

13 chamacos chamaco Nombre Común MP

14 porque porque Conjunción Subordinada Adverbial Ø

15 la el Artículo Determinado FS

16 ignorancia ignorancia Nombre Común FS

17 hace hacer Verbo Principal Normal 3ª, S, PR, IND

18 caer caer Verbo Principal Normal INF

19 a a Preposición Ø

20 fondos fondo Nombre Común MP

21 muy muy Adverbio Cantidad Ø

22 graves grave Adjetivo Calificativo Normal CP

Las ventajas de los corpus etiquetados para la extracción de información es obvia: si el ordenador tiene más datos sobre las palabras que procesa, nos podrá suministrar más información sobre ellas. Y esto es lo que podemos lograr con programas capaces de gestionar este tipo de corpus etiquetados. Claro está que este tipo de programas son más complejos que los que se limitan a leer un texto secuencialmente. He aquí un ejemplo, a partir del corpus anterior:La búsqueda la podemos hacer por partes de la oración. Por ejemplo:

Sustantivo-común-masculino-singular,

25

o con el artículo determinado:

26

Y la búsqueda devuelta así lo refleja:

27

O cualquier otra combinación, por ejemplo:

El + verbo en infinitivo:

28

Disponer de inmediato de información de este tipo, referida a la morfología, a la fonética, a la sintaxis o a la semántica enriquece sustancialmente la calidad de la información que podemos obtener de un ordenador.

Pero este tipo de resultados requiere un trabajo previo que no está al alcance de todos. Además de costoso en términos de tiempo, puede ser costoso en términos de programación.De todos modos, los etiquetadores automáticos ya existentes son capaces de allanar el camino sustantivamente y de rebajar también sustancialmente los costes.

Segunda etapa.Los programas capaces de ‘entender’ el lenguaje natural

Si bien los corpus etiquetados suponen dar un salto importante hacia adelante en el procesamiento de grandes recopilaciones textuales, aún están lejos de posibilitar que el ordenador ‘entienda’ automáticamente el texto que lee. La comprensión de un texto está sobre todo ligada al contenido semántico de las palabras, es decir, a la captación de las acepciones que figuran en los diccionarios de cualquier lengua. El enfoque de este problema es clave para solucionarlo. Y la investigación al respecto es más que aconsejable: es imprescindible.

29

En este punto es preciso volver de nuevo a lo que comentaba al inicio de esta conferencia. Si las palabras no incluyesen ambigüedad, es decir, si cada forma significase sólo una cosa y no varias, en tal caso la asociación de forma y contenido por parte del ordenador sería cosa fácil y sencilla. Tampoco sería complicada la asociación de colocaciones o formas fijas a sus correspondientes significados. Pero no es así. En español, por ejemplo, a las 70.000 voces de un diccionario corresponden más de 150.000 significados. Luego es preciso desambiguar muchas palabras. Y eso es lo que hacemos nosotros continuamente cuando nos comunicamos. ¿Qué nos permite a nosotros tener éxito -casi siempre- en la desambiguación?Sin lugar a duda, el contexto, principalmente el contexto léxico y pragmático, aunque también ayuda el contexto morfológico y sintáctico.

Si esto es así, sería preciso lograr que el ordenador captase ese mismo contexto antes de proceder a comprender el lenguaje que lee. A tal fin, el ordenador debería leer primero un texto -quizás párrafo a párrafo, o página a página…- para proceder luego a la desambiguación de cada palabra dentro de la oración, recurriendo a una base de datos en la que se recogiesen las claves de tal desambiguación. En términos de velocidad, actualmente este proceso de lectura y consulta previo no sería ya un problema, y menos aún en los programas de traducción automática.

Pero ¿cómo estructurar este proceso? Veamos un ejemplo de lo que ocurre en los contextos del lenguaje real. Observemos tres definiciones de una misma palabra, mano. Si reparamos solamente en el léxico que co-ocurre o suele acompañar a esta voz, basando los datos en un corpus de 20 millones de palabras, observamos que las palabras que más frecuentemente acompañan a ‘mano’ en cada acepción, sólo en el nivel o ámbito de la oración en que se da cada sentido (un contexto razonablemente corto, por lo tanto), las palabras que co-ocurren en cada entorno de cada acepción, en orden de mayor a menor frecuencia, distan mucho de ser las mismas:

MANO acepción 1:

ANAT Parte del cuerpo humano situada al final del brazo, por debajo de las muñecas, con una palma y cinco dedos articulados que permiten tomar o coger las cosas: Se tendió boca arriba, con las manos cruzadas por detrás de la nuca. En algunos animales, parte del cuerpo, al final de las extremidades, en la que el dedo pulgar se opone a los demás para agarrar. Se aplica esp a las patas delanteras de los cuadrúpedos en general y a las garras de las aves de rapiña: El animal levantó sus manos delanteras. P ext, puede usarse en sentido FIG, aplicándose a una representación de la mano real o de sus funciones para hacer cosas, manipularlas, poseerlas o tenerlas, cogerlas y sujetarlas: Cada uno tiene el éxito en sus manos.

Dos, vez, ojos, todo, cabeza, cara, dedos, tenía, boca, cuerpo, poco, hombre, tiempo, hay, ver, frente, pies

Acepción 2:

30

En un trabajo de recubrimiento (con pintura, yeso, etc.), cada pasada que se hace con el utensilio de trabajo (brocha, rodillo, etc.) para tapar y enlucir lo que se cubre: Si algún tono no tiene la intensidad deseada, aplique otra mano de pintura.

Una, cuentas, dado, parto, velas, ventana, yeso, albañil, amuletos, angelote, aplique, artes

Acepción 3:

Persona que ejecuta o hace una cosa, que tiene poder sobre ella o capacidad de decisión para hacer que algo se lleve o no a cabo: ¿Quién había concebido el plan de asesinarme?, ¿de quién sería la mano que había de matarme?

poder, mundo, dios, dinero, tierra, todos, público, años, parte, día, gobierno, grandes, hombre, mejor, señor

Y vistas las palabras que co-ocurren en conjunto, se aprecia mejor el contraste:

Acepción 1 (órgano físico) Acepción 2 (capa de…) Acepción 3 (persona con poder)

Dos, vez, ojos, todo, cabeza, cara, dedos, tenía, boca, cuerpo, poco, hombre, tiempo, hay, ver, frente, pies

Una, cuentas, dado, parto, velas, ventana, yeso, albañil, amuletos, angelote, aplique, artes

poder, mundo, dios, dinero, tierra, todos, público, años, parte, día, gobierno, grandes, hombre, mejor, señor

Si esto es así, el contexto léxico más frecuente que co-ocurre con cada palabra o con cada significado de cada palabra, podría ser utilizado como referencia para identificar los distintos sentidos de una voz, es decir, como parámetro para la desambiguación de los significados en un texto. El requisito sería

a) que el ordenador debe leer previamente el textob) que el ordenador debe tener acceso a una base de datos en la que se especifiquen las asociaciones entre conjuntos de palabras co-ocurrentes y el significado al que suelen acompañar.

Claro está que el contexto léxico debe refinarse mediante la aplicación de algoritmos o cálculos que van más allá de la mera co-ocurrencia basada en la frecuencia. Es importante también, por ejemplo, la distancia a que cada voz co-ocurre, respecto a la palabra de referencia, e incluso las palabras que son atraídas por otras voces distintas de la que es objeto de estudio en cada caso. Tenemos también, además, el contexto sintáctico y a veces el morfológico, además

31

del extralingüístico, que un ordenador, de momento, no está capacitado para captar. Pero parece claro que el contexto léxico es el más importante.

Finalmente, para construir o elaborar un diccionario del léxico que co-ocurre con cada acepción, sería preciso disponer de un corpus amplio y representativo del idioma, meta que no es difícil de alcanzar. Y sobre todo, sería necesario desambiguar primero manualmente cada acepción en los cientos de miles o de millones de ejemplos que nos proporcionaría un corpus amplio y representativo de una lengua. Esto requeriría muchas horas de trabajo, y la colaboración quizás de varios miles de personas. ¿Se trataría de un trabajo de ámbito nacional? ¿Sería factible? Sin lugar a duda. Y en el estadio actual de lo que conocemos respecto a la capacidad del ordenador para comprender un texto, me inclino a pensar que este es un paso que, tarde o temprano, habrá que dar.

Bibliografía y referencias

Atkins, B. T. S. and A. Zampolli (1994), Computatrional Approaches to the lexicon, Oxford U. P., Oxfrod.

Bergenhoz, H. and Schaeder, B. eds. (1979), Empirische Textwissenschaft: Aufbau und Auswertung von Text-Corpora, Scriptor Verlag, Königstein.

Boguraev, B. (1993), "Building a Lexicon: the contribution of computers", en M. Bates and R. Weischedel (eds.), Challenges in natural language processing, Cambridge U.P., 99-134, Cambridge.

Brill, E., Magerman, D. Marcus, M. P., and Santorini, B. (1990), "Deducing linguistic structure from the statistics of large corpora", en Proceedings of the DARPA Speech and Natural Language Workshop, June, 1990, 275-282.

Calzolari, N. (1984), "Detecting patterns in a lexical database", en Proceedings of the 22nd annual meeting of the Association for Computational Linguistics, Stanford, Calif., 13, 219-140.

Calzolari, N. and Brindi, R., (1990), "Acquisition of lexical information from a large textual Italian corpus", en Proceedings of the 14th International Conference on Computational Linguistics, Helsinki, iii, 54-59.

Cantos, P. & A. Sánchez, (2002), ‘Lexical constellations: What collocates fail to tell’, International Journal of Corpus Linguistics, 6(2), 2001, 199-228.

Dolan, W., Wanderwende, L. & Richardson, S., ‘Polysemy in Broad-Coverage Natural Language Processing System’, en Ravin and Leacock, 2000, 178ss.

Francis, W. N. and H. Kucera, (1964), A Standard Corpus of Present-Day American English, for usewith Digital Computers. Rhode Island: Brown University Providence.

Miller, G. A. & Leacok, C. (2000), ‘Lexical Representation for Sentence Processing’, en Ravin, K, & Leacock, C. (2000). Pp. 152ss.

Ravin, K. & Leacock, C. (2000). Polysemy. Theoretical and Computational Approaches, Oxford, OUP.

Sánchez A. y P. Cantos. (1997), ‘Predictability of word forms (types) and lemmas in linguistic corpora’, International Journal of Corpus Linguistics, 2(2), 251-272.

Sánchez A. y P. Cantos. (1998), ‘El ritmo incremental de palabras nuevas en los repertorios de textos. Estudio experimental y comparativo basado en dos corpus lingüísticos equivalentes de cuatro millones de palabras, de las lenguas inglesa y española y en cinco autores de ambas lenguas’, en ATLANTIS, 1998, 1/2,

32

Sánchez, A. (ed.) (1995), Cumbre. Corpus lingüístico del español contemporáneo. Fundamentos, metodología y análisis, SGEL: Madrid.

Sánchez, A. (ed.) (2001), Gran Diccionario de uso del español actual, SGEL: Madrid.Sinclair, J. (1991) Corpus, Concordance and Collocation, Oxford, Oxford University Press.Sinclair, J. M. (ed,) (1987), Looking up. An account of the Cobuild Project in lexical computing,

Collins: London.Thorndike, E. L. and Irving Lorge, (1944), The Teacher"s Word Book of the

30,000 Words, Columbia University, Teachers College.Thorndike, E. L., (1921), The Teacher"s Word Book, Columbia University,

Teachers College.Thorndike, E. L., (1932), A Teacher"s Word Book of the 20,000 Words Found

Most Frequently and Widely in General Reading for Children and Young People, Columbia University, Teachers College.Walker, D., Zampolli, A. and Calzolari, N., (1994), eds., Automating the lexicon,

Oxford UP, Oxford.West, Michael, (1935), New Method Dictionary, London, Longman.West, Michael, (1953), A General Service List of English Words, London,

Longman.Zipf, G. (1945) ‘The meaning-frequency relationship of words’, Journal of General

Psychology, 3: 251-256.

33

Documents

La gestión informática de grandes recopilaciones … · Web viewA esta obra se añadió pronto una gramática del inglés, un curso de inglés para extranjeros y una variada colección