1
Los métodos de análisis cuantitativo y su aplicación
a La flexió verbal en els dialectes catalans
Maria Pilar Perea, Univesidad de Barcelona
Hiroto Ueda, Universidad de Tokio
1. Introducción
Antoni M. Alcover (Manacor 1862-Palma de Mallorca 1932) fue el primer
dialectólogo que encuestó datos verbales con vistas al desarrollo de un proyecto sobre
morfología flexiva inicialmente denominado “Estudi de la conjugació catalana”.
Después de 22 años de encuestación (1906-1928), recopiló un repertorio de casi
500.000 formas verbales correspondientes a la flexión completa de 75 verbos de 149
localidades del dominio lingüístico catalán. Estos materiales, publicados por su
discípulo Francesc de B. Moll, aparecieron en una publicación periódica, entre el 1929 y
el 1933, con el nombre de “La flexió verbal en els dialectes catalans”. Desde 1999 estos
materiales han sido completados e informatizados para mejorar su accesibilidad y
consulta. En primer lugar, fueron introducidos en una base de datos, que se convirtió en
el fundamento para elaborar mapas dinámicos. El año pasado se consiguió aplicar voz
sintetizada a estos materiales, con lo cual se ha obtenido un atlas sonoro dedicado a la
morfología verbal (Perea 2008b). Estas aplicaciones informáticas tienen carácter
descriptivo: muestran gráficamente áreas dialectales, áreas subdialectales e isoglosas.
Sin embargo, aun es posible explotar estos materiales desde un punto de vista
interpretativo.
El objetivo de esta presentación es mostrar la necesidad de colaboración entre
dialectólogos y analistas de datos cuando se trabaja con materiales muy numerosos y
que sólo pueden interpretarse utilizando técnicas de análisis cuantitativo. Además del
análisis dialectométrico, que ya se ha aplicado utilizando la metodología de Hans Goebl,
se presentarán diversos procedimientos de análisis de respuestas múltiples de
morfología verbal basados en la frecuencia, la correlación, la clasificación cluster y el
análisis de componentes principales. Este tipo de análisis puede ser extrapolado a datos
dialectales de otras lenguas que presenten unas características similares.
2
2. Características y tratamiento informático de los datos verbales
En la edición original de La flexió verbal, extraída de los correspondientes
cuadernos de campo (figura 1.1), los 67 verbos estudiados se clasificaban según su
pertenencia a una determinada conjugación y según las formas de los diferentes tiempos
verbales (infinitivo, gerundio, participio, presente de indicativo, imperfecto de
indicativo, pretérito, futuro, condicional, presente de subjuntivo, imperfecto de
subjuntivo, e imperativo). En el desarrollo del paradigma, cada forma se relacionaba
con una variante morfológica y con la transcripción fonética de la desinencia
correspondiente cada persona verbal. A lado de cada variante se incluía el número de
localidad o de localidades (figura 1.2) donde se registró la forma en cuestión. La
presentación impresa pretendía mostrar los datos verbales de manera sintética –su
publicación ocupó sólo 368 páginas–, pero el esfuerzo de condensación y de
simplificación del autor hizo dificultosa la consulta de los datos e impidió explotar todas
sus posibilidades.
Fig. 1.1. Una página de un cuaderno de campo
3
Fig. 1.2. La edición impresa de La flexió verbal
La introducción de los materiales en una base de datos (Perea 1999) generó un
corpus de 470,255 registros, adaptados al AFI, y, superando las dificultades de
visualización de la edición impresa, facilitó la realización de consultas simples y
complejas y propició su cartografía automatizada (Perea 2001, 2004) (figura 3), a pesar
de que La flexión verbal no fue concebida, en sus orígenes, como un atlas lingüístico.
La mapificación automática permite generar más de 6.000 mapas, que son el resultado
de multiplicar el número de formas de cada verbo (55) por el número de verbos
estudiados (117). Este atlas morfológico es la suma de mapas individuales donde se
visualizan fronteras dialectales que representan el inicio o el final de la utilización de
una forma verbal particular o la superposición de resultados idénticos. Sin embargo, no
4
es posible el estudio simultáneo del conjunto de los datos. Desde esta perspectiva, La
flexió verbal puede explotarse de manera global utilizando procedimientos
dialectométricos y métodos de análisis cuantitativo.
Fig. 1.3. Una muestra de cartografía automatizada
La colaboración hace unos años con Hans Goebl dió como resultado la aplicación
de su procedimiento dialectométrico (el programa VDM, creado por Edgar Haimerl -
http://ald.sgb.ac.at/dm) a los datos de La flexión verbal (Perea 2008a). De esta manera,
adaptando el mapa de visualización a los principios de Delaunay-Voronoi, a través de
la construcción de los polígonos de Thiessen, se pudieron subrayar agrupaciones
internas y estructuras derivadas de los datos lingüísticos y se descubrieron estructuras
profundas extraídas de las superficiales. Además, mediante el tratamiento cuantitativo y
la aplicación del concepto de distancia lingüística a la matriz de similitud, se obtuvieron
clasificaciones dialectales y subdialectales y el trazado de áreas mediante la aplicación
de diversas técnicas de visualización de los resultados: mapa de sinopsis, mapa de
densidad, mapa de isoglosas, mapa de rayos o mapa de cluster (figura 1.4).
Con todo, el método de Goebl, tal y como se había concebido, no consideraba la
existencia de respuestas múltiples puesto que los mapas en los cuales se aplicaba tenían
una respuesta única para cada punto de la encuesta. Sin embargo, a diferencia de los
atlas lingüísticos románicos, los datos de Alcover recogen respuestas múltiples en
diversas localidades. Esto es debido a la variación dialectal que existía a principios de
siglo XX, la cual permite la convivencia entre formas tradicionales y formas innovadoras.
Para aplicar el programa VDM fue Although ittheynecesario elegir, con todas las
5
prevenciones posibles, una forma única que fuera la más representativa de cada
localidad.
Fig. 1.4. Un mapa de cluster aplicando la metodología de Goebl
A continuación se mostrará la metodología que se ha utilizado para tratar de
manera eficaz las respuestas múltiples de este corpus de morfología verbal.
2. Método
2. 1. Datos de respuestas múltiples
De la totalidad de los verbos investigados por Antoni M. Alcover, escogimos, en
un primer estadio de la investigación, las formas correspondientes al presente de
indicativo de 29 verbos y 128 localidades, para formar una matriz bidimensional1. El
problema a que nos enfrentamos es la presentación de numerosos casos de respuestas
múltiples. Los informantes no se limitan a ofrecer una única forma para una pregunta
específica, sino que pueden dar más de dos formas distintas. También puede haber casos
de respuestas múltiples cuando se hacen encuestas a varias personas dentro de una
1 Los verbos escogidos son: anar, beure, bullir, cantar, caure, conèixer, córrer, cosir, coure, creure,
deure, dir, dormir, entendre, estar, fer, fugir, mereixer, morir, nàixer, obrir, partir, perdre, poder,
prendre, riure, sentir, tenir, valer; en total 29 verbos. Estos verbos son completos en cuanto a las
respuestas ofrecidas en todas las localidades. Excluimos las localidades siguientes, clasificadas según su
pertenencia a una determinada área dialectal, por no ofrecer respuestas en algunas formas verbales:
pirenaico oriental: 1 [Canet de Rosselló], 4 [Formiguera], 7 [Portè], 8 [Montlluís], 10 [Angostrina], 13
[Sallagosa], 23 [Sant Joan de les Abadesses]; catalán oriental: 41 [Vic]; catalán occidental: 66 [Boí], 67
[Andorra la Vella], 68 [Llavorsí], 70 [la Torre de Cabdella], 81 [Artesa de Segre], 85 [Cervera], 94
[Calaceit]; balear: 128 [Sineu], 132 [Manacor], 137 [Ferreries], 144 [Corona], 145 [Sant Jordi de ses
Salines], 146 [Jesús]. Hechas estas excepciones quedan 128 localidades en total.
6
misma localidad. La figura siguiente demuestra en color rojo los casos de respuestas
múltiples en una distribución bidimensional: 29 verbos por 128 localidades:
Fig. 2.1. Distribución de verbos por localidades, respuestas múltiples
2. 2. Grado de confluencia
La práctica usual en la dialectometría es tratar todas las formas igualmente sin
distinción de las preguntas que se hacen a los encuestados. Por ejemplo en la Figura
2.2.a, tenemos dos formas coincidentes entre L2 y L3, lo mismo que entre L2 y L5. Los
datos, sin embargo, se clasifican no solamente por las formas sino también por las
categorías gramaticales a que pertenecen las formas. Las tres formas vai, vaig, vau
pertenecen al verbo anar en primera persona singular, mientras que anau y aneu al
mismo verbo pero en segunda persona plural. Deberíamos tener en cuenta esta
estructura a la hora de calcular el grado de similitud entre las localidades2.
Fig. 2.2.a. Respuestas múltiples Fig. 2.2.b. Grados de confluencia
Nuestra propuesta es evaluar el grado de similitud en términos del Grado de
confluencia (G.C): la cantidad relativa de confluencia de las reacciones. Supongamos un
caso en que la Localidad-1 ofrece dos formas y la L-2, igualmente dos y ninguno de
estas formas coinciden entre ellas (Figura 2.2.c. izquierda).
2 El coeficiente de correlación phi y otros índices que tratan los datos cualitativos toman en consideración
los casos de no coincidencias. No obstante, no se considera en su cálculo la forma de agrupación en
categorías. Con relación a los varios modos de calcular la similitud en los datos cualitativos, véase Ueda
(1995).
7
Fig. 2.2.c. Varios tipos de confluencia: c. nula, c. parcial, c. completa
Naturalmente este caso debería presentar un G.C. cero de similitud. El caso
contrario es la coincidencia total, que cobraría el G.C. 1 en la escala normalizada entre
cero y uno (derecha). La Figura central de 2.2.c representa un caso de confluencia
parcial. Para la L-1 es un medio de confluencia, una entre las dos, mientras que para la
L-2, un tercio, una entre las tres. El G.C. entre estas dos localidades sería: )3
1
2
1( =
0.408. Por esta operación se obtiene la totalidad de la confluencia relativa. El signo de
raíz que se pone encima es para bajar un grado de la elevación debida a la
multiplicación que se hace entre las dos localidades. Si hubiera dos confluencias, el G.C.
sería: )3
2
2
2( = 0.816.
La fórmula del G.C. de una sola categoría que aquí proponemos es tan sencilla
como la siguiente:
Grado de confluencia (G.C.) = ))((
2
caba
a
=
))(( caba
a
donde a es número de confluencias entre las dos localidades; b es número de las formas
lingüísticas no confluyentes en la L-1, c es número de las formas no confluyentes en la
L-2. Así (a + b) representa el número de todas las formas de L-1; (a + c), el de L-2.
La fórmula del G.C. de todas las categorías se obtiene por la suma de G.C.
dividida por el número de categorías:
Grado de confluencia media (G.C.M.) =n
caba
a
))((
donde n es número de categorías.
Volviendo al ejemplo presentado en la Figura 2.2.a., podemos calcular como
sigue:
8
G. C. M. (L2:L3) = 2
)1
1
1
1()
2
1
1
1(
= 0.854
G. C. M. (L3:L5) = 2
)1
1
1
1()
3
2
2
2(
= 0.908
Nuestro dato concreto ofrece una matriz de G.C.M de la manera siguiente (parte
inicial):
Fig. 2.2.d. Grados de confluencia (parte inicial)
3. Interpretación
3.1. Evidencias cuantitativas
El resultado de cálculos sin más como el de la sección anterior es abstracto y
difícil de evaluar, sin apoyo de otras evidencias. En nuestro caso concreto podríamos y
deberíamos ofrecer las evidencias siguientes:
Evidencia intuitiva
Evidencia teórica
Evidencia práctica
Evidencia práctica externa
Evidencia práctica interna
Intuitivamente, las cifras de 0.408, 0.816, 0.854, 0.908 en los casos tratados en la
sección anterior y otras cifras presentadas en la Figura 2.2.b. serán convincentes a ojos
del investigador. Las fórmulas presentadas de G.C. y G.C.M resultan siempre cero en
caso de la(s) confluencia(s) nula(s) y 1 en caso de la(s) confluencia(s) completa(s), lo
9
cual nos convence sin problema. El G.C. del caso de la confluencia parcial de la Figura
2.2.c., un 0.408, puede parecer alto por tratarse de un caso entre los 2 (L-1) + 3 (L-2)
miembros. No obstante la cifra es razonable por ser una confluencia de una mitad por
parte de L-1, y un tercio por parte de L-2, entre las cuales se sitúa el G.C. (0.408).
En el plano teórico la ecuación de G.C. es derivable matemáticamente a partir
del Coeficiente de correlación phi:
Coeficiente de correlación phi (C.C.P.)= ))()()(( cdbdcaba
bcad
donde d es número de formas lingüísticas que no se presentan ni en L-1 ni en L-2. En
teoría la cantidad de d se supone infinita, de modo que el C.C.P. resulta ser equivalente
a G.C.3:
C.C.P. (d > ∞) = 2/))()()((
/)(
dcdbdcaba
dbcad
= )//)(//)()((
)//(
dcdddbddcaba
dbcdad
= ))(( caba
a
= G.C.
Las evidencias prácticas externas en forma de cartografía sirven de apoyo para
demostrar la validez del análisis. El siguiente gráfico demuestra la distribución
geográfica de puntos investigados con clasificación hecha por el método de cluster, a
partir de la matriz simétrica de la Figura 2.2.d.
3 Sobre el uso del coeficiente phi y el de su versión modificada, véanse Kroeber (1937, 1969), Ellegard
(1959), Herdan (1964).
10
Fig. 2.3.a Análisis de cluster y distribución geolingüística4
Las congruencias de los puntos que se observan dentro del mismo grupo y la
continuidad geográfica que se aprecia entre los distintos grupos puede ser una evidencia
externa que asegura la robustez del cálculo de G.C.
Dentro de la distribución misma se puede ofrecer otra evidencia de carácter
interno. Ahora el análisis de cluster no se aplica solo a las localidades, sino también a
las formas lingüísticas, con el propósito de adquirir un alto grado de conglomeración en
la distribución de reacciones en el gráfico bidimensional5. Véase la Figura 2.3.b.
4 El mapa fue dibujado por medio del sistema Mandara, elaborado por el profesor Kenji Tani de la
Universidad de Saitama (Japón). Su sitio es: http://ktgis.net/mandara/ 5 Para el método de cluster patronizado, véase Ueda (en prensa).
11
Fig. 2.3.b Análisis de cluster patronizado
En el eje vertical se colocan las formas lingüísticas y en el eje horizontal, las
localidades. Tanto el orden de las formas lingüísticas como el de las localidades son
debidos a los resultados del análisis cluster. Lo curioso de esta figura es que suele
ofrecer unas conglomeraciones peculiares gracias a la agrupación que ofrece el análisis
de cluster tanto de las localidades como de las formas lingüísticas. Esto es natural
puesto que el propósito del análisis de cluster es una taxonomía numérica presentada en
forma de agrupación de miembros, agrupación que se consigue por el índice razonable
de la confluencia6.
6 También el lenguaje “R” tiene la función de hacer lo parecido, denominado “Heat map”. El paquete
gratuito del Proyecto “R”, elaborado por Robert Gentleman y Ross Ihaka del Departamento de Estadística
de la Universidad de Auckland (Nueva Zelanda) se encuentra en: http://www.r-project.org/.
12
Nos llama la atención por presentar unas conglomeraciones peculiares casi
exclusivas, las partes marcadas por líneas rojas, de las que comentaremos en la sección
siguiente tanto desde el punto de vista lingüístico como geográfico.
3.2. Evidencias cualitativas
a) De tipo geográfico
En el análisis de clúster se muestra la distribución de las localidades estudiadas
clasificadas en 8 grupos (A, B, C, D, F, G y H), los cuales se corresponden parcialmente
con las seis agrupaciones dialectales en que se suele dividir el dominio lingüístico
catalán: rosellonés [pirenaico oriental, en terminología de Alcover] (A), catalán oriental
(B), valenciano (C), catalán occidental (D), balear (E) y la localidad del Alguer en
Cerdeña (G), y que el mismo Alcover ya constató. A estos seis grupos se añade la
subdivisión que aparece en el extremo occidental, que coincide en general con la franja
de Aragón, área de transición que se halla entre el territorio catalán y el aragonés: las
localidades de la franja de Aragón – Vilaller, Bonansa y Benavarri – (F) y al sur
aisladamente la localidad de Tamarit (H).
El análisis de cluster corrobora, pues, la división dialectal que el mismo Alcover
propuso y añade dos nuevas subáreas que coinciden con un área de transición, que,
aunque se tiene en cuenta en los estudios sobre la variación lingüística, nunca ha servido
para determinar la existencia de un área dialectal autónoma.
Examinemos a continuación la composición de cada una de las agrupaciones:
A – comprende no sólo la zona del Rosellón en territorio francés sino lo que se
conoce actualmente como catalán septentrional de transición, ya en tierras catalanas.
Observemos como en el diagrama aparece también, por la intersección entre puntos de
A y de B, delimitada una clara zona de transición.
B – corresponde al denominado catalán oriental (y actualmente catalán central).
En este caso no existe intersección, y por tanto una clara zona de transición, ni con el
área del catalán occidental (D) ni con el valenciano (C), mediante la superposición de
los puntos de cada zona. Sin embargo, es curioso observar como este área se extiende
hacia el sur, incluyendo dos localidades (92: Falset y 95: Tortosa), consideradas
pertenecientes lingüísticamente al catalán occidental, y, en el caso de Tortosa, como una
zona de transición con el valenciano. Quizá podremos obtener una respuesta desde el
punto de vista lingüístico.
13
C – comprende la zona valenciana, sin hacer ninguna diferenciación entre los tres
subdialectos que componen esta área (septentrional, apitxat y meridional). Es necesario
hacer constar la ascensión hacia el norte de la frontera hasta una localidad propiamente
del catalán occidental como es Fraga, donde puede preverse un área de transición.
D – integra las localidades correspondientes al catalán occidental, excepto 93:
Gandesa, 91: Riba-roja y 89: Fraga, que sitúan en la zona valenciana.
E – delimita el área de las Islas Baleares, sin mostrar subdivisiones entre las islas
de Mallorca, Menorca e Ibiza.
G – configura la localidad del Alguer en la isla de Cerdeña.
F – comprende grosso modo el centro y el norte del área de transición de la franja
de Aragón.
Es interesante establecer una comparación con los resultados del análisis de cluster
propuesto mediante el programa VDM de Hans Goebl. Observemos como, mediante el
cálculo RIW (relative identity value), obviando las respuestas múltiples, una
clasificación en ocho grupos ofrece una distribución parcialmente distinta de la
anteriormente propuesta:
Fig. 3.1. Análisis de cluster según la propuesta de Goebl
El color rojo aúna inesperadamente las áreas del pirenaico oriental y del catalán
oriental. El color azul muestra el área valenciana. El color verde, con subdivisiones
14
dentro de la isla de Mallorca, corresponde a las variedades insulares. El dialecto
alguerés, como es previsible, se muestra aislado de los demás. En último término
también se aprecia en color azul claro un área que puede asociarse con la transición
entre catalán y aragonés; y en este punto existe coincidencia con nuestros resultados
plasmados en F.
b) De tipo lingüístico
La divisoria – que responde tanto a la intuición como a la realidad lingüística del
momento en que Alcover desarrolló las encuestas – entre el pirenaico oriental
(incluyendo el área actual correspondiente al catalán de transición) y el catalán oriental,
que aparece en nuestro análisis, muestra la coincidencia que existe en algunas formas
verbales del presente de indicativo de todas las conjugaciones. Esta coincidencia se
manifiesta tanto en la primera persona – cf. el análisis de cluster patronizado en la figura
2.3b –: podi ‘I can’, beui ‘I drink’, riui ‘I laugh’, deui ‘I must’, que es compartida por
las localidades próximas a los Pirineos, en el territorio francés (en el norte) y en el
catalán (en el sur) – como en la segunda– vales ‘you worth’, riues ‘you laugh’, beues
‘you drink’, caues ‘you fall’, podes ‘you can’, neixi ‘I was born’, perdi ‘I lose’, senti ‘I
feel’. Estas formas contrastan con las propias del catalán oriental: primera persona: puc
‘I can’, bec ‘I drink’, ric ‘I laugh’, dec ‘I must’; segunda persona: vals ‘you worth’, rius
‘you laugh’, beus ‘you drink’, caus ‘you fall’, pots ‘you can’, neixo ‘I was born’, perdo
‘I lose’, sento ‘I feel’. El contraste entre estos resultados, caracterizados por las
desinencias -i (en pirenaico oriental) y -u (en catalán oriental), en la primera persona, y
la presencia vs. la ausencia del morfo -e- [ə] de modo/tiempo en la segunda persona
(vales, riues vs. valØs, riuØs) de verbos de la segunda y la tercera conjugación, y otros
de características similares, provocan la división entre los dos dialectos.
El análisis de cluster patronizado también pone de manifiesto la transición entre
los dos dialectos citados, a través de la existencia de formas con desinencia -i y con el
morfo -e- [ə], que son utilizadas en algunas localidades del norte del catalán oriental (22:
Ribes de Freser, 24: Ripoll): dormi ‘I sleep’, cusi ‘I sew’; (22: Ribes de Freser, 24:
Ripoll, 26: la Pobla de Lillet): dormes ‘you sleep’, sentes ‘you feel’, las cuales
pertenecen al actual catalán septentrional de transición.
El área correspondiente al catalán oriental forma un conjunto bastante homogéneo
con relación a las formas verbales, y no merece un comentario especial.
15
En cuanto al valenciano, se observan soluciones homogéneas en las primeras
personas del presente de indicativo: bullc ‘I boil’, cusc ‘I sew’, mereixc ‘I deserve’,
fuigc ‘I escape’, naixc ‘I was born’, perc ‘I lose’, compartidas por todas las localidades.
Tienen también una extensión casi general las formas correc ‘I run’, obric ‘I open’,
dormc ‘I sleep’ o partixc ‘I divide’. Las formas de segunda persona también tienen un
uso mayoritario: naixes ‘You were born’, partixes ‘you divide’ o obris ‘you open’. Es
igualmente apreciable como las formas creem ‘we believe’, creeu ‘you believe’, naixes
‘you were born’, naix ‘’, naixen ‘’, que se corresponden con las localidades 93: Gandesa,
91: Riba-roja y 89: Fraga, anteriormente citadas, parecen configurar una área de
transición hacia el valenciano. Nuevos análisis aplicados a otros tiempos verbales
pueden corroborar esta hipótesis.
El catalán occidental se muestra, a través del análisis de cluster patronizado, en
coincidencias absolutas en el área con las formas vac ‘I go’, vai ‘I go’, deiem ‘we say’,
deieu ‘you say’, y en coincidencias mayoritarias del tipo coiem ‘we cook’, coieu ‘we
cook’, partixo ‘I divide’ o sinto ‘I feel’. Existe un mayor grado de dispersión en formas
como aurixo ‘I open’, aubrixo ‘I open’ o bullixo ‘I boil’, propias de determinadas
localidades de la zona. Las localidades 92: Falset y 95: Tortosa se distancian de 89:
Fraga y 91: Riba-roja d’Ebre. Estos dos últimos dos puntos, junto con 93: Gandesa,
forman un subgrupo dentro del grupo C, apartándose de las localidades restantes del
mismo grupo e indican una zona de transición. Las cinco localidades mencionadas
(Falset, Tortosa, Fraga, Riba-roja d’Ebre y Gandesa) coinciden en algunas formas y se
diversifican también en otras.
El balear, como agrupación dialectal, manifiesta un conjunto importante de
realizaciones comunes, especialmente en las formas de primera persona de presente de
indicativo sin desinencia: cant ‘I sing’, obr ‘I open’, fuig ‘I escape’; en la segunda y
tercera personas del plural del presente de indicativos de los verbos prendre ‘to take’
(prenim ‘we take’, preniu ‘you take’), dir ‘to say’ (deim ‘we say’, deis ‘you say’), fer
‘to make’ (feim ‘we make’, feis ‘you make’) o creure ‘to believe’ (creim ‘we believe’,
creis ‘you believe’).
El alguerés consta en el análisis de cluster patronizado con una representación
única que recoge las formas exclusivas e idiosincrásicas de esta variedad dialectal. Este
comportamiento único se muestra especialmente los presentes de indicativo: beun ‘they
drink’, caun ‘they fall’, rien ‘they laugh’; y en la flexión de los verbos romir (Est. Cat.
16
dormir ‘to sleep’: rom ‘I sleep’), paltir (Est. Cat. partir ‘to divide: palteix‘I divide’) o
pelda (Est. Cat. perdre ‘to lose: pelt ‘I lose’).
Las localidades estudiadas correspondientes a la franja de Aragón son las
siguientes: 69: Vilaller, 71: Bonansa, 78: Benavarri y 82: Tamarit de Llitera. Las tres
primeras se enmarcan en la agrupación F y la última forma en solitario la agrupación H.
Aunque presentan coincidencias formales en la realización de algunas personas, la
localidad de Tamarit muestra diferencias notables en la flexión de algunos verbos (corrs
‘you run’, corr ‘he runs’, aurisses ‘you hear’, aurís ‘he hears’, aurissen ‘they hear’, así
como en la presencia de una extensión velar en formas como coneguem ‘we know’ /
conegueu ‘you know’, entenguem ‘we understand’ / entengueu ‘you understand’,
valguem ‘we cost’ / valgueu ‘you cost’, prenguem ‘we take’ / prengueu ‘you take’,
alternando con soluciones sin extensión), lo cual la aleja de la agrupación anterior (que
presentan resultados exclusivos sin la aparición de la extensión velar: coneixem /
coneixeu, entenem / enteneu, valem / valeu, prenem / preneu). Con la aplicación de la
metodología estadística usada con las formas de presente de indicativo a todos los datos
verbales que Alcover recopiló se podrá plantear la existencia de esta localidad o bien de
manera aislada o bien incorporada a los puntos restantes que configuran la franja
aragonesa.
4. Conclusiones
1. Esta primera aproximación al tratamiento de los datos verbales de Alcover ha
demostrado la idoneidad del método aplicado a respuestas múltiples.
2. El análisis de cluster que se ha utilizado refleja la realidad de la variación
lingüística que experimentaba el verbo catalán a principios del siglo XX. Otros cálculos
basados en el uso de respuestas únicas ofrecen sólo resultados parciales que no son
absolutamente representativos.
3. La aplicación del método a las formas verbales completas de presente de
indicativo de 29 verbos de 128 localidades ha mostrado una configuración geográfica en
áreas dialectales que no se aleja de la divisoria tradicional en que Alcover dividió el
dominio lingüístico catalán: pirenaico oriental, catalán oriental, catalán occidental,
valenciano, balear y alguerés. Sin embargo, en el análisis de cluster aparecen otras dos
áreas, situadas geográficamente en la franja de Aragón, que se ha integrado
tradicionalmente al catalán occidental. Un examen más completo permitirá resolver dos
cuestiones que aun quedan pendientes: 1) la existencia independiente de estas dos áreas
17
o la unificación de las mismas en una sola que se alargue de norte a sur; y 2) en
cualquiera de los dos casos, la constatación de la existencia de un nuevo dialecto
correspondiente a esta área, la cual hasta ahora se subdividía en tres subdialectos
(pallarés, ribagorzano y leridano), pero que consideraba la relevancia de la frontera
catalano-aragonesa sólo como área de transición.
4. En cuanto a las áreas de transición, el análisis ha dejado entrever agrupaciones
de localidades, integradas en determinadas áreas, que pueden considerarse de carácter
transicional. El uso de todosa los datos en los cálculos estadísticos permitirá definirlas
más claramente y remarcará los elementos lingüísticos que permiten configurarlas.
References
ALCOVER, A. M. & MOLL, F. de B. 1929-1933. La flexió verbal en els dialectes catalans,
Barcelona: Anuari de l’Oficina Romànica (v. II (1929) [73] 1- [184] 112, v. III (1930) [73]
1- [168] 96, v. IV (1931) [9] 1- [104] 96, v. V (1932) [9] 2 - [72] 64).
ELLEGARD, Alvar. 1959. "Statistical measurement of linguistic relationship." Language, 35,
131-156.
GOEBL, Hans. 1997. “Some Dendographic Classifications of the Data of CLAE 1 and CLAE 2”,
in W. Viereck and H. Ramisch (eds.), The Computer Developed Linguistic Atlas of
England 2, Tübingen: Max Niemeyer Verlarg, 22-32.
GOEBL, Hans, 2003. “Regards dialectométriques sur les donnés de l’Atlas Linguistique de la
France (ALF): Relations quantitatives et structures de profondeur”, Estudis Romànics,
XXV, 61-117.
HERDAN, Gustav. 1964. "Mathematics of genealogical relationship between languages",
Proceedings of the 9th International Congress of Linguistics, The Hague: Mouton, 51-60.
KROEBER, Alfred L. 1960. "Three quantitative classifications of Romance", Romance Philology,
14, 189-195.
KROEBER, Alfred L. and ChRETIEN, C. D. 1937. "Quantitative classification of Indo-european
languages", Language, 13, 83.
KROEBER, Alfred L. and CHRETIEN, C. D. 1960. "Statistics, Indo-European and taxonomy."
Language, 36, p. 1-21.
PEREA, Maria-Pilar. 1999. ‘La flexió verbal en els dialectes catalans’ d’A. M. Alcover i F. de B.
Moll. Compleció i ordenació, Barcelona: Institut d’Estudis Catalans, CD-ROM.
PEREA, Maria-Pilar. 2001. ‘La flexió verbal en els dialectes catalans’ d’A. M. Alcover i F. de B.
Moll. Les dades i els mapes, Palma de Mallorca: Conselleria d’Educació i Cultura.
Govern de les Illes Balears, CD-ROM.
18
PEREA, Maria-Pilar. 2008a. “Catalan verb morphology and dialectometric analysis”, in G.
Blaikner-Hohenwart, E. Bortolotti, R. Franceschini et alii (ed.), Ladinometria, Festchrift
für Hans Goebl zum 65. Geburtstag, 2, Salzburg: Universität Salzburg, 61-78.
PEREA, Maria-Pilar. 2008b. “Retrieving the sound: applying speech synthesis to dialectal data”,
comunicació presentada a The Thirteen International Conference on Methods in
Dialectology, 4-8 agost 2008, Leeds (en prensa).
PEREA, Maria-Pilar. 2004. “New Techniques and Old Corpora: La flexió verbal en els dialectes
catalans (Alcover-Moll, 1929-1932). Systematisation and Mapping of a Morphological
Corpus”, Dialectologia et Geolinguistica, 12, 25-45.
UEDA, Hiroto. 1995. "Zonificación del español. Palabras y cosas de la vida urbana", Lingüística
(ALFAL), 7, pp.43-86.
UEDA, Hiroto. (en prensa) “Métodos de tratamiento informatizado de datos lingüísticos
hispánicos: Observaciones inmediatas y abstracciones matemáticas”, Curso de verano en la
Universitat Jaume Primer, Castellón de la Plana, España, 2009/7/8.