Download pdf - Los métodos de análisis cuantitativo y su aplicación …cueda/kenkyu/chiri/al...1 Los métodos de análisis cuantitativo y su aplicación a La flexió verbal en els dialectes catalans

1

Los métodos de análisis cuantitativo y su aplicación

a La flexió verbal en els dialectes catalans

Maria Pilar Perea, Univesidad de Barcelona

Hiroto Ueda, Universidad de Tokio

1. Introducción

Antoni M. Alcover (Manacor 1862-Palma de Mallorca 1932) fue el primer

dialectólogo que encuestó datos verbales con vistas al desarrollo de un proyecto sobre

morfología flexiva inicialmente denominado “Estudi de la conjugació catalana”.

Después de 22 años de encuestación (1906-1928), recopiló un repertorio de casi

500.000 formas verbales correspondientes a la flexión completa de 75 verbos de 149

localidades del dominio lingüístico catalán. Estos materiales, publicados por su

discípulo Francesc de B. Moll, aparecieron en una publicación periódica, entre el 1929 y

el 1933, con el nombre de “La flexió verbal en els dialectes catalans”. Desde 1999 estos

materiales han sido completados e informatizados para mejorar su accesibilidad y

consulta. En primer lugar, fueron introducidos en una base de datos, que se convirtió en

el fundamento para elaborar mapas dinámicos. El año pasado se consiguió aplicar voz

sintetizada a estos materiales, con lo cual se ha obtenido un atlas sonoro dedicado a la

morfología verbal (Perea 2008b). Estas aplicaciones informáticas tienen carácter

descriptivo: muestran gráficamente áreas dialectales, áreas subdialectales e isoglosas.

Sin embargo, aun es posible explotar estos materiales desde un punto de vista

interpretativo.

El objetivo de esta presentación es mostrar la necesidad de colaboración entre

dialectólogos y analistas de datos cuando se trabaja con materiales muy numerosos y

que sólo pueden interpretarse utilizando técnicas de análisis cuantitativo. Además del

análisis dialectométrico, que ya se ha aplicado utilizando la metodología de Hans Goebl,

se presentarán diversos procedimientos de análisis de respuestas múltiples de

morfología verbal basados en la frecuencia, la correlación, la clasificación cluster y el

análisis de componentes principales. Este tipo de análisis puede ser extrapolado a datos

dialectales de otras lenguas que presenten unas características similares.

2

2. Características y tratamiento informático de los datos verbales

En la edición original de La flexió verbal, extraída de los correspondientes

cuadernos de campo (figura 1.1), los 67 verbos estudiados se clasificaban según su

pertenencia a una determinada conjugación y según las formas de los diferentes tiempos

verbales (infinitivo, gerundio, participio, presente de indicativo, imperfecto de

indicativo, pretérito, futuro, condicional, presente de subjuntivo, imperfecto de

subjuntivo, e imperativo). En el desarrollo del paradigma, cada forma se relacionaba

con una variante morfológica y con la transcripción fonética de la desinencia

correspondiente cada persona verbal. A lado de cada variante se incluía el número de

localidad o de localidades (figura 1.2) donde se registró la forma en cuestión. La

presentación impresa pretendía mostrar los datos verbales de manera sintética –su

publicación ocupó sólo 368 páginas–, pero el esfuerzo de condensación y de

simplificación del autor hizo dificultosa la consulta de los datos e impidió explotar todas

sus posibilidades.

Fig. 1.1. Una página de un cuaderno de campo

3

Fig. 1.2. La edición impresa de La flexió verbal

La introducción de los materiales en una base de datos (Perea 1999) generó un

corpus de 470,255 registros, adaptados al AFI, y, superando las dificultades de

visualización de la edición impresa, facilitó la realización de consultas simples y

complejas y propició su cartografía automatizada (Perea 2001, 2004) (figura 3), a pesar

de que La flexión verbal no fue concebida, en sus orígenes, como un atlas lingüístico.

La mapificación automática permite generar más de 6.000 mapas, que son el resultado

de multiplicar el número de formas de cada verbo (55) por el número de verbos

estudiados (117). Este atlas morfológico es la suma de mapas individuales donde se

visualizan fronteras dialectales que representan el inicio o el final de la utilización de

una forma verbal particular o la superposición de resultados idénticos. Sin embargo, no

4

es posible el estudio simultáneo del conjunto de los datos. Desde esta perspectiva, La

flexió verbal puede explotarse de manera global utilizando procedimientos

dialectométricos y métodos de análisis cuantitativo.

Fig. 1.3. Una muestra de cartografía automatizada

La colaboración hace unos años con Hans Goebl dió como resultado la aplicación

de su procedimiento dialectométrico (el programa VDM, creado por Edgar Haimerl -

http://ald.sgb.ac.at/dm) a los datos de La flexión verbal (Perea 2008a). De esta manera,

adaptando el mapa de visualización a los principios de Delaunay-Voronoi, a través de

la construcción de los polígonos de Thiessen, se pudieron subrayar agrupaciones

internas y estructuras derivadas de los datos lingüísticos y se descubrieron estructuras

profundas extraídas de las superficiales. Además, mediante el tratamiento cuantitativo y

la aplicación del concepto de distancia lingüística a la matriz de similitud, se obtuvieron

clasificaciones dialectales y subdialectales y el trazado de áreas mediante la aplicación

de diversas técnicas de visualización de los resultados: mapa de sinopsis, mapa de

densidad, mapa de isoglosas, mapa de rayos o mapa de cluster (figura 1.4).

Con todo, el método de Goebl, tal y como se había concebido, no consideraba la

existencia de respuestas múltiples puesto que los mapas en los cuales se aplicaba tenían

una respuesta única para cada punto de la encuesta. Sin embargo, a diferencia de los

atlas lingüísticos románicos, los datos de Alcover recogen respuestas múltiples en

diversas localidades. Esto es debido a la variación dialectal que existía a principios de

siglo XX, la cual permite la convivencia entre formas tradicionales y formas innovadoras.

Para aplicar el programa VDM fue Although ittheynecesario elegir, con todas las

5

prevenciones posibles, una forma única que fuera la más representativa de cada

localidad.

Fig. 1.4. Un mapa de cluster aplicando la metodología de Goebl

A continuación se mostrará la metodología que se ha utilizado para tratar de

manera eficaz las respuestas múltiples de este corpus de morfología verbal.

2. Método

2. 1. Datos de respuestas múltiples

De la totalidad de los verbos investigados por Antoni M. Alcover, escogimos, en

un primer estadio de la investigación, las formas correspondientes al presente de

indicativo de 29 verbos y 128 localidades, para formar una matriz bidimensional1. El

problema a que nos enfrentamos es la presentación de numerosos casos de respuestas

múltiples. Los informantes no se limitan a ofrecer una única forma para una pregunta

específica, sino que pueden dar más de dos formas distintas. También puede haber casos

de respuestas múltiples cuando se hacen encuestas a varias personas dentro de una

1 Los verbos escogidos son: anar, beure, bullir, cantar, caure, conèixer, córrer, cosir, coure, creure,

deure, dir, dormir, entendre, estar, fer, fugir, mereixer, morir, nàixer, obrir, partir, perdre, poder,

prendre, riure, sentir, tenir, valer; en total 29 verbos. Estos verbos son completos en cuanto a las

respuestas ofrecidas en todas las localidades. Excluimos las localidades siguientes, clasificadas según su

pertenencia a una determinada área dialectal, por no ofrecer respuestas en algunas formas verbales:

pirenaico oriental: 1 [Canet de Rosselló], 4 [Formiguera], 7 [Portè], 8 [Montlluís], 10 [Angostrina], 13

[Sallagosa], 23 [Sant Joan de les Abadesses]; catalán oriental: 41 [Vic]; catalán occidental: 66 [Boí], 67

[Andorra la Vella], 68 [Llavorsí], 70 [la Torre de Cabdella], 81 [Artesa de Segre], 85 [Cervera], 94

[Calaceit]; balear: 128 [Sineu], 132 [Manacor], 137 [Ferreries], 144 [Corona], 145 [Sant Jordi de ses

Salines], 146 [Jesús]. Hechas estas excepciones quedan 128 localidades en total.

6

misma localidad. La figura siguiente demuestra en color rojo los casos de respuestas

múltiples en una distribución bidimensional: 29 verbos por 128 localidades:

Fig. 2.1. Distribución de verbos por localidades, respuestas múltiples

2. 2. Grado de confluencia

La práctica usual en la dialectometría es tratar todas las formas igualmente sin

distinción de las preguntas que se hacen a los encuestados. Por ejemplo en la Figura

2.2.a, tenemos dos formas coincidentes entre L2 y L3, lo mismo que entre L2 y L5. Los

datos, sin embargo, se clasifican no solamente por las formas sino también por las

categorías gramaticales a que pertenecen las formas. Las tres formas vai, vaig, vau

pertenecen al verbo anar en primera persona singular, mientras que anau y aneu al

mismo verbo pero en segunda persona plural. Deberíamos tener en cuenta esta

estructura a la hora de calcular el grado de similitud entre las localidades2.

Fig. 2.2.a. Respuestas múltiples Fig. 2.2.b. Grados de confluencia

Nuestra propuesta es evaluar el grado de similitud en términos del Grado de

confluencia (G.C): la cantidad relativa de confluencia de las reacciones. Supongamos un

caso en que la Localidad-1 ofrece dos formas y la L-2, igualmente dos y ninguno de

estas formas coinciden entre ellas (Figura 2.2.c. izquierda).

2 El coeficiente de correlación phi y otros índices que tratan los datos cualitativos toman en consideración

los casos de no coincidencias. No obstante, no se considera en su cálculo la forma de agrupación en

categorías. Con relación a los varios modos de calcular la similitud en los datos cualitativos, véase Ueda

(1995).

7

Fig. 2.2.c. Varios tipos de confluencia: c. nula, c. parcial, c. completa

Naturalmente este caso debería presentar un G.C. cero de similitud. El caso

contrario es la coincidencia total, que cobraría el G.C. 1 en la escala normalizada entre

cero y uno (derecha). La Figura central de 2.2.c representa un caso de confluencia

parcial. Para la L-1 es un medio de confluencia, una entre las dos, mientras que para la

L-2, un tercio, una entre las tres. El G.C. entre estas dos localidades sería: )3

1

2

1( =

0.408. Por esta operación se obtiene la totalidad de la confluencia relativa. El signo de

raíz que se pone encima es para bajar un grado de la elevación debida a la

multiplicación que se hace entre las dos localidades. Si hubiera dos confluencias, el G.C.

sería: )3

2

2

2( = 0.816.

La fórmula del G.C. de una sola categoría que aquí proponemos es tan sencilla

como la siguiente:

Grado de confluencia (G.C.) = ))((

2

caba

a

=

))(( caba

a

donde a es número de confluencias entre las dos localidades; b es número de las formas

lingüísticas no confluyentes en la L-1, c es número de las formas no confluyentes en la

L-2. Así (a + b) representa el número de todas las formas de L-1; (a + c), el de L-2.

La fórmula del G.C. de todas las categorías se obtiene por la suma de G.C.

dividida por el número de categorías:

Grado de confluencia media (G.C.M.) =n

caba

a

))((

donde n es número de categorías.

Volviendo al ejemplo presentado en la Figura 2.2.a., podemos calcular como

sigue:

8

G. C. M. (L2:L3) = 2

)1

1

1

1()

2

1

1

1(

= 0.854

G. C. M. (L3:L5) = 2

)1

1

1

1()

3

2

2

2(

= 0.908

Nuestro dato concreto ofrece una matriz de G.C.M de la manera siguiente (parte

inicial):

Fig. 2.2.d. Grados de confluencia (parte inicial)

3. Interpretación

3.1. Evidencias cuantitativas

El resultado de cálculos sin más como el de la sección anterior es abstracto y

difícil de evaluar, sin apoyo de otras evidencias. En nuestro caso concreto podríamos y

deberíamos ofrecer las evidencias siguientes:

Evidencia intuitiva

Evidencia teórica

Evidencia práctica

Evidencia práctica externa

Evidencia práctica interna

Intuitivamente, las cifras de 0.408, 0.816, 0.854, 0.908 en los casos tratados en la

sección anterior y otras cifras presentadas en la Figura 2.2.b. serán convincentes a ojos

del investigador. Las fórmulas presentadas de G.C. y G.C.M resultan siempre cero en

caso de la(s) confluencia(s) nula(s) y 1 en caso de la(s) confluencia(s) completa(s), lo

9

cual nos convence sin problema. El G.C. del caso de la confluencia parcial de la Figura

2.2.c., un 0.408, puede parecer alto por tratarse de un caso entre los 2 (L-1) + 3 (L-2)

miembros. No obstante la cifra es razonable por ser una confluencia de una mitad por

parte de L-1, y un tercio por parte de L-2, entre las cuales se sitúa el G.C. (0.408).

En el plano teórico la ecuación de G.C. es derivable matemáticamente a partir

del Coeficiente de correlación phi:

Coeficiente de correlación phi (C.C.P.)= ))()()(( cdbdcaba

bcad

donde d es número de formas lingüísticas que no se presentan ni en L-1 ni en L-2. En

teoría la cantidad de d se supone infinita, de modo que el C.C.P. resulta ser equivalente

a G.C.3:

C.C.P. (d > ∞) = 2/))()()((

/)(

dcdbdcaba

dbcad

= )//)(//)()((

)//(

dcdddbddcaba

dbcdad

= ))(( caba

a

= G.C.

Las evidencias prácticas externas en forma de cartografía sirven de apoyo para

demostrar la validez del análisis. El siguiente gráfico demuestra la distribución

geográfica de puntos investigados con clasificación hecha por el método de cluster, a

partir de la matriz simétrica de la Figura 2.2.d.

3 Sobre el uso del coeficiente phi y el de su versión modificada, véanse Kroeber (1937, 1969), Ellegard

(1959), Herdan (1964).

10

Fig. 2.3.a Análisis de cluster y distribución geolingüística4

Las congruencias de los puntos que se observan dentro del mismo grupo y la

continuidad geográfica que se aprecia entre los distintos grupos puede ser una evidencia

externa que asegura la robustez del cálculo de G.C.

Dentro de la distribución misma se puede ofrecer otra evidencia de carácter

interno. Ahora el análisis de cluster no se aplica solo a las localidades, sino también a

las formas lingüísticas, con el propósito de adquirir un alto grado de conglomeración en

la distribución de reacciones en el gráfico bidimensional5. Véase la Figura 2.3.b.

4 El mapa fue dibujado por medio del sistema Mandara, elaborado por el profesor Kenji Tani de la

Universidad de Saitama (Japón). Su sitio es: http://ktgis.net/mandara/ 5 Para el método de cluster patronizado, véase Ueda (en prensa).

11

Fig. 2.3.b Análisis de cluster patronizado

En el eje vertical se colocan las formas lingüísticas y en el eje horizontal, las

localidades. Tanto el orden de las formas lingüísticas como el de las localidades son

debidos a los resultados del análisis cluster. Lo curioso de esta figura es que suele

ofrecer unas conglomeraciones peculiares gracias a la agrupación que ofrece el análisis

de cluster tanto de las localidades como de las formas lingüísticas. Esto es natural

puesto que el propósito del análisis de cluster es una taxonomía numérica presentada en

forma de agrupación de miembros, agrupación que se consigue por el índice razonable

de la confluencia6.

6 También el lenguaje “R” tiene la función de hacer lo parecido, denominado “Heat map”. El paquete

gratuito del Proyecto “R”, elaborado por Robert Gentleman y Ross Ihaka del Departamento de Estadística

de la Universidad de Auckland (Nueva Zelanda) se encuentra en: http://www.r-project.org/.

12

Nos llama la atención por presentar unas conglomeraciones peculiares casi

exclusivas, las partes marcadas por líneas rojas, de las que comentaremos en la sección

siguiente tanto desde el punto de vista lingüístico como geográfico.

3.2. Evidencias cualitativas

a) De tipo geográfico

En el análisis de clúster se muestra la distribución de las localidades estudiadas

clasificadas en 8 grupos (A, B, C, D, F, G y H), los cuales se corresponden parcialmente

con las seis agrupaciones dialectales en que se suele dividir el dominio lingüístico

catalán: rosellonés [pirenaico oriental, en terminología de Alcover] (A), catalán oriental

(B), valenciano (C), catalán occidental (D), balear (E) y la localidad del Alguer en

Cerdeña (G), y que el mismo Alcover ya constató. A estos seis grupos se añade la

subdivisión que aparece en el extremo occidental, que coincide en general con la franja

de Aragón, área de transición que se halla entre el territorio catalán y el aragonés: las

localidades de la franja de Aragón – Vilaller, Bonansa y Benavarri – (F) y al sur

aisladamente la localidad de Tamarit (H).

El análisis de cluster corrobora, pues, la división dialectal que el mismo Alcover

propuso y añade dos nuevas subáreas que coinciden con un área de transición, que,

aunque se tiene en cuenta en los estudios sobre la variación lingüística, nunca ha servido

para determinar la existencia de un área dialectal autónoma.

Examinemos a continuación la composición de cada una de las agrupaciones:

A – comprende no sólo la zona del Rosellón en territorio francés sino lo que se

conoce actualmente como catalán septentrional de transición, ya en tierras catalanas.

Observemos como en el diagrama aparece también, por la intersección entre puntos de

A y de B, delimitada una clara zona de transición.

B – corresponde al denominado catalán oriental (y actualmente catalán central).

En este caso no existe intersección, y por tanto una clara zona de transición, ni con el

área del catalán occidental (D) ni con el valenciano (C), mediante la superposición de

los puntos de cada zona. Sin embargo, es curioso observar como este área se extiende

hacia el sur, incluyendo dos localidades (92: Falset y 95: Tortosa), consideradas

pertenecientes lingüísticamente al catalán occidental, y, en el caso de Tortosa, como una

zona de transición con el valenciano. Quizá podremos obtener una respuesta desde el

punto de vista lingüístico.

13

C – comprende la zona valenciana, sin hacer ninguna diferenciación entre los tres

subdialectos que componen esta área (septentrional, apitxat y meridional). Es necesario

hacer constar la ascensión hacia el norte de la frontera hasta una localidad propiamente

del catalán occidental como es Fraga, donde puede preverse un área de transición.

D – integra las localidades correspondientes al catalán occidental, excepto 93:

Gandesa, 91: Riba-roja y 89: Fraga, que sitúan en la zona valenciana.

E – delimita el área de las Islas Baleares, sin mostrar subdivisiones entre las islas

de Mallorca, Menorca e Ibiza.

G – configura la localidad del Alguer en la isla de Cerdeña.

F – comprende grosso modo el centro y el norte del área de transición de la franja

de Aragón.

Es interesante establecer una comparación con los resultados del análisis de cluster

propuesto mediante el programa VDM de Hans Goebl. Observemos como, mediante el

cálculo RIW (relative identity value), obviando las respuestas múltiples, una

clasificación en ocho grupos ofrece una distribución parcialmente distinta de la

anteriormente propuesta:

Fig. 3.1. Análisis de cluster según la propuesta de Goebl

El color rojo aúna inesperadamente las áreas del pirenaico oriental y del catalán

oriental. El color azul muestra el área valenciana. El color verde, con subdivisiones

14

dentro de la isla de Mallorca, corresponde a las variedades insulares. El dialecto

alguerés, como es previsible, se muestra aislado de los demás. En último término

también se aprecia en color azul claro un área que puede asociarse con la transición

entre catalán y aragonés; y en este punto existe coincidencia con nuestros resultados

plasmados en F.

b) De tipo lingüístico

La divisoria – que responde tanto a la intuición como a la realidad lingüística del

momento en que Alcover desarrolló las encuestas – entre el pirenaico oriental

(incluyendo el área actual correspondiente al catalán de transición) y el catalán oriental,

que aparece en nuestro análisis, muestra la coincidencia que existe en algunas formas

verbales del presente de indicativo de todas las conjugaciones. Esta coincidencia se

manifiesta tanto en la primera persona – cf. el análisis de cluster patronizado en la figura

2.3b –: podi ‘I can’, beui ‘I drink’, riui ‘I laugh’, deui ‘I must’, que es compartida por

las localidades próximas a los Pirineos, en el territorio francés (en el norte) y en el

catalán (en el sur) – como en la segunda– vales ‘you worth’, riues ‘you laugh’, beues

‘you drink’, caues ‘you fall’, podes ‘you can’, neixi ‘I was born’, perdi ‘I lose’, senti ‘I

feel’. Estas formas contrastan con las propias del catalán oriental: primera persona: puc

‘I can’, bec ‘I drink’, ric ‘I laugh’, dec ‘I must’; segunda persona: vals ‘you worth’, rius

‘you laugh’, beus ‘you drink’, caus ‘you fall’, pots ‘you can’, neixo ‘I was born’, perdo

‘I lose’, sento ‘I feel’. El contraste entre estos resultados, caracterizados por las

desinencias -i (en pirenaico oriental) y -u (en catalán oriental), en la primera persona, y

la presencia vs. la ausencia del morfo -e- [ə] de modo/tiempo en la segunda persona

(vales, riues vs. valØs, riuØs) de verbos de la segunda y la tercera conjugación, y otros

de características similares, provocan la división entre los dos dialectos.

El análisis de cluster patronizado también pone de manifiesto la transición entre

los dos dialectos citados, a través de la existencia de formas con desinencia -i y con el

morfo -e- [ə], que son utilizadas en algunas localidades del norte del catalán oriental (22:

Ribes de Freser, 24: Ripoll): dormi ‘I sleep’, cusi ‘I sew’; (22: Ribes de Freser, 24:

Ripoll, 26: la Pobla de Lillet): dormes ‘you sleep’, sentes ‘you feel’, las cuales

pertenecen al actual catalán septentrional de transición.

El área correspondiente al catalán oriental forma un conjunto bastante homogéneo

con relación a las formas verbales, y no merece un comentario especial.

15

En cuanto al valenciano, se observan soluciones homogéneas en las primeras

personas del presente de indicativo: bullc ‘I boil’, cusc ‘I sew’, mereixc ‘I deserve’,

fuigc ‘I escape’, naixc ‘I was born’, perc ‘I lose’, compartidas por todas las localidades.

Tienen también una extensión casi general las formas correc ‘I run’, obric ‘I open’,

dormc ‘I sleep’ o partixc ‘I divide’. Las formas de segunda persona también tienen un

uso mayoritario: naixes ‘You were born’, partixes ‘you divide’ o obris ‘you open’. Es

igualmente apreciable como las formas creem ‘we believe’, creeu ‘you believe’, naixes

‘you were born’, naix ‘’, naixen ‘’, que se corresponden con las localidades 93: Gandesa,

91: Riba-roja y 89: Fraga, anteriormente citadas, parecen configurar una área de

transición hacia el valenciano. Nuevos análisis aplicados a otros tiempos verbales

pueden corroborar esta hipótesis.

El catalán occidental se muestra, a través del análisis de cluster patronizado, en

coincidencias absolutas en el área con las formas vac ‘I go’, vai ‘I go’, deiem ‘we say’,

deieu ‘you say’, y en coincidencias mayoritarias del tipo coiem ‘we cook’, coieu ‘we

cook’, partixo ‘I divide’ o sinto ‘I feel’. Existe un mayor grado de dispersión en formas

como aurixo ‘I open’, aubrixo ‘I open’ o bullixo ‘I boil’, propias de determinadas

localidades de la zona. Las localidades 92: Falset y 95: Tortosa se distancian de 89:

Fraga y 91: Riba-roja d’Ebre. Estos dos últimos dos puntos, junto con 93: Gandesa,

forman un subgrupo dentro del grupo C, apartándose de las localidades restantes del

mismo grupo e indican una zona de transición. Las cinco localidades mencionadas

(Falset, Tortosa, Fraga, Riba-roja d’Ebre y Gandesa) coinciden en algunas formas y se

diversifican también en otras.

El balear, como agrupación dialectal, manifiesta un conjunto importante de

realizaciones comunes, especialmente en las formas de primera persona de presente de

indicativo sin desinencia: cant ‘I sing’, obr ‘I open’, fuig ‘I escape’; en la segunda y

tercera personas del plural del presente de indicativos de los verbos prendre ‘to take’

(prenim ‘we take’, preniu ‘you take’), dir ‘to say’ (deim ‘we say’, deis ‘you say’), fer

‘to make’ (feim ‘we make’, feis ‘you make’) o creure ‘to believe’ (creim ‘we believe’,

creis ‘you believe’).

El alguerés consta en el análisis de cluster patronizado con una representación

única que recoge las formas exclusivas e idiosincrásicas de esta variedad dialectal. Este

comportamiento único se muestra especialmente los presentes de indicativo: beun ‘they

drink’, caun ‘they fall’, rien ‘they laugh’; y en la flexión de los verbos romir (Est. Cat.

16

dormir ‘to sleep’: rom ‘I sleep’), paltir (Est. Cat. partir ‘to divide: palteix‘I divide’) o

pelda (Est. Cat. perdre ‘to lose: pelt ‘I lose’).

Las localidades estudiadas correspondientes a la franja de Aragón son las

siguientes: 69: Vilaller, 71: Bonansa, 78: Benavarri y 82: Tamarit de Llitera. Las tres

primeras se enmarcan en la agrupación F y la última forma en solitario la agrupación H.

Aunque presentan coincidencias formales en la realización de algunas personas, la

localidad de Tamarit muestra diferencias notables en la flexión de algunos verbos (corrs

‘you run’, corr ‘he runs’, aurisses ‘you hear’, aurís ‘he hears’, aurissen ‘they hear’, así

como en la presencia de una extensión velar en formas como coneguem ‘we know’ /

conegueu ‘you know’, entenguem ‘we understand’ / entengueu ‘you understand’,

valguem ‘we cost’ / valgueu ‘you cost’, prenguem ‘we take’ / prengueu ‘you take’,

alternando con soluciones sin extensión), lo cual la aleja de la agrupación anterior (que

presentan resultados exclusivos sin la aparición de la extensión velar: coneixem /

coneixeu, entenem / enteneu, valem / valeu, prenem / preneu). Con la aplicación de la

metodología estadística usada con las formas de presente de indicativo a todos los datos

verbales que Alcover recopiló se podrá plantear la existencia de esta localidad o bien de

manera aislada o bien incorporada a los puntos restantes que configuran la franja

aragonesa.

4. Conclusiones

1. Esta primera aproximación al tratamiento de los datos verbales de Alcover ha

demostrado la idoneidad del método aplicado a respuestas múltiples.

2. El análisis de cluster que se ha utilizado refleja la realidad de la variación

lingüística que experimentaba el verbo catalán a principios del siglo XX. Otros cálculos

basados en el uso de respuestas únicas ofrecen sólo resultados parciales que no son

absolutamente representativos.

3. La aplicación del método a las formas verbales completas de presente de

indicativo de 29 verbos de 128 localidades ha mostrado una configuración geográfica en

áreas dialectales que no se aleja de la divisoria tradicional en que Alcover dividió el

dominio lingüístico catalán: pirenaico oriental, catalán oriental, catalán occidental,

valenciano, balear y alguerés. Sin embargo, en el análisis de cluster aparecen otras dos

áreas, situadas geográficamente en la franja de Aragón, que se ha integrado

tradicionalmente al catalán occidental. Un examen más completo permitirá resolver dos

cuestiones que aun quedan pendientes: 1) la existencia independiente de estas dos áreas

17

o la unificación de las mismas en una sola que se alargue de norte a sur; y 2) en

cualquiera de los dos casos, la constatación de la existencia de un nuevo dialecto

correspondiente a esta área, la cual hasta ahora se subdividía en tres subdialectos

(pallarés, ribagorzano y leridano), pero que consideraba la relevancia de la frontera

catalano-aragonesa sólo como área de transición.

4. En cuanto a las áreas de transición, el análisis ha dejado entrever agrupaciones

de localidades, integradas en determinadas áreas, que pueden considerarse de carácter

transicional. El uso de todosa los datos en los cálculos estadísticos permitirá definirlas

más claramente y remarcará los elementos lingüísticos que permiten configurarlas.

References

ALCOVER, A. M. & MOLL, F. de B. 1929-1933. La flexió verbal en els dialectes catalans,

Barcelona: Anuari de l’Oficina Romànica (v. II (1929) [73] 1- [184] 112, v. III (1930) [73]

1- [168] 96, v. IV (1931) [9] 1- [104] 96, v. V (1932) [9] 2 - [72] 64).

ELLEGARD, Alvar. 1959. "Statistical measurement of linguistic relationship." Language, 35,

131-156.

GOEBL, Hans. 1997. “Some Dendographic Classifications of the Data of CLAE 1 and CLAE 2”,

in W. Viereck and H. Ramisch (eds.), The Computer Developed Linguistic Atlas of

England 2, Tübingen: Max Niemeyer Verlarg, 22-32.

GOEBL, Hans, 2003. “Regards dialectométriques sur les donnés de l’Atlas Linguistique de la

France (ALF): Relations quantitatives et structures de profondeur”, Estudis Romànics,

XXV, 61-117.

HERDAN, Gustav. 1964. "Mathematics of genealogical relationship between languages",

Proceedings of the 9th International Congress of Linguistics, The Hague: Mouton, 51-60.

KROEBER, Alfred L. 1960. "Three quantitative classifications of Romance", Romance Philology,

14, 189-195.

KROEBER, Alfred L. and ChRETIEN, C. D. 1937. "Quantitative classification of Indo-european

languages", Language, 13, 83.

KROEBER, Alfred L. and CHRETIEN, C. D. 1960. "Statistics, Indo-European and taxonomy."

Language, 36, p. 1-21.

PEREA, Maria-Pilar. 1999. ‘La flexió verbal en els dialectes catalans’ d’A. M. Alcover i F. de B.

Moll. Compleció i ordenació, Barcelona: Institut d’Estudis Catalans, CD-ROM.

PEREA, Maria-Pilar. 2001. ‘La flexió verbal en els dialectes catalans’ d’A. M. Alcover i F. de B.

Moll. Les dades i els mapes, Palma de Mallorca: Conselleria d’Educació i Cultura.

Govern de les Illes Balears, CD-ROM.

18

PEREA, Maria-Pilar. 2008a. “Catalan verb morphology and dialectometric analysis”, in G.

Blaikner-Hohenwart, E. Bortolotti, R. Franceschini et alii (ed.), Ladinometria, Festchrift

für Hans Goebl zum 65. Geburtstag, 2, Salzburg: Universität Salzburg, 61-78.

PEREA, Maria-Pilar. 2008b. “Retrieving the sound: applying speech synthesis to dialectal data”,

comunicació presentada a The Thirteen International Conference on Methods in

Dialectology, 4-8 agost 2008, Leeds (en prensa).

PEREA, Maria-Pilar. 2004. “New Techniques and Old Corpora: La flexió verbal en els dialectes

catalans (Alcover-Moll, 1929-1932). Systematisation and Mapping of a Morphological

Corpus”, Dialectologia et Geolinguistica, 12, 25-45.

UEDA, Hiroto. 1995. "Zonificación del español. Palabras y cosas de la vida urbana", Lingüística

(ALFAL), 7, pp.43-86.

UEDA, Hiroto. (en prensa) “Métodos de tratamiento informatizado de datos lingüísticos

hispánicos: Observaciones inmediatas y abstracciones matemáticas”, Curso de verano en la

Universitat Jaume Primer, Castellón de la Plana, España, 2009/7/8.