14
ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS PRESENTACIÓ Al Seminari de Filologia i Informática de la Universitat Autónoma de Barcelona, s'está treballant en l'elaboració d'un Arxiu Informatitzat de Textos Catalans Medievals, per a la seva posterior conversió en un Banc de Paraules (Tresor de la Llengua Catalana Medieval), sota la direcció del Dr. José Manuel Blecua. El disseny i direcció del projecte és a cárrec de Joan Torruella i es compta amb la col•laboració d'especialistes en ]lengua i literatura medievals com la Dra. Lola Badia de la Universitat de Barcelona i el Dr. Jeremy N. H. Lawrance de la Universitat de Manchester. La finalitat del tractament informátic dels documents catalans medievals és disposar d'una base de dades amb totes les paraules que hi apareguin, acompanyades d'altres informa- cions complementáries, tant históriques (primera documentació, zones lingüístiques dels seus usos, autors, generes on apareixen, etc.) com lexicográfiques (gratia, categoria gramatical, accepció, etimologia, etc.). EL CORPUS Un dels primers problemes teórics que hem hagut de resoldre és la definició del tipus de corpus que volíem, per tal que fos adequat als objectius que ens proposávem. Pensant en la utilitat de ]'Arxiu per a un bon nombre d'estudiosos, es va decidir elaborar un Corpus Selectiu de

ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

ARXIU INFORMATITZAT DE TEXTOSCATALANS MEDIEVALS

PRESENTACIÓ

Al Seminari de Filologia i Informática de la Universitat Autónomade Barcelona, s'está treballant en l'elaboració d'un Arxiu Informatitzatde Textos Catalans Medievals, per a la seva posterior conversió en unBanc de Paraules (Tresor de la Llengua Catalana Medieval), sota ladirecció del Dr. José Manuel Blecua. El disseny i direcció del projecteés a cárrec de Joan Torruella i es compta amb la col•laboraciód'especialistes en ]lengua i literatura medievals com la Dra. Lola Badiade la Universitat de Barcelona i el Dr. Jeremy N. H. Lawrance de laUniversitat de Manchester. La finalitat del tractament informátic delsdocuments catalans medievals és disposar d'una base de dades ambtotes les paraules que hi apareguin, acompanyades d'altres informa-cions complementáries, tant históriques (primera documentació, zoneslingüístiques dels seus usos, autors, generes on apareixen, etc.) comlexicográfiques (gratia, categoria gramatical, accepció, etimologia, etc.).

EL CORPUS

Un dels primers problemes teórics que hem hagut de resoldre és ladefinició del tipus de corpus que volíem, per tal que fos adequat alsobjectius que ens proposávem. Pensant en la utilitat de ]'Arxiu per a unbon nombre d'estudiosos, es va decidir elaborar un Corpus Selectiu de

Page 2: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

240 J. TORRUELLA

tots els documents literaris, no literaris i notarials de la llengua catala-na medieval. Aixó ens permet fer estudis sincrónica i sectorials de lallengua. Peró dins d'aquest Corpus Selectiu hi englobem un CorpusExhaustiu deis textos literaris.' La decisió d'incloure aquest CorpusExhaustiu no és només pel gran valor lingüístic que pot tenir, sinótambé per l'enorme interés que per als especialistes de la história de laliteratura pot representar poder disposar deis textos de tots els escrip-tors medievals, en supon informátic.

Cal puntualitzar, peró, que es pretén que el corpus literari sigui ex-haustiu pel que fa als textos, no pas pel que fa als documents que ens elsfan arribar. Entenem per text la composició original de l'autor i perdocument el manuscrit o imprés que ens el conserva. En el cas delsautógrafs coincideix text i document, peró en els altres casos el docu-ment sempre és posterior al text i, és ciar, un text pot estar a diversosdocuments. Per aixó, en principi, de cada text s'escollirá el documento documents que es considerin més interessants (normalment, seguintun stemma codicum, el més proper de l'original).

Els punts que hem definit per dissenyar el Corpus Selectiu són elssegüents:

Recopilació:

Extensió cronológica del Corpus.Extensió material del Corpus.Nombre de géneres en qué es dividirá el Corpus.Generes en qué es dividirá el Corpus.

— Nombre de documents que s'elegiran per a cada génere.Quins documents s'elegiran per a cada génere.

— Part i extensió que s'elegirá de cada document.

1. Corpus Selectiu és aquell que es fa a partir de la representació esta-dística compensada de diversos grups, préviament definits, de documents, jasigui mitjanlant el model proporcional o el model rectangular. Corpus Ex-haustiu és aquell que, dels diversos grups préviament definits, agafa la totalitatde documents.

Page 3: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS 241

Estadística:

— Tipus de mostra - Proporcional.- Rectangular.

Lexicografia:

Unitat léxica.Criteris de lematització.Context.Referéncies.

L'ARXIU I ELS SEUS LÍMITS

Alguns aspectes que ha calgut decidir han estat el de la delimitaciótemática i el de la delimitació temporal dels textos que havien de for-mar el corpus. És clar que, almenys d'entrada, no podíem pretendreabastar tots els documents de qualsevol génere on hi haguessin parau-les catalanes. Per altra part, el terme medieval és un terme cronológi-cament ambigu i calia delimitar-lo. En l'aspecte • temátic s' ha decidit,amb el propósit de formar el Corpus Exhaustiu de textos literaris, in-cloure al corpus tots els textos (no documents) escrits amb intencionsliteráries, mentre que deis no literaris se n'agafará una mostra estadís-ticament representativa de cada génere, de manera que tots els registresi nivells de la llengua hi estiguin representats. En el Corpus Selectiu esdonará preferéncia a aquelles obres que tot i no ésser estrictamentliteráries, o sigui, no haver estat escrites amb intencions literáries,avui, pel seu valor cultural, figuren en els manuals de la história de laliteratura (per exemple, Les Homilies d'Organyá o les cróniques).

Tot i així, la inclusió d'algunes obres podria ser objecte de discussió,tant pel fet d'haver estat escrites per autors catalans peró en llengua nocatalana, com per ser documents amb barreja de paraules de diversesllengües, entre aquelles la catalana. En el primer cas, si bé en unprincipi s'havia pensat deixar de banda aquests documents, perqué noimplicaven la llengua catalana, creiem que és important tenir-los al

Page 4: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

242 J. TORRUELLA

corpus per a poder tragar el camí fet per algunes paraules arribadesd'altres llengües, básicament del provengal. El segon cas, el de docu-ments amb barreja de paraules de diverses llengües, pensem que aqueststambé poden ser forga interessants per a la história de la llengua i, pertant, seran objecte igualment del nostre interés. Peró en els casos decangoners que també contenen poesies no catalanes agafarem nomésles que siguin catalanes. Els casos més difícils de decidir són els queimpliquen el provengal, ja que moltes vegades la frontera entre lesdues llengües no és gens clara.

Pel que fa al Corpus Selectiu dels textos no literaris, la representa-ció estadística compensada deis diversos registres de la llengua impli-ca una aportació més o menys proporcional deis diferents géneres inivells, o, el que és el mateix, implica la representació compensadadeis documents deis diferents géneres que componen aquest corpus.

Quant a l'aspecte cronológic, podem dir que, a grans trets, ensinteressen des deis primers textos i documents on apareixen paraulescatalanes fans als textos anteriors al segle xvi. Aquests textos, peró, al-gunes vegades poden estar en documents del segle xvi o posteriors, nosolament en manuscrits, sinó també en incunables o edicions.

Tot aixó ens ha portat a la necessitat d'elaborar un catáleg de totsels textos susceptibles de ser inclosos al corpus.

LES EDICIONS

Perqué el projecte sigui viable i ágil, és necessari que els documentssiguin passats a supon magnetic i que tinguin una forma homogénia.Així facilitarem la posterior ordenació i catalogació de les paraules.

Ha estat necessari, doncs, decidir quin tipus d'edició havíemd'utilitzar a l'hora de transcriure els manuscrits, pensant, sobretot, queaquestes edicions havien de servir per a un corpus amb finalitats docu-mentals. Ens várem decidir per l'edició interpretativa, entenent com atal l'edició crítica que edita un sol manuscrit. Si bé per fer aquestaedició ens podem servir d'altres códexs, caldrá marcar clarament lesparaules que no estiguin documentades en el manuscrit base. Les edi-cions paleográfiques, usades en altres projectes semblante, no ens inte-

Page 5: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS

243

ressen, ja que comporten diversos perills, sobretot els de mantenir elserrors deis copistes i documentar paraules fantasma. Per altra part,l'edició crítica basada en la confrontació de diversos manuscrits, se-gons el sistema lachmaniá, ens presenta un text ideal peró que no esrefereix a cap document en concret, de manera que resulta molt difícilatribuir a les unitats léxiques referéncies geográfiques i temporals con-cretes. Recalquem que estem inventariant les unitats léxiques delsdocuments que ens han conservat els textos i que, per tant, atribu'im acada unitat les dades espácio-temporals dels documents, no les delstextos ni les dels autors.

També, per evitar interpretacions errónies, en les nostres edicionscaldrá marcar totes aquelles paraules que no siguin catalanes. Aixó hofem per estalviar-nos el perill de barrejar paraules de diverses llengües,en les quals podrien coincidir grafies de mots amb significats diferents(casa = llatí cabana / casa = catalá casa).

Peró, de totes maneres, les normes d'edició que proposem —deles quals per problemes d'espai no parlarem aquí— respecten sempreels criteris filológics i són prou ámplies com per poder prendre com apunt de partida edicions que els filólegs fan per als seus interessosacadémica personals, de manera que amb molt poques modificacionssiguin aptes per al nostre Arxiu.

EL TEXT

D' aquesta manera, en una edició preparada per al tractament infor-mátic i destinada a extreure'n una concordanga per a la posterior lema-tització i emmagatzemament de les seves paraules en una base dedades, hi podem trobar quatre tipus d'intervencions. Aquests quatretipus caldrá tractar-los de manera diferent segons el paper que vul-guem donar a les unitats léxiques de cada un d'ells. Els quatre tipussón: a) el text de l'autor que constitueix l'obra, b) addicions posteriorsdegudes al mateix autor, c) addicions degudes al copista o a altresmans, i d) addicions degudes a l'editor. Així al text preparat per al'ordinador pot haver-hi:

Page 6: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

244 J. TORRUELLA

Parts de text que volem que les seves paraules apareguin en laconcordanla com a lema i com a context d'altres lemes. Ex: eltext del ms.Parts de text que volem que les seves paraules apareguin com acontext deis altres lemes peró que no apareguin com a lemes perelles mateixes. Ex: reconstruccions de l'editor, paraules estran-geres, etc., sense les quals no s'entendria el context d'un lema.Parts de text que volem que les seves paraules no apareguin enla concordano ni com a lema ni com a context d'altres lemes.Ex: glosses posteriors, cites afegides, etc.Parts del text que són només senyals que l'editor posa per fa-cilitar les tasques informátiques. Ex: inici de capítol, etc.

També, en una edició preparada per al tractament informátic i destinadaa extreure'n una concordano per a la posterior lematització de les sevesparaules, podem trobar-hi cinc tipus de carácters diferents segons la inci-déncia o funció que vulguem que tinguin en el procés d'ordenació i lema-tització de les paraules:

Carácters normals: són aquells que volem que intervinguin enl'ordenació alfabética de les paraules. Ex: a, b, c...Carácters diacrítics: són aquells que volem que distingeixinentre homónims i, en conseqüéncia, consideren la paraula queporta el carácter diacrític com un lema diferent a la mateixaparaula sense el carácter diacrític i les ordenen una després del'altra. Ex: accents, guions, etc.Carácters aleatoris: són aquells que volem que formin pan deles paraules peró no volem que afectin per res la seva ordena-ció. Així, una paraula amb carácters aleatoris quedará orde-nada dins el lema format per la mateixa paraula sense els es-mentats carácters. Ex: el grafema h quan no volem que sigui unelement distintiu entre dues grafies.Carácters supefflus: són aquells que no volem que afectinl'ordenació alfabética i que ni tant sois volem que apareguinescrits en les llistes i concordances. Ex: la barra transversal(/) que indica el canvi de foli.

Page 7: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS 245

— Carácters delimitadors: són aquells que, vistos des de laperspectiva informática, volem que indiquin els límits deles paraules i que no afectin en res la seva ordenació. Ex:els signes de puntuació, l'espai, les cometes, etc.(vegeu annex 2).

FUNCIONAMENT

Per organitzar el treball, primer de tot, seleccionem, del text quevolem editar, el document o documents més interessants que el conte-nen. Com ja s'ha dit, tot i que a vegades ens hem de servir d'altres ma-nuscrits del mateix text per resoldre la lectura d'alló que en el manuscrités il•legible o está mutilat, només documentem les paraules presents enel manuscrit base per tal de no posar en el mateix sac mots pertanyents acopistes, époques o zones geográfiques diferents. Al manuscrit 9 de laBiblioteca de Catalunya, per exemple, hi ha un poema de R. de Cardonaon la paraula sen no té sentit en aquell context; recorrem llavors al ma-nuscrit Esp. 225 de la Bibliothéque Nationale de París que conté elmateix poema i, d'acord amb aquest, restituim sen per sens, peró nodocumentem aquest mot com a propi del manuscrit 9 ja que en realitat,tot i que és evident que aquest és el mot que hi ha d'anar, no hi consta.En la concordano, aquest mot apareixerá com a context de les altresparaules de la mateixa frase peró no apareixerá com a lema.

Entrem, dones, el document seleccionat dins l'ordinador; aixó hofem amb un reconeixedor óptic de carácters OCR (scanner) o bé ma-nualment segons si disposem o no d'edicions fiables dels documentsque volem entrar. Un cop tenim el text dins l'ordinador, un programaen fa la concordanÇa (Oxford Concordante Program); és a dir, 'lista,com a lema, cada grafía diferent del document en ordre alfabétic i ambla seva freqüéncia d'aparició al costat. A sota de cada lema hi posatotes les frases del document (context) en qué aquest lema apareix, amb,al principi de cada frase, la referéncia d'obra, página i línia on elpodem trobar (vegeu annex 1).

Després, un programa de lectura automática, anomenat Bellaterra-90, passa el resultat de la concordano a una base de dades, de manera

Page 8: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

246 J. TORRUELLA

que es pot utilitzar la informació d'una forma molt més flexible iversátil i se n'hi pot afegir automáticament. En aquesta base de dadeshi tenim, d'una banda, els camps amb les informacions provinents dela concordano: grafia de la paraula-lema, número de freqüéncia, fra-se de context i localització de la frase en el document, a més dels campsamb les informacions históriques que es desprenen del document ma-teix comunes a totes les paraules: autor, génere, sigla del manuscrit,data i zona lingüística. D'altra banda, tenim també a la base de dadesuns camps lingüístics que s'ompliran, posteriorment, semiautomática-ment: lema, accepció, categoria gramatical, construcció, subcatego-ria, entrada, etimología i traducció al catalá modern. Així, per exem-ple, la grafia «puys», que trobem en el ms. 151 de la Biblioteca de laUniversitat de Barcelona, que conté la prosa de Romeu Llull, unavegada passada a la base de dades portaria les següents informacions:grafia: puys; freqüéncia al document: 1; frase de context: peró, puysen lo portal portes no viu ne persona alguna; referéncia de la frase aldocument: pag. 3, lín. 38; autor: Romeu Llull; génere: prosa; font:Barcelona, Bib. Univ. ms. 151; data: 1486; zona lingüística: central;lema: puys, accepció: 1; categoria: conjunció; entrada: puys; etimolo-gía: *postius; catalá modern: puix.

Per omplir els camps lingüístics, hem creat un programa, anomenatTRANSCALC, que compara les fitxes de la base de dades del documenten qué estem treballant (dB particular) amb les fitxes de la base dedades de l'Arxiu (dB general). La base de dades de l'Arxiu está com-posta per les fitxes de tots els documents que ja hi hem entrat fansaquell moment i que ja tenen, per tant, els camps lingüístics plens.Així, el programa compara les fitxes de la dB particular amb les de ladB general i, quan en troba una de la dB particular amb la mateixagrafia que una de la dB general, copia la informació dels camps lin-güístics de la dB general a la fitxa de la dB particular o, en el cas queuna determinada grafia de la dB particular no tingui cap parella igualen la dB general, el programa la marca amb un doble zero (00).D'aquesta manera, el filóleg només ha d'omplir els camps lingüísticsde les fitxes marcades amb el doble zero i ratificar o rectificar lesdades afegides automáticament de les fitxes de la dB particular. En elcas dels homónims, paraules amb la mateixa grafia peró amb informa-

Page 9: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS

247

cions lingüístiques diferents, el programa copia totes les possibilitats,de manera que l'editor només haurá de triar la solució correcta.

Un cop fet tot aquest procés, les fitxes del nou document (dBparticular) se sumen a les fitxes de la dB general (dB Arxiu) queconformen el Banc de Paraules. D'aquesta manera, com més docu-ments passin a la dB Arxiu, menys possibilitats hi haurá de trobarfitxes doble zero quan utilitzem el programa amb nous documents.

1NTERESSOS DEL B ANC

Hi ha dos aspectes básics en els quals el corpus d'un període deter-minat ens pot ajudar: (i) per proporcionar-nos exemples d'alguns tipusd'estructures o contexts característics de la llengua d'un determínattemps i lloc; (ii) per fer possible comparar dades que poden definir lesrelacions entre algunes variants i la norma.'

De la base de dades del Banc de Paraules se'n poden extreure mol-tes informacions, no solament per als filólegs sinó també per als histo-riadors, juristes, historiadors de la literatura, etc., ja que es podenobtenir d'una manera fácil i sistemática tot un seguit de dades lingüís-tiques, d'estil i históriques de cada mot. Aquestes informacions vandes de les més simples, com saber quin és el primer document en elqual trobem escrita una determinada paraula, en quina zona lingüísticas'usava, els autors que l'han utilitzat o les diferents formes gráfiquesen qué s'ha escrit, fins a combinacions forga més complexes, com, perexemple, saber en quines regions s'utilitzava una determinada combi-nació de mots durant una época concreta, o bé, veure l'ús de la lletra'h' entre vocals en els noms i adjectius de les obres en poesia delsautors valencians posteriors al 1450 i anteriors al 1500.

El servei que el Banc pot fer de cara a la confecció d'un diccionarihistóric també és considerable, donat que ens pot facilitar el coneixe-ment de les diferents variants gráfiques que una paraula ha pres segons

2. L. T. Mmic, The Century of Prose Corpus, «Literary & LinguisticComputing», Vol. 5, No. 3 (1990), págs. 203-208.

Page 10: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

248

J. TORRUELLA

la zona lingüística en qué s'ha escrit i ordenar-les cronológicament, osaber els diferents significats que un mot ha tingut segons els diversosautors i les distintes époques en qué el trobem documentat. I sempre, iaixó és molt important, aquestes informacions s'acompanyen amb lescites textuals que les certifiquen.

Del Banc també se'n poden derivar sub-repertoris de temes especí-fics o de llenguatges sectorials, com podria ser el cas d'un sub-repertoride textos notarials o de textos médics per a investigadors interessatsnomés en aquests temes.

És important de mencionar el fet que el projecte és un treballobert i, per tant, sempre s'hi poden incorporar nous documents inoves infomacions sense que aixó impliqui fer cada vegada des delprincipi noves ordenacions i noves estadístiques, ja que el reciclatgei l'actualització de l'Arxiu són prácticament automátics.

JOAN TORRUELLA

Page 11: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

,--

o V)

> ca

o = .:

a E 5c

cal sa) 0iro,--1 u Cr

E 7:3a) d 1,..Q

a) E..o, cd a)as ,,,/ 4-• o 7,'

t -' D :CI3 <

Er 3 VD

V) Ci.) , r,a) -0

= —a) cc!ato I s¿j , cti a) aa wIt. E .0 C

O ti cd el.0 co) cd ,C.)O cd O cn = 6) .—• c a

.79C7' CL) cr 4,t nA O

b.

in (1.)

= 1.) g '''S 0. c.`1 cd cd 0

co) c.. O OO >

• ..., 6O ..= C.) ri) O .OO a> c9 o ''' ,.. . t»

...) I.., . .. a) p cu ,,,,cr ba cn .= > ,..,.; 1.., cd OW1 1) cd ' C-, ct ,,,, O 4~ >

U > 12 .9 2 .:. 7 E c.-o ca

i..n cd Cr ,.. cd en ....r.,

e cr.- , E --.:-c) e.) r,1;.-n a.> cr.) > -el -5

U c.-, o i.) `C) U . g. ,.,)9 o c,rcr, Lu , au

,, .7 ,,)a> U O E .., C:f 0 C ti ,t)

á el Co> el ,I)

0 ni 0á f: '' (...) CO) ei..)

o 1= O^

V) .0 Z a.)

I Z' E 71) = m> d' a> cn

P 7.,' 1.) 2 9 E ct > c1,C) O 5

U cd O O C.) ...., cd .1.1cd

.: a> ,,,,'-' [1-7 5 .d'> .c > 1. o

a) ..... 1 cacd

cu .n ,n cr C.) r:/". a.> a 9 E ..d'C.)

a "CO .,...• 1...• oO

cd u crr u 8 = cd

--)c5a> O.t ,. > a) a) ‹,-, P.o o ó o v)

ti;) .-

cn a) o,.....) -crd

coi R. a. c.,.., o• o ct 1...1 "O>

=rl •5 -5 se.) O 4

-O O *en ,,, O c

a) u s. a) 1 '11 ~ u,- .-

cr cr "O CI)U cr z ,‘;' 7u- 'tu O—, -. --, IEEE ).., ir ir ir ir-a-) Tu' Ti T) y 0000 o o o o o '5 E 2 o oU u C.) U C.) U 1-) U C.) C.) C.) C..) U C.) C../ C..) 1...) C..›. U^

1.4 mi Wci.‘ N ~ t CD CL) i.

I.) á,n ... cd 1> a)

Q=0 ;... a a)

cIT - t.> .) > a. o.c ,c, .- cas • - ,

cr: u o, -c, 6.) i•-n

.., .0,1 O = c/) 0 >c,) 6) 6).....4Cr cu 1

c.7) 1.9 o E c Z tí)

".. ,>1 CDo om 01

> o

;. o= ed d 1:5 CD n >") el cci c.>

1.. • - E v, cu..z .— • Z >, 1 mi a> c.)

a 1.., Eu Z

5,) ,•rza) "O E= ›, ci.5 cl• 0

> Cr

OO o a> a> co ..z"o n-, o

a) a c u -E "O <-) C u *

ct ,a) 111 4-• 14 a ..o "O'r a C 9 a) E

'',") cr al o .. .- cdE c1 fp, O

O . n--. .1.5, vi 0 t . -c z a) '1.) crari ay, el.) oE -- c a,-1

E cz1 ..c) eu I. a` CA

oa. 9Eo

u '.7' 1 ro O ° 1.1 O O O'Cr su)ni 0 "‹

ca F,,0 -c , e C

E

C E>, > u . .) ,,, caiO • s.,.., 1 so 0^ U -0>O O • ~ cd UE -5 O a, .1 5 <O -c, =

E 1 "I,,6) 6)O CA

0.0 ct CA1...., vi" LIZcd

1. E r, c -c ;-• 1)

= cy ;-.• ,0E TI) a>

. -c> a.) su -c) . - su oo = a

E -E a 9 an q->•••n * 2 4 cd Cr ;—. E

CA

o ,—. cd O O

;-, , crl t...nO R CA 1 ii.) E E ,.)1Z - o a'cn , = Cl. U-Cs..

o C a, c ,

> Ó. ,,, 1.1 . u.. s.

cl ..-, a

eloEq-, a <,-

ca a> czt cc) as ccs u a)U U U vi U. vi U. ca vi

a W al. a ci -; p: 4 ,-; XI

(--4 vsl '1' '1' "I' N ,.0 N ,.0 ci. '71-

,- ,,-) — — ,,c, — Ln vz In oc C

Page 12: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

E

otí)

O

GLe

oo

-oLid

o

EOEu

— <1111.

clO

-o -to

1)

.

cdO.

1)

Oo

11ti

<4~

a)OcrEo

1)cd

..o

O -a .0N 1O U _,„.,Q) U > ""1...

u E 5o rz ct u es

CCS co),C1 __,.'

Eo

o

1 cd 7 1-.>-,

111 I: cd es ›,E ,..0'-' _ '-'12. ,), o/111S1OO cde

>. e E , el $...6.) u e 1... O 5, 0 cn O. cn f.,-. •6o _ — v)

>1 I--.

,

E "8 .1e 1_ c,71 7,3„ .,o1

* - a'."-cci c'2 el 7r) 2 0 „,

7 ,A e „ ,,:, z .> ‘,.)

cd

e 1.) e o -1 1 L

, - 3 ,-.)-L. c'd ,--1) 7

a)O' ,,C_) cs es 0., ti) cd o e OOc'/ 0.,o cd O L.Ot E 4-. >. LLI

tul >, • .

0t$'''/ '-' 1." e a o 4O u C7' .15) O • Z> Q) 7ry c", ...0 e

e u O -o ‘1.> I.>.... 4-. ;... • C73 '--.

Li 7.> -1-1<r> u .c2 cy .5. o á -5,.. E >< ---.

tu 7) <U U

Q) U1

. • t> do ctO p., ^ 0-• E u 0vi =t.-, — L.i) ,u 1)- = —, ccl U" c.,) 1.)O = 11. cr el ...r,,>> u, O <.6 :71 0"su 0 U

t

O1 U -.. u 9 d 1‹

>< a> ^', ,..eq u -.‘.7 ,..., a> ul ?". 1.< 1) 0 6)

Q.G•1) • .

ÑOU '-.1 ,..., 0 0 .0 1.1 0 • z cd cd I) un cn ,_, 0 u O O C C e

U a.) e Cl.) CL) 0 0 0Q) V u uCZ Z :-0 -17 -17 "e 7)

cA a)a> "7 Z Z CZ 12i -x:J

cl 11 1-• 11,,1 u cd

1-7 .<:DcP a) O '''11...ct.' U .. e-u 1a> .., t o 1-. O= a) su ,-,_ 0.. > cdcd

o o> E ''' .1 w eU) . e .gO '1> ..;1.... se0 e e ie ›. u a

)c, o Q. e o E o >..C Q

,.., ,, c.> el E uct ' C >Z o u e.) 9 17. cd cd>, in -0 cn1:1. Z ,7,,, .1.) a>a> CD.. ,j ..o -C.,- ..C'' Cd v < Z

E, >

7' a) ,-, 7 Cr O . -,"7 1.) 0 Oe-... •-•"17) W,,_, O . Z v) Cr

O > cdO. 15—

cdu' cr zo a> o

..c> uc

,..E 9 ,,, >

c,_ O eN(1)

VZ • ''''''O C'l t 2 E u o. - E Tzl>,' c:› u 0 a>V)— a 7:5 ,), ,.c — . - ›. O

0,1 c..> o —, ele e 1.1. ,.,-, • e 7) cct 01

`-' 1-:R. G. u = cr 71- , 0., a) clI-. u 5 o ...e.o c',1 0 1"..

T:1 un '6:1 c..)O

.Q.) e u/ ',U (Oe ... • ..0 OO W .0-co, Cr 01 e O tiD 7) Tde 1.. O ''''' 2

u >u. cd ><I.> ct cip ,s. 1.) d)VI f,

t+1:1

U 0 ed eu U U. 1)

U. U U. (...) U. U. 5 1an pa a. 0.. 0:1 .-; Pei Pg CC n-; a.;sa — r-- r-- ,,c, ∎D cc en — ‹D'•f:,In In --, — w-) v0 te') trl kr-1 s.0 •-n

Page 13: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS

ANNEX 2 - EXEMPLES DE LLISTES DE FREQÜÉNCIES

...... n ......

251

naiÇí 6 aiÇí 6aymador 2 aymador 2aimant 2 aimant 5aymant 3 aymar 1aymar 1 aimia 1aimia 1 air 6air 2 aire 2ahir 4 aysí 4aire 2 ...... naysí 4

En el tros de llista de freqüéncies alfabética de I'esquerra la y ha estat con-siderada com un carácter diacrític de i, i la h com un carácter diacrític general,mentre que a la dreta hi ha la mateixa llista peró el programa ha considerat la y

igual que la i, i la h com un carácter aleatori (v. 1.3).

...... n ...... ndeus 2 deus 4déus 4 dia 3dia 3 dient 3dient 2 dies 3dihent I diffamada 1dies 1 difamador 1dyes 2 diffaman 1*diffam 1 difamar 4diffamada 1 ...... ndifamador I *diffam 1diffaman 1difamar 3diffamar 1

Page 14: ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALSaillc.espais.iec.cat/files/2018/09/9_2_aillc_239_252.pdf · ARXIU INFORMATITZAT DE TEXTOS CATALANS MEDIEVALS ... Ha estat necessari,

252 J. TORRUELLA

Al tros de llista de freqüéncies alfabética de l'esquerra el programa haconsiderat la e accentuada com a carácter diacrític de la e sense accentuar,mentre que a la llista de la dreta el programa ha igualat la e accentuada a la esense accentuar; la h a la llista de l'esquerra és considerada com un carácterdiacrític en general, mentre que a la llista de la dreta está considerada com uncarácter aleatori; la y a la llista de l'esquerra és un carácter diacrític de la i,mentre que a la dreta el programa ha considerat iguals la y i la i; l'asterisc a lallista de l'esquerra ha estat considerat o com un carácter diacrític o com uncarácter aleatori; en canvi, a la llista de la dreta ha estat considerat el darrercarácter de I'alfabet; la dobla efa a la llista de l'esquerra és un diacrític de laefa simple; per contra, a la de la dreta la doble efa és un carácter igual a la efasimple.