COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTÍFICOS

Embed Size (px)

Citation preview

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    1/23

    COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS:

    CONTRIBUIES PARA O ESTUDO DO TEXTOCIENTFICO EM PORTUGUS1.

    Maria Jos Bocorny Finatto2

    RESUMO: This text presents the basis of a research project that deals with the issue oftextual complexity (TC), examining aspects of Pediatrics papers against newspaper articles.

    In the literature review, it is mobilized works related to the subject of TC in Applied

    Linguistics, Terminology studies that follow a textual point of view, Computational Linguistics and Corpus Linguistics. Some highlighted elements in the contrast between the

    examination of texts and the literature reviewed are the measures to TC ratio and degrees oftext specialization, which would preview differences between specialized language and

    everyday language. The paper concludes with the presentation of prospects for the treatment

    of the issue of TC among the studies on scientific discourse.

    PALAVRAS-CHAVE: Complexidade textual, Lingstica Aplicada, Lingstica de Corpus,Terminologia, Linguagens especializadas.

    INTRODUO

    O principal objetivo deste trabalho refletir sobre modos para tratar do tema dacomplexidade textual (doravante CT) no mbito dos estudos sobre textos e linguagensespecializadas. A pergunta que guia o trabalho a seguinte: haveria como avaliar em quemedida textos cientficos do tipo artigo seriam mais ou menos complexos em relao a textoscientficos de outros perfis ou mesmo em relao a textos no-especializados3?

    Ao ponderar sobre as contribuies da Terminologia de perspectiva textual(CIAPUSCIO, 2003), da Lingstica Aplicada (LA), da Lingstica de Corpus (LC),especialmente a Anlise Multi-Dimensional da LC (proposta por BIBER, 1988), e daLingstica Computacional (LCOMP), representada aqui por um sistema para mensurao degraus de complexidade ou de inteligibilidade de textos para diferentes usurios (SCARTON,ALUSIO, 2010), discute-se como essas perspectivas poderiam cooperar em prol de umentendimento sobre fatores e fenmenos que perfazem a complexidade de um texto cientfico.

    1Este texto contm as bases da pesquisa de ps-doutoramento realizada entre fevereiro e julho de 2011I junto ao NILC-ICMC-USP (NcleoInterinstitucional de Lingstica Computacional do Instituto de Cincias Matemticas e Computacionais da Universidade de So Paulo,campus de So Carlos SP).2 Pesquisadora do Grupo TERMISUL, coordenadora do Projeto TEXTECC e TEXTQUIM, bolsista produtividade em pesquisa do CNPq,

    ps-doutoranda NILC-ICMC-USP.3 No faremos aqui a ponderao de praxe sobre a diferena entre textos especializados e no especializados. Essa uma discusso que

    replica a oposio termo/palavra comum. Assumiremos apenas, tal como explica Maciel (2010, p.25), que a realizao lingstica dotexto especializado, nela compreendida sua estruturao gramatical, textual e terminolgica e ainda sua formatao grfica, depende defatores temticos e pragmticos. A influncia desses fatores se faz sentir tanto na ativao do valor especializado das palavras que, no eventocomunicativo, desempenham a funo de vetor da transmisso da informao, da instruo, do mandamento, da sugesto e do conselho,como na seleo dos elementos lexicais que os articulam na estrutura sinttica e na configurao discursiva.

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    2/23

    Esse entendimento, tal como posto aqui, pode beneficiar sobretudo lingistas interessados emdescrever e em analisar a constituio de textos especializados, seja do ponto de vistaterminolgico, seja do ponto de vista discursivo-textual ou mesmo gramatical.

    Em sntese, pretende-se evidenciar como diferentes metodologias descritivas, dediferentes procedncias tericas, poderiam ser aplicveis observao de textos do tipo artigocientfico. Nesse sentido, tanto em termos de tratamento de unidades textuais quanto em

    termos de tratamento de corpora, sinaliza-se a importncia do dilogo entre LA, LC eLCOMP a favor de incrementar-se o estudo de padres de complexidade textual (CT)associados aos textos especializados em geral.

    Como pano de fundo para ilustrar o potencial de sinergia dessas contribuies, abordada a complexidade de um exemplar de artigo cientfico de Pediatria sob a tica dasdiferentes perspectivas mencionadas. E, como um brevssimo contraponto ilustrativo para acondio de especializao4 do texto em foco, toma-se um texto de editoria geral de notciasde um jornal popular brasileiro5 . um jornal dirio da cidade de Porto Alegre RS dirigido a

    pblicos leitores de menor poder aquisitivo, adultos com escolaridade mdia estimadacorrespondente ao Ensino Fundamental completo de oito anos6.

    O trabalho est organizado da seguinte maneira: na primeira parte, denominada

    complexidade textual em reviso, feita uma varredura bibliogrfica em busca de trabalhosou de propostas, de diversas procedncias, com destaque para os estudos de leitura, que

    possam ser associadas de alguma forma ao tratamento do tema da CT em textosespecializados. Depois, na segunda parte, caracteriza-se a perspectiva da AMD para adescrio de textos, ilustrando-se essa proposta metodolgica com a sntese de um trabalho

    brasileiro (SHERGUE, 2003) dedicado ao estudo de artigos mdicos da rea de Hematologia,tendo sido tais textos contrapostos a textos transcritos de comunicaes orais em congresso namesma especialidade.

    Na terceira parte, traz-se o enfoque da LCOMP, em uma parte eminentementeexperimental e exploratria deste texto, na qual observam-se diferentes medidas decomplexidade textual geradas pela ferramenta computacional Coh-Metrix partindo-se de umtrecho da Constituio do Brasil e de um artigo de Pediatria. Na quarta parte, relaciona-se ametodologia Coh-Metrix e os seus resultados com as consideraes de nveis textuais deCiapuscio (2003), conectando-se dimenses e fatores da AMD. Ao final dessa parte,concluindo o texto, o trabalho faz consideraes sobre possibilidades para agregao do temada CT aos estudos sobre textos especializados.

    PRIMEIRA PARTE - COMPLEXIDADE TEXTUAL EM REVISO

    No panorama da Lingstica Aplicada (LA) nacional e internacional, o tema dacomplexidade textual (CT) integrou estudos sobre Leitura, incluindo pesquisas sobrecompreenso e estratgias de leitura, sobre tipificao de leitores e sobre elementoslingsticos associados a dificuldades de compreenso de leitura. Embora esses estudostenham gerado importantes contribuies, como a distino entre complexidade informativa ecomplexidade lingstica, permanecem escassos, no Brasil, os trabalhos baseados emcorpora, realizados com grandes extenses de dados e apoio informatizado, dedicados areconhecer caractersticas estruturais globais de textos mais ou menos complexos em funodas habilidades ou condies de determinados tipos de leitores.

    4Essa condio de especializao, bem sabemos, tem sido muito discutida e debatida. Para um boa reviso a respeito, recomendo o trabalhode Zilio (2009).5

    Textos do jornal popular porto-alegrenseDirio Gacho, disponveis para estudo nositewww.ufrgs.br/textecc , projeto PorPopular.6O nvel de escolaridade do leitor do DG est aqui apenas grosseiramente estimado. O pblico leitor corresponde ao que se denominapblicos das classes C e D. Sua tiragem media diria de 150 mil exemplares; apenas vendido em bancas, no tem assinatura. Circulaapenas na cidade de Porto Alegre e regio metropolitana e cada exemplar exemplar tende a ser compartilhado por pelo menos 5 pessoas. O

    jornal circula h 11 anos e publicado pela empresa RBS, que tamb publica jornais para os pblicos das classes A e B.

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    3/23

    Essa escassez, conforme se pode interpretar, est relacionada a dois fatores. Primeiro,ao relativamente recente enfrentamento do objeto texto, geralmente preterido em funo deenfoques dedicados a frases, palavras ou expresses sintagmticas. Segundo, a uma poucaexperincia com a manipulao computacional de grandes corpora, algo recente no mbitodos Estudos da Linguagem no nosso pas.

    Por outro lado, h, na bibliografia estrangeira, registros de pesquisas sobre readbility

    ou legibilidade ou complexidade lingstica pelo menos desde os anos 1920, conforme jassinalaram Davison e Green (1988, p.1-4). Esses trabalhos trataram desde a compreenso de palavras at a compreenso de sentenas, chegando a textos de literatura, especialmentehistrias curtas ou contos para crianas e jovens, tendo sido contemplada inclusive acompreenso de leitura de adultos com dificuldades cognitivas7. Sobre compreenso do textocientfico ou tcnico, entretanto, as referncias so relativamente poucas8.

    Na obra fundamental das linguistas norte-americanas Davison e Green (op.cit., 1988)intitulada Linguistic Complexity and Text Comprehension: Readability Issues Reconsidered,

    por exemplo, h apenas dois trabalhos dedicados a problemas de compreenso ou deacessibilidade de textos cientficos ou tcnicos em um nvel global. H um trabalho dedicadoa uma amostra de textos operativos da Marinha da OTAN (BAKER, ATWOOD E DUFFY,

    1988). Esse trabalho tratou de trechos de manuais de instruo, os quais foram apresentadosem verses originais e simplificadas para testes de compreenso com um grupo de leitorestcnicos de formaes diferenciadas. O outro trabalho que h nessa obra foi dedicado a cartasde recall de fabricantes de veculos9 (CHARROW, 1988). Nele h interessantes propostas

    para a elaborao dessas cartas de um modo mais acessvel para um consumidor leigo;entretanto, como a compreenso de um todo o objeto privilegiado, a presena determinologias como um fator de dificuldade tratada apenas de modo incidental.

    Enfim, desde muito tempo, buscaram-se frmulas ou modelos sempre muitodiscutidos e criticados que fossem capazes de prever quais elementos textuais estariam maisassociados dificuldade de compreenso da escrita, de modo que pudessem ser gerados textosde acesso mais facilitado para uma grande fatia de populao leitora. Essa populao, cabesituar, correspondia a grupos sociais de escolarizao recente. Entre esses estudos maisantigos de amplo espectro, no associados a uma perspectiva especfica de Lingstica,

    produzidos por volta dos anos 70, entretanto, no encontramos muitas referncias sobre ascondies de legibilidade de textos especializados.

    No Brasil, um dos primeiros lingistas a se debruar sobre o tema da leitura funcionale da maior ou menor habilidade de leitura foi Perini (1982), com o trabalho Tpicosdiscursivos e legibilidade (apudFULGNCIO, LIBERATO, 2004, p. 9).Propunha o autor,ento, que os estudantes brasileiros tivessem acesso a materiais de leitura graduados deacordo com o seu nvel de escolaridade e nvel de dificuldade de compreenso.

    A partir do legado de trabalhos fundadores tais como o de Perini, antes referido, Neis

    (1982) e Kleiman (1987, 1989, 1993, 1997), Kato (1982) e Averbuck, Appel e Hessel (1983),entre outros, produzidos especialmente ao longo dos anos 80 e 90, temos hoje no Brasil umvasto e multifacetado alicerce de estudos sobre o tema da Leitura. Esse corpo deconhecimento permitiu-nos hoje distinguir especificidades das noes de leitura,alfabetizao, letramento, competncia textual, competncia lexical e competncia leitora.Isso sem mencionarmos os inmeros trabalhos sobre o tema da Leitura na rea da Educao,Ensino de Lngua Portuguesa e de Lnguas Estrangeiras ou de Psicolingstica.

    Nacionalmente, entre os vrios trabalhos dedicados ao tema da compreenso de

    7 Uma obra indicada pelas autoras What makes a book readable?, publicada em 1935 (GRAY, LEARY,1935). Essa obra tentava predizerdificuldades de compreenso de leitura de adultos com algum tipo de dficit cognitivo considerando um universo de 350 livros. 8 Naturalmente, h que se considerar que o texto cientfico se s coloca como tal, institucionalmente, a partir dosanos 1930, quando ocorre

    uma primeira reunio internacional de editores de textos cientficos. Alm disso, a leitura tcnica ou cientfica s se distingue como tal medida que haja tambm uma institucionalizao da formao profissional, a qual gera e consome registros escritos sobre um saber e umsaber-fazer.9Interessante como esse tipo de texto atualmente tornou-se abundante no Brasil; cada vez compramos mais automveis e j temos o annciode recallrecorrentemente presente em jornais de circulao diria.

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    4/23

    leitura, a partir dos anos 90, destacam-se as obras de Kleiman (1997) e de Leffa (1996). Leffa, por exemplo, j apontava que uma descrio completa do processo da compreenso develevar em conta, no mnimo, trs aspectos essenciais: o texto, o leitor e as circunstncias emque se d o encontro entre ambos.

    Ao tratar do papel do texto, Leffa (op.cit) observa que, nos estudos atuais, aindapersiste a preocupao centrada no lxico e na estrutura sinttica das frases. Porm, conforme

    situa, diferentemente de estudos desenvolvidos durante as dcadas de 50 e 60, a anlise doobjeto-texto evoluiu da micro para a macroestrutura. Assim, na sua interpretao sobre umatrajetria de investigaes, a compreenso de um texto deixou de ser entendida apenas comoum processo linear. Isso ocorreu medida que se passou a valorizar a apreenso no-linear desegmentos selecionados.

    Alm da apresentao grfica do texto (que o autor associa com legibilidade) e do usode palavras freqentes e estruturas sintticas menos complexas (relacionada por ele cominteligibilidade), fatores tradicionalmente conhecidos como facilitadores da compreenso e aorganizao interna ou estrutural do texto tambm conquistaram destaques importantes emmeio s investigaes. Ainda que no tivessem o objetivo de tratar de um determinado tipo detexto, tampouco de textos especializados, os trabalhos de Kleiman e de Leffa, por sua

    amplitude e qualidade, tm sido muito referidos quando se trata de ensino de leitura emlnguas estrangeiras, sobretudo no segmento denominadoLeitura Instrumental.

    Pois, justamente no mbito dos estudos de Leitura Instrumental ou de LSP (Languagefor Specific Purposes), encontra-se uma significativa produo sobre leitura e escrita de textoscientficos e tcnicos. Ainda que o foco seja bastante centrado em uma escrita acadmicaassociada ao ensino/aprendizagem de lnguas estrangeiras, h muito que se pode aproveitar

    para a descrio de caractersticas desses textos, mesmo que a complexidade seja um assuntoum pouco incidental. E, mais recentemente, pelo menos no Brasil, com a combinao dosestudos em corpora com ensino de lnguas estrangeiras, tal como vemos em Viana e Tagnin(2010), h uma oferta de subsdios aproveitveis para caracterizar diferentes LSPs,importantes tambm para o ensino de traduo cientfica e tcnica.

    Outra reas de estudos que tm rendido boas consideraes sobre a natureza eespecificidades do texto cientifico ou tcnico so a Anlise Crtica do Discurso (ACD) e osestudos sobre Gneros Textuais, cabendo destacar, no mbito internacional, os trabalhos deSwales (1990) dedicados escrita acadmica, especialmente artigos cientficos. No cenrio

    brasileiro, a obra de Meurer e Mota-Roth (2005), por exemplo, apresenta a ACD e traz umasrie de ensaios que visam, entre outros assuntos, identificar traos de gneros textuais ediscursivos tais como folhetos e relatrios de empresas.

    Sob a perspectiva da Lingstica de Corpus (LC), num mbito global, pode-seconsiderar que o tema da CT (independentemente do tipo de texto envolvido, seja literaturaou texto tcnico-cientfico) tenha sido parcialmente contemplado.

    No mbito brasileiro, por exemplo, no se pode deixar de citar o pioneiro ProjetoDIRECT10 em direo linguagem do trabalho. Esse grupo de pesquisa, desde 1991, juntoao LAEL da PUC-SP, trata de textos especializados da rea de Administrao de Empresas e

    Negcios. O DIRECT objetiva promover estudos sobre a linguagem das profisses, em portugus, ingls e espanhol. Descreve contextos originais de interao profissional, taiscomo reunies de negcios, documentos empresariais de circulao restrita, e textosempresariais de domnio pblico em que o portugus (como lngua materna) e o ingls (comolngua estrangeira) so utilizados. Alm disso, visa identificar as causas de possveis

    problemas de comunicao no ambiente empresarial atravs da anlise detalhada de situaesbem-sucedidas. Volta-se, desse modo, para a descrio de gneros lingsticos e de processosdiscursivos.

    Quanto LC em um mbito internacional mais global, a qual d suporte a vrios10 Para mais detalhes, ver

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    5/23

    estudos do DIRECT, importante registrar a contribuio da Anlise Multidimensional(AMD), proposta por Biber em 1988 (BIBER,1988). Essa proposta para tratamento davariao ao longo de gneros textuais e discursivos ou registro no trata diretamente do temada CT. Entretanto, a metodologia descritiva da AMD associada a todo um conjunto de

    princpios tericos da LC (tal como apresentados no Brasil por BERBER SARDINHA, 2004),conforme pretende-se explicitar mais adiante, colocaria, desde suas bases nos anos 80, uma

    srie de procedimentos aplicveis investigao de um fator como a CT.O enfoque da AMD combinou anlises de corpus de nvel macro com anlises denvel micro, em encaminhamentos da macrodimenso do corpus microdimenso do texto edas sentenas que o integram. Nessa perspectiva, a microdescrio dos traos de cada textodeveria permitir a induo dos macro-agrupamentos textuais, tipificando-os por gneros (cf.explica BERBER SARDINHA, 2000). Assim, a AMD, ao identificar tipos discursivos outextuais, embora no tenha tratado diretamente de CT, props mtodos descritivos dalinguagem escrita teis para a ponderao sobre caractersticas de determinados tipos detexto. Esses mtodos, sem desconsiderar uma certa e inerente complexidade de aplicao para

    pessoas pouco afeitas a anlises estatsticas multifatoriais, poderiam ser associados a medidasou fatores de maior ou menor complexidade textual.

    Na esteira da AMD, no cenrio fora do Brasil, o trabalho de Atkinson (1992), porexemplo, tratou de artigos cientficos sob uma perspectiva diacrnica. Seu diferencial foi

    justamente o de ter empregado uma metodologia de observao baseada em corpus paradescrever o comportamento desse tipo de texto num intervalo de 1735 a 1985. No seutrabalho, no encontramos meno direta sobre complexidade textual, salvo o reconhecimentode uma certa prolixidade deliberada da retrica cientfica em ingls, recomendada por SirRobert Boyle, precursor da Fsica e Qumica Modernas no sculo 18. No ser aprofundadaaqui a descrio desse estudo visto que, mais adiante, dedicamos um segmento desta reviso

    para a AMD.De outro lado, no mbito da Lingstica Computacional (LCOMP), pelo menos desde

    os anos 60, muito j foi e tem sido produzido sob forma de sistemas quegeramverses maissimplificadas de textos, incluindo a produo de ferramentas capazes de indicar diferentestipos de medidas de CT. Essas ferramentas tambm conseguem produzir diferentes tipos derepresentaes esquemticas do contedo de um texto ou de todo um corpus. Esses sistemasde LCOMP, de base fundamentalmente estatstica, conseguem inclusive reconhecer tipologiastextuais e graus de complexidade a eles associadas. Voltaremos mais adiante a esse tipo deenfoque computacional quando tratarmos do sistema Coh-Metrix.

    Por sua vez, na perspectiva dos estudos de Terminologia, muito j se escreveu sobre otexto e/ou discurso cientfico-tcnico, geralmente reconhecido como o habitat dasterminologias e realizao das linguagens especializadas. Essas linguagens, obviamente,sero realizadas sobretudo sob a forma de textos escritos. Assim, passou-se a reconhecer o

    texto do tipo cientfico, o qual, por fora de sua institucionalizao e da normatizaoterminolgica, tende a seguir padres mais ou menos fixos peculiares: padres lexicais,terminolgicos, retrico-argumentativos e de macroestruturao textual, entre outros. Almdos estudos de Terminologia, cabe tambm registrar o enfoque denominado Lingustica doTexto Especializado (KALVERKMPER, 1983).

    Por fim, mas no menos importante, resta ainda mencionar nesta breve reviso a linhados estudos de Terminologia que se associaram aos estudos do texto especializado. Umtrabalho que tratou, ainda que indiretamente do tema da CT, foi o de Ciapuscio (1998). Essaautora avaliou o grau de abstrao conceitual em diferentes tipos de textos que tratavam deuma mesma temtica, mas que eram dirigidos a diferentes perfis de leitores (cientistas,

    pblico semi-leigo e leigo). Considerou como fatores distintivos dos graus de especializao

    desses textos, produzidos por cientistas e por jornalistas que cobrem temas cientficoscoincidentes, o uso de terminologia especfica e a presena de variao terminolgica,realizada na forma de sinnimos, parfrases e explanaes.

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    6/23

    Conforme explica Maciel (2010, p. 23-24), Ciapuscio examinou como a variaoconceitual do termo se adaptava variao discursiva, a fim de modular o grau de densidadeda informao a ser oferecida ao usurio, de maneira que o texto se tornasse mais ou menostransparente. Quando no havia variao da terminologia, o texto exibia um maior grau dedensidade do conhecimento especializado.

    Mais recentemente, em 2003, Ciapuscio desenvolveu essas idias no livro Textos

    especializados y terminologia (CIAPUSCIO, 2003). A partir do modo de apresentao deesquemas de contedo e das terminologias nos textos que tratam de temas cientficos,propondo uma tipologizao multinvel. Para chegar a uma categorizao dos textos, a autoraprope a considerao de quatro nveis:

    a) o nvel funcional do texto que trata da sua funo ou propsito; b) o nvel situacional associado aos interlocutores e tipo de comunicao

    envolvidos;c) o nvel de contedo semntico, que inclui modos de tratamento e de apresentao

    do tema; e,d) nvel formal-gramatical, que inclui aspectos gramaticais, lexicais e terminolgicos.

    Cada um desses nveis receber uma gradao, e a sua juno permitir identificartipos de textos em funo de diferentes condies. Conforme fcil perceber, h aqui, semelhana da AMD, uma perspectiva multinvel para a considerao de um todo de sentidoque naturalmente multifacetado. Como pretendemos voltar proposta de Ciapuscio maisadiante, passamos agora a uma apresentao mais detalhada da AMD com vistas a identificarsuas potencialidades para o estudo da CT de textos cientficos.

    SEGUNDA PARTE - ANLISE MULTI-DIMENSIONAL (AMD) NA LINGSTICA DE CORPUS

    Como j mencionado, a abordagem Multi-Dimensional, proposta por Douglas Biber apartir de 1988 (BIBER 1988 e 1995), propunha combinar anlises de corpus de nvel macrocom anlises de nvel micro. A microdescrio dos traos de cada texto visa permitir ainduo dos macro-agrupamentos textuais ou genricos (BERBER SARDINHA, 2000,

    p.100). Assim, pode-se supor que essa seja uma metodologia do tipo bottom-up, pois, a partirdo que se verificar nos textos, averiguando-se inmeros traos, que os textos serocategorizados em funo de diferentes elementos.

    De acordo com Berber Sardinha (2000),

    a anlise Multidimensional foi criada por Douglas Biber com o objetivo de permitir umadescrio rica e complexa de corpora inteiros de textos por meio estatsticos bem como a extrao

    precisa de caractersticas textuais em comum entre corpora. Anteriormente Anlise Multimensional, atendncia era de que se estudasse a co-ocorrncia de poucos traos e que se fizesse a interpretao demodo intuitivo. A variao entre registros era investigada comumente pormeio de poucos parmetros,

    Desse modo, possvel empreender-se uma anlise de larga escala de um corpus fazendo-sedescries individuais ao longo do tempo, combinando-se posteriormente as anlises para finscomparativos. Por isso, a abordagem Multidimensional presta-se perfeitamente a projetos de descriode bancos de dados em crescimento, ou seja, aquelas bases de dados lingsticos que esto em processode coleta.

    Conforme afirmava Berber Sardinha, j h dez anos atrs (op.cit., 2000), trabalhos queincluam anlises multidimensionais de dados de corpora ainda no eram muito abundantesno Brasil, embora sua proposta tenha sido apresentada internacionalmente desde 1988. Issoleva-nos a imaginar que, independentemente de maior ou menor divulgao entre ns, esse

    tipo de investigao deve ter - e tem - , naturalmente, suas dificuldades operativas. Afinal,associar anlises de nvel geral do corpus como um todo - com anlises de nvel textual deum texto no corpus e dele com suas frases ou expresses em funo de diferentes dimenses

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    7/23

    - uma tarefa complexa. H que considerar, tambm, algumas crticas importante propostada AMD como elementos inibidores de sua disseminao, principalmente o fato de que o tipode anlise de texto empreendida por Biber, originalmente, ter sido feita no nvel da palavraem inmeros contextos sentenciais e no no nvel do texto.

    A despeito de quaisquer limitaes ou crticas, preciso reconhecer o carter inovadordessa proposta. O ideal, para se descrever os diferentes tipos de texto, conforme Biber props,

    seria combinar a descrio firmada em caractersticas situacionais da comunicao com adescrio baseada em traos lingusticos. E aqui j temos pelo menos duas dimenses.A AMD se prope justamente a isso, ou seja, a fornecer o instrumental para a

    identificao de padres de co-ocorrncias dos dois tipos de caractersticas, lingsticas esituacionais. Visa caracterizar uma lngua como um todo ou um conjunto de de textos, demodo abrangente.Possui carter essencialmente quantitativo e computacional, descrevendoseus objetos por meio de uma grande quantidade de caractersticas.

    No Brasil, um dos trabalhos que justamente que associou AMD e textos cientficos foio de Shergue (2003). Seu estudo incidiu sobre sobre dimenses de variao do discursomdico em ingls, tendo em vista auxiliar a produo oral e a compreenso de leitura emingls de profissionais brasileiros. Seu corpus foi constitudo por uns poucos artigos de

    pesquisa e textos transcritos de apresentaes orais de trabalhos cientficos em congressos.Em que pese a pequena dimenso de textos sob exame, conforme explica o autor, recuperando

    princpios do modelo de Biber, a qualidade da seleo do corpus o fator mais preponderantenesse tipo de enfoque, em detrimento da quantidade.

    Como nosso objeto para explorao do tema da CT justamente o artigo de Pediatriaem escrito portugus, utilizaremos esse trabalho de Shergue como um exemplo ilustrativo dasmetodologias e princpios da AMD.

    Conforme seu autor, o trabalho procurou,

    partindo da co-ocorrncia de variveis, buscar funes comunicativas subjacentementecompartilhadas nos corpora que, marcando o uso sistemtico dessas caractersticas, podem

    determinar onde gneros podem ser distribudos em um espao oral/escrito de variaocontnua, ao invs de simples similaridades e diferenas.(SHERGUE, 2003, p.6)

    Passos da AMD no trabalho de Shergue

    Antes de mais nada, conforme praxe na AMD, o que o autor fez foi revisar a bibliografia que tratou dos tipos de texto em questo para nela colher indicativos decaractersticas lingsticas para compor as variveis de estudo.

    A partir de um conjunto de caractersticas lingusticas, foram a elas vinculadasalgumas funes conforme exemplificado do quadro 1 a seguir. importante notar que a co-relao caracterstica-funo ilustrada est associada a indicaes da bibliografia e que no

    h, nelas, um recorte entre o que seria do texto oral ou do escrito.CARACTERSTICA LINGSTICA FUNES

    Conjuno coordenada Conexo entre oraes, fragmentar o texto (Pacheco, 1997: 95)

    Conjuno subordinada Conexo entre oraes, complexidade estrutural (Pacheco, 1997: 95)

    Pronomes pessoais de 1a. e 2a. pessoas Interao e envolvimento (Biber, 1988:225)

    Salvaguardas marcar incerteza do autor ou apresentar o contedo de forma maisgeneralizada, distanciamento (Chafe e Danielewicz, 1986 em Biber,1988:106, 240; Salager-Meyer (1994:154)

    Passiva Distanciamento e abstrao (Biber, 1988:228)

    Looke See Interao com o ouvinte em chamadas de ateno para o tpico que estsendo apresentado (Serafini & Shergue, 2002)

    Densidade e nominalizaes Organizar o texto no em funo de ns mesmos mas em funo de idias,razes, causas, distanciamentos (Eggins, 1994:59)

    Quadro 1 Caractersticas lingsticas e funes. Fonte: Adaptado de Shergue, 2003, p. 13

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    8/23

    No que se refere definio do que seja uma dimenso, vale reproduzir a indicao

    do autor, citando Berber Sardinha (2000, p.106): Dimenso o status que um fator assumeassim que ele interpretado do ponto de vista da sua funo comunicativa. Para ficar maisclaro, preciso compreender que um fator um conjunto de caractersticas lingusticas, taiscomo as elencadas no quadro 1, de modo que elas, as dimenses, no so um ponto de

    partida, mas um ponto de chegada da observao. Essas noes devem ficar mais claras parao leitor deste texto mais adiante.

    Na Figura 1 a seguir, vemos trs dimenses, que so correlaes, entre a maior oumenor presena de algumas caractersticas lingusticas e um dado grupo de textos. Ascaractersticas (no caso, uso de passivas, pronomes, verbos no passado, nominalizaes,contraes) so agrupadas de modos diferentes e graduadas para os textos em foco. Essestextos so um artigo cientfico, uma discusso sobre um pster, uma conversa e um texto defico.

    Figura 1- Reproduo de ilustrao de dimenso de Shergue, citando Biber.

    Esses agrupamentos, que so as dimenses, so vistos como um conjunto decaractersticas lingsticas que co-ocorrem em um texto porque operam juntas para marcaralguma funo comum subjacente (BIBER, 1988, p. 55, apud SHERGUE, grifos deste).Essa alguma funo subjacente ser depreendida pelo analista considerando-se a combinaoentre a situao comunicativa e as funes (gramaticais e semntico-pragmticas) doselementos lingusticos levantados. Neste ponto da operao, salienta-se que a combinaoentre uma caracterstica X e uma Y (como, por exemplo, a caracterstica pronomes e acaracterstica verbos no passado,que fazem a dimenso Cda Figura 1) no aleatria, mas,sim, estatisticamente depreendida.

    Para no estender demasiadamente esta parte dedicada a sintetizar o trabalho-exemplocom uso da AMD, passa-se agora a uma apresentao esquemtica dos seus passos, dasdimenses e das caractersticas identificadas para os artigos de Medicina. Os passosmetodolgicos do trabalho de Shergue (op.cit) foram os seguintes:

    Primeiro passo: a) construo de corpus de modo que seja representativo em relao ao quese pretende observar ( no caso, h uma distino entre textos orais, artigos, e textos orais, asapresentaes); b) etiquetagem do corpus;

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    9/23

    Segundo passo: reviso da bibliografia sobre caractersticas e funes dos textos do corpus.Essa reviso serve para definir as variveis presumidamente associadas aos textos;

    Terceiro passo: contagens de freqncia de ocorrncias das variveis em cada texto. Nestaatividade entram diversas ferramentas computacionais (observam-se freqncias em geral,

    clusters, e palavras-chave no sentido da LC);

    Quarto passo: normalizao das freqncias, objetivando um efeito de nivelamento daextenso irregular dos textos. Aps a normalizao, feita uma seleo e descarte, restando asvariveis finaisa serem submetidas anlise fatorial na prxima fase;

    Quinto passo: anlise microscpica e anlise macroscpica. A anlise macro chega nasdimenses globais da variao lingstica das variedades de elementos do corpus (tal comoescrito vs. oral ou outra difereciao que se utilize, como, por exemplo, artigo de Pediatria etexto de jornal popular). Na parte micro, temos a identificaodas funes comunicativas dascaractersticas lingsticas individuais;

    Sexto passo: anlise fatorial. utilizado o pacote SPSS, programa de computador que fazuma srie de testes estatsticos, clculo de fatores, ndices estatsticos de significncia, mdia,desvio padro, etc. Aqui diferentes caractersticas so correlacionadas em grupos. O grupo denominado fator, conforme se v no Quadro 2 a seguir. importante salientar que asvariveis tm pesos positivos e negativos.

    Quadro 2 Pesos e funes de variveis agrupados em um fator.

    Stimo passo: identificao e denominao de dimenses. Nesse momento, unem-se as

    funes e correlaes acima identificadas e depreendida uma globalidade. Isso o queilustra o Quadro 3 a seguir. No trabalho de Shergue, foram identificadas apenas duasdimenses.

    Quadro 3 Dimenso 1 - Interao acadmica vs Distanciamento e abstrao.

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    10/23

    Conforme explica o autor,

    A Dimenso 1, rotulada comoInterao Acadmica versus Distanciamento e Abstrao,representa, deum lado, o discurso acadmico oral com propsito interacional e envolvimento pessoal e, de outro lado, odiscurso escrito de contedo formal e abstrato, marcado pela apassivizao, pelos processos desalvaguardas, pela preciso numrica e densidade de contedo, promovendo o distanciamento entre oautor e o leitor.

    Uma segunda dimenso identificada no trabalho de Shergue,denominadaDimenso 2 Nominalizao Tcnica Especfica versus Informalidade Textual Acadmica, incorporou ,em diferentes nveis de variao nos mesmos textos, as funes comunicativas que promovemadensamento de contedos com nominalizao especfica e um certo grau de informalismo.

    Finalizando esta seo, dedicada AMD e ao seu modus operandi, aqui colocado emtermos de passos, resta ainda dizer que muitas das caractersticas correlacionadas poderiamser associadas a nveis ou a um dado nvel de complexidade textual o adensamento decontedos via nominalizaes seria apenas um dos exemplos dessa condio. A complexidade

    do texto poderia, assim, corresponder a uma dimenso, isto , a um dado grupo decaractersticas correlacionadas que operassem juntas para marcar alguma funo comum.De outro lado, importante registrar que no prprio trabalho de Biber (1988, p.10),

    quando ele coloca as bases da sua idia de dimenso, h, como exemplo, um trecho de umlivro cientfico e um trecho de uma conversa entre duas pessoas sobre gostarem ou no decerveja feita em casa. Ele mesmo aponta que, nesse exemplo, tem-se, entre outras, a dimensocomum vs. especializado. Conforme explica, medida que esses dois textos fossemladeados por textos de outros tipos, veramos que a dimenso em questo mostraria-secomo um continuum (tanto quanto as outras dimenses que traz para essa dupla de textos:interativo vs no-interativo e planejado vs no-planejado). Em cada dimenso, h diferenteselementos lingsticos relacionados que se graduam positiva e negativamente ao longo dos

    tipos de texto envolvidos.Feita essa caracterizao da AMD, passamos agora apresentao do sistema Coh-Metrix, que ser aqui tomado como um exemplo prototpico do enfoque da LCOMP.

    TERCEIRA PARTE - SOBRE OS SISTEMAS COH-METRIX EM LCOMP

    A Lingstica Computacional (LCOMP) ou Processamento da Linguagem Natural(PLN) a rea de conhecimento que explora as relaes entre Lingstica e Informtica,tornando possvel a construo de sistemas com capacidade de reconhecer e de produzirinformao apresentada em linguagem natural (LIMA; STRUBE, 2001). Seu objetivo ,

    assim, essencialmente aplicado, relacionado produo de um sistema concreto.Conforme Vieira e Lopes (2010), desde o surgimento das tcnicas de PLN, muitosavanos foram obtidos, mas a compreenso plena de linguagem natural por mtodoscomputacionais est ainda longe de ser resolvida. Ainda assim, o tratamento computacionalda lngua um campo muito promissor11.

    Nascido do PLN, o sistema Coh-Metrix, que significa cohesion metrics, umaferramenta para anlise de textos em ingls, disponvel gratuitamente on-line. Elaborada por

    pesquisadores da Universidade de Memphis, nos Estados Unidos (GRAESSER;McNAMARA; LOUWERSE; CAI, 2004), tem como propsito calcular ndices de coeso e

    11 Um marco recente e concreto dessas promessas de desenvolvimento o computador WATSON, da IBM. Em

    fevereiro de 2011, foi apresentado, com sucesso, em uma competio de perguntas e respostas de um programade TV norte-americano. WATSON enfrentou humanos e foi capaz de reconhecer perguntas feitas oralmente e de

    produzir linguagem oral com padro de naturalidade para as respostas que dava. O computador venceu oshumanos na disputa. H vdeos a respeito no YouTube.

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    11/23

    de coerncia textual num amplo espectro de medidas lexicais, sintticas, semnticas ereferenciais com o fim de indicar a adequao de um texto a seu pblico-alvo (a demandacognitiva e a legibilidade do texto). Tambm tem a funo de apontar dados para identificar

    problemas textuais de ordem estrutural.At o momento, mais de 500 mtricas esto disponveis um uma verso restrita do

    Coh-Metrix. Dessas 500, apenas 60 esto disponveis na verso gratuita on-line no site do

    projeto. Para todas essas avaliaes (chamadas de mtricas na terminologia de LingsticaComputacional) vrios recursos e ferramentas de Processamento de Linguagem Natural soutilizados. A verso livre Coh-Metrix 2.012 opera com ndices que vo desde mtricas simples(como contagem de palavras) at medidas mais complexas, envolvendo algoritmos deresoluo anafrica. Os 60 ndices esto divididos em seis blocos que avaliam acomplexidade de um texto a partir da mensurao dos seguintes elementos:

    1) Identificao Geral e Informao de Referncia, ndices de Inteligibilidade,Palavras Gerais e Informao do Texto, ndices Sintticos, ndices Referenciais e Semnticose Dimenses do Modelo de Situaes. Essa primeira classe corresponde s informaes quereferenciam o texto, como ttulo, gnero entre outros;

    2) ndices de inteligibilidade calculados com as frmulas Flesch Reading Ease eFlesch Kincaid Grade Level. Essas frmulas consideram tamanho de sentena, nmero depalavras por sentena e nmero de palavras diferentes por sentena;

    3) Verificao de quatro subclasses: Contagens Bsicas, Freqncias, Concretude,Hipernimos;

    4) Verificao de cinco subclasses: Constituintes, Pronomes, Tipos e Tokens,Conectivos, Operadores Lgicos e Similaridade sinttica de sentenas;

    5) Verificao de trs subclasses: Anfora, Co-referncia e Anlise Semntica Latente;

    6) Verificao de quatro subclasses: Dimenso Causal, Dimenso Intencional,Dimenso Temporal e Dimenso Espacial.

    Em sntese, trata-se de uma ferramenta que calcula ndices que avaliam a coeso, acoerncia e a dificuldade de compreenso de um texto em diferentes nveis. Esses nveisincluem os nveis lexical, sinttico, discursivo e um nvel denominado conceitual,observando-se fatores tais como nmero de sentenas, nmero de palavras por sentena, co-

    referncias, anforas, presena de conectores e de itens com ambigidade semntica e nmerode pronomes por sintagma.

    A partir do Coh-Metrix em ingls, uma iniciativa de adaptao para o portugus brasileiro das sessenta mtricas oferecidas gratuitamente surgiu no mbito do ProjetoPorSimples13, cujo objetivo era o de identificar ndices de complexidade textual parasimplificao de textos e facilitao do acesso informao a analfabetos funcionais e

    12() 13 O projeto PorSimples (http://caravelas.icmc.usp.br/wiki/index.php/Principal) iniciou em novembro de 2007. Tem apoio da FAPESP(Fundao de Amparo Pesquisa de So Paulo) e da MSR (Microsoft Research). Prope o desenvolvimento de uma tecnologia parafacilitar o acesso informao dos analfabetos funcionais (AF) e, potencialmente, de pessoas com outras deficincias cognitivas, como

    afasia e dislexia. Essa tecnologia est oferecida em dois sistemas destinados a pblicos alvos diferentes: a) um sistema de autoria para ajudarredatores a produzir textos simplificados destinados aos AFs, textos estes que sero validados pelos redatores e b) um sistema facilitador

    para ajudar AFs a lerem um dado contedo da Web. Este ltimo inclui tarefas de sumarizao textual e simplificao sinttica (sistemaFACILITA) e elaborao lxica, apresentao do texto salientando as relaes retricas entre as idias do texto, explicitao das EntidadesMencionadas e dos argumentos dos verbos (sistema FACILITA EDUCATIVO).

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    12/23

    pessoas com deficincias cognitivas. O nome da ferramenta correspondente em portugus Coh-Metrix-Port e est disponvel nosite do PorSimples. Esse sistema foi desenvolvido pelo

    NILC (Ncleo Interinstitucional de Lingstica Computacional da USP). Para mais detalhessobre o NILC, veja-se Nunes, Alusio e Pardo (2010).

    importante ressaltar que, at o momento, apenas 35 das 60 mtricas originais doCoh-Metrix foram adaptadas para o portugus do Brasil. Para que se tenha uma idia dos

    tipos de mtrica, medidas ou ndices em questo, reproduzimos a seguir, nas Figuras 2 e 3,respectivamente, uma amostra das mtricas para o ingls e uma parte da tela de sada deanlise para o portugus.

    Figura 2 Mtricas do Coh-Metrix para o ingls (amostra).

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    13/23

    Figura 3 Sada do Coh-Metrix para o portugus Texto: Constituio do Brasil -Ttulo II: Dos direitos e deveres individuais - Captulo I.

    Um item de destaque, nesse sistema de medidas, o ndice Flesch14. uma dasdiferentes medidas de complexidade do texto associada sua inteligibilidade para diferentestipos de leitores. O resultado um nmero de 0 a 100 que assim mensurado (com a devidaadaptao para o sistema escolar brasileiro feita pela equipe PorSimples):

    muito fceis ndice entre 75 - 100, textos adequados para leitores com nvel deescolaridade at a quarta srie do ensino fundamental

    fceis ndice entre 50 - 75, textos adequados a alunos com escolaridade at a oitavasrie do ensino fundamental difceis ndice entre 25 - 50, textos adequados para alunos cursando o ensino mdio ou

    universitrio muitos difceis ndice entre 0 - 25, textos adequados apenas para reas acadmicas

    especficasO segmento de texto examinado na Figura 3, trecho da Constituio do Brasil, teve

    ndice Flesch de 24,17. Isso o coloca como um texto extremamente difcil. Naturalmente, essa apenas uma das mais de trinta mtricas oferecidas, tendo sido ilustrada apenas a partedenominada Contagens Bsicas. Para mais detalhes sobre o sistema Coh-Metrix-Port,

    14O nomeFlesch deve-se a Rudolf Flesch (1911-1986). Esse autor foi um especialista em avaliaes de ndices de inteligibilidade de textose defensor da idia de se usar um plain English (ingls simplificado) em determinada situaes de ensino/formao. Criou o Flesch ReadingEase Test e foi co-criador do Flesch-Kincaid Teste de Legibilidade .

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    14/23

    recomendamos a leitura do manual produzido por Almeida e Aluisio (2009).Como se pode perceber, no mbito da LCOMP, a observao do texto est muito mais

    associada a medidas de complexidade, relativamente dispersas, de um modo diferente do quej vimos na AMD.

    Tal como antes citado, possvel imaginar que o ndice Flesh pudesse ser aproveitadopela AMD, assim como a maior inter-relao de caractersticas da AMD poderia ser

    aproveitada pelo sistema Coh-Metrix. Note-se, por exemplo, que o sistema Coh-Metrix para oportugus no contempla a presena de voz passiva, tampouco associa funes ou atribuipesos diferenciados por tipo ou gnero do texto avaliados automaticamente. Outros aspectosque poderiam ser apontados como peculiares e at intrigantes, por exemplo, seriam a maiorou menor presena de adjetivos ou de advrbios, que integra o segmento Contagens Bsicasno Coh-Metrix. Esses tipos de elementos, a adjetivao e a modalizao adverbial15, que papelteriam em um texto especializado? A maior diferena, naturalmente, entre AMD e Coh-Metrix tambm reside no processamento de um s texto por vez.

    Vejamos agora o que a ferramenta Coh-Metrix mostra sobre a complexidade de umartigo de Pediatria coletado na revista brasileira Jornal de Pediatria

    Observando um artigo cientfico de Pediatria

    A seguir est um conjunto de figuras (Figura 4 at Figura 7) com algumas dasavaliaes do sistema Coh-Metrix-Port para um texto de Pediatria intitulado Seguimentonutricional de pacientes com fibrose cstica: papel do aconselhamento nutricional, publicadona revista Jornal de Pediatria em 2004 (ADDE, RODRIGUES, CARDOSO, 2004). Nosero apresentados todas as medidas, tampouco feitos maiores comentrios, visto que osdados parecem auto-explicativos em funo do que foi exposto na seo anterior.

    Figura 4 Coh-Metrix- Port para um artigo de Pediatria - parte 1.15 Um estudo exploratrio sobre adjetivos e advrbios em Qumica e Medicina foi feito por Finatto e Huang(2005).

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    15/23

    Figura 5 - Coh-Metrix- Port para um artigo de Pediatria - parte 2.

    Figura 6 Coh-Metrix- Port para um artigo de Pediatria - parte 3.

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    16/23

    Figura 7 - Coh-Metrix- Port para um artigo de Pediatria - parte 4

    Como possvel notar pelo o que est nas figuras, o sistema funciona perfeitamentebem tambm para um texto Pediatria, com o diferencial de nos revelar que seu ndice Flesch

    fica em 25,66. O texto em questo um artigo original do qual se extrai apenas o corpo dotexto, incluindo apenas a seo de Agradecimentos. Esse escore Flesch o situa na categoriados textos difceis, categoria que fica entre as medidas 25 - 50, sinalizando-se, assim, umtexto adequado para alunos cursando o ensino mdio ou universitrio. Para que essaargumentao no carea da evidncia, veja-se abaixo o primeiro trecho da introduo dotodo do texto submetido ao Coh-Metrix Port:

    A fibrose cstica (FC) uma desordem autossmica recessiva que afeta vrios sistemas docorpo humano, em especial o trato respiratrio. A importncia do estado nutricional paraaumento da sobrevida e bem-estar dos pacientes com FC bem documentada na literatura (2).

    No entanto, a desnutrio continua sendo um srio problema em pacientes com FC. NosEstados Unidos, o peso e a estatura de cerca de 20% das crianas e adolescentes com FC esto

    abaixo do percentil 5 (3). Dados a respeito da populao com fibrose cstica no Reino Unido(UK) tambm mostram dficits de peso e estatura, principalmente na faixa etria entre 1 e 10anos de idade, embora tenha havido uma melhora no estado nutricional desses pacientes comrelao s dcadas anteriores (4). A magnitude desse problema pode ser ainda pior em pasessubdesenvolvidos, pois pode haver uma sobreposio de desnutrio primria e secundria na

    populao com FC. (ADDE et al., 2004)

    At esse ponto deste texto, o leitor que acompanha deve se perguntar o que h de novonessa medio para esse tipo de texto, visto que, em tese, e pela situao comunicativa posta,h uma harmonia, tambm em tese, entre tipo de leitor e tipo de texto. Parece algo bvio.

    Entretanto, no to bvia a condio do texto, tampouco o fato de tal consideraoter sido gerada automaticamente e de estar acompanhada por toda uma srie de outras

    medidas. Pois , justamente, na expanso desse nico ponto-medida do sistema Coh-Metrix-Port que reside um potencial de entrelaamento muito novo com o modo de caracterizao degneros textuais da AMD. Haveria uma inter-relao ou co-relao entre a medida

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    17/23

    Pronomes por Sintagma e medidandice Flesch? Isso, essa co-relao, o sistema Coh-Metrixainda no mostra, enquanto correlaes so, justamente, um carro-chefe das dimenses deAMD.

    Um dilogo entre as duas metodologias e seus princpios parece ser necessrio para omtuo enriquecimento de ambas. Naturalmente, mesmo que nenhuma das partes possa estarinteressada nessa troca, do modo como desenhada aqui, pode o lingista que se ocupa do

    tema do texto cientfico, como um terceiro envolvido, unir essas duas pontas e utilizar oselementos de contato entre AMD e Coh-Metrix em prol de seus interesses de pesquisa.

    QUARTA PARTE - CONSIDERAES FINAIS

    Conforme h pouco referido, entremeando-se esses dois campos, a AMD e aLCOMP, representada aqui pelo sistema Coh-Metrix, pode situar-se a Terminologia e osestudos do texto tcnico-cientfico, associados como uma Lingstica do Texto Especializado.

    O texto de Pediatria, considerado especializado, pode, de certo modo, conforme se v

    na bibliografia de Terminologia de perspectiva textual, ser distinguido do no-especializadono que se refere a esquemas de contedo e ao uso ou no uso de terminologias (CIAPUSCIO,2003, p.71). Nos textos menos especializados, conforme a autora, as terminologias podem serreescritas ou parafraseadas, dada uma situao de popularizao para leigos ou semi-leigos.

    Entretanto, como fcil concluir, uma linguagem cientfica ou tcnica no se fazassim apenas em funo dos seus termos tcnicos (FINATTO, AZEREDO, 2010, p.560),que cada vez mais parecem figurar tambm na linguagem cotidiana. Por isso, um outro traode especificidade do texto cientfico, explorado por Ciapuscio em trabalho mais recente(CIAPUSCIO, 2005) tambm a presena de metaforizaes. Conforme a autora, asmetforas seriam un elemento extremamente interessante nos distintos estgios do continuumda comunicaco da cincia, desde a criao de conhecimentos no mbito mais especializado

    at sua divulgaco para o pblico leigo. Assim, ela prope tambm as metforas comoelementos que pontuam e constituem esse continuum que se desenha do mais ao menosespecializado (condio que pergunta-se aqui se poderia ser associada a um texto mais oumenos complexo).

    Considerando toda uma diversidade de fatores que poderiam ser evocados para indicar provveis condicionantes da CT em textos especializados de diferentes perfis e ascaractersticas dos gneros ou dos registros envolvidos, pela conjuno de referenciais vistosat aqui, parece ser possvel realizar um movimento de reavaliao sobre a complexidade detextos que tenham mais ou menos terminologias alm de outros elementos, naturalmente.

    Conforme vimos, a partir do modo de apresentao de esquemas de contedo e dasterminologias nos textos que tratam de temas cientficos, Ciapuscio props uma tipologizaomultinvel. Vale a pena relembrar os nveis:

    a) o nvel funcional do texto que trata da sua funo ou propsito; b) o nvel situacional associado aos interlocutores e tipo de comunicao

    envolvidos;c) o nvel de contedo semntico, que inclui modos de tratamento e de apresentao

    do tema; e,d) nvel formal-gramatical, que inclui aspectos gramaticais, lexicais e terminolgicos.

    Para chegar a uma categorizao dos textos, a autora indica a considerao desses

    quatro nveis simultaneamente. Esses planos, como parece fcil concluir, assemelham-se auma base que impregna a proposta da AMD, a qual defende a conjugao da dimensolingstica com a dimenso funcional do texto para que se possa tratar das variaes entre

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    18/23

    gneros ou registros.

    De outro lado, ao examinar um outputdo sistema Coh-Metrix, cujo resultado geradoem segundos, um lingista experimentar vrios questionamentos. Entres essesquestionamentos, vejamos alguns:

    O que significam tantos ndices ou mtricas postos lado a lado de uma nica

    vez? Ou melhor, o que se entende por complexidade do texto a partir dessesdiferentes escores? Por que esse sistema foi construdo desse modo? No que ele poderia ser

    melhorado? A complexidade do texto, entendida globalmente, pode ser considerada apenas

    como uma mdia dos diferentes fatores/mtricas? Que pesos diferentes poderiam ter diferentes medidas em diferentes situaes

    de texto? Que elementos desse sistema podem ser melhor aproveitados em um estudo de

    Lingstica Aplicada? Como se pode juntar 34 ou 54 mtricas em torno de alguma condio do texto,

    para alm do ndice de complexidade da medida Flesch?Essas perguntas, pontuais, somam-se, naturalmente, pergunta que abre este trabalho:

    haveria como avaliar em que medida textos cientficos do tipo artigo seriam mais ou menoscomplexos em relao a textos cientficos de outros perfis ou mesmo em relao a textos no-especializados? Ao que parece, a resposta sim, h como avaliar, mas preciso definir antes,algum parmetro ou uma srie deles em funo do objetivo que venha cumprir tal avaliao.Alm disso, pelo visto at agora, pelo menos no territrio da LCOMP e dos estudos deLeitura, j esto disponveis vrios recursos que poderiam nos ajudar na empreitada.

    Para terminar este texto, j demasiadamente longo, vejamos a seguir, o que o sistemaCoh-Metrix mostra a respeito de um pequeno texto extrado de um jornal popular, publicaoque dirigida a pblico de menor poder aquisitivo e que, em geral, tem tambm menor nvelde escolaridade ou letramento. O texto vem reproduzido antes da apresentao das medidasCoh-Metrix. A sada do sistema est exemplificada nas Figuras 8 e 9 a seguir:

    Por Adriana Franciosi Editoria Geral JornalDirio Gacho, 2008.Pacote do trnsito Rigor nas multasO ministro da Justia, Tarso Genro, anunciou ontem um pacote de medidas para tornar leis de trnsitomais rgidas. So 28 as alteraes, que agora precisam ser aprovadas pelo Congresso Nacional. Se asmudanasforemconfirmadas, a multa da infrao gravssima, dependendo do caso, poder passar de R$1,5 mil. Atualmente, o valor mais alto de R$ 572,40. Outra medida a reduo,pela metade, do nvel delcool tolerado no sangue. Dirigir embriagado passaria a ser crime, assim como ser flagrado duas

    vezesem um ano trafegandoem uma rodovia amais de 50km/hacima da velocidade permitida.MudanasMulta mais alta passa de R$ 572,40 para R$ 1,5 mil. Motoristas multados mais de duas vezes em ummesmo ano, por dirigirem com velocidade mais de 50% acima da permitida,respondero por crime.CarteiraA carteira de motorista vai ficar R$ 60 mais barata no Rio Grande do Sul. A reduo foi anunciada ontem

    pela governadora Yeda Crusius. O valor cai de R$ 805 para R$ 744. A diminuio se deve ao corte nastaxas cobradas pelo Detrane na reduo no preo dos servios oferecidos pelos centros de formao decondutores. A medida foi anunciada na vspera do aumento do preo da carteira, que devido ao reajusteanual da Unidade Padro Fiscal passaria para R$ 840.

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    19/23

    Figura 8 - Sada do Coh-Metrix-Port Contagens Bsicas, texto de jornal popular-parte 1.

    Figura 9 - Sada do Coh-Metrix-Port Contagens Bsicas, texto de jornal popular-parte 2.

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    20/23

    Como se pode perceber por esses resultados, pelo menos no que se refere ao ndice

    Flesch, temos um escore de 73.80, o que corresponde a um texto do tipo fcil, enquadrado noparmetro dos ndice entre 50 75. Isso d uma classificao de textos adequados a alunoscom escolaridade at a oitava srie do ensino fundamental.

    Tal como ocorreu com o texto de Pediatria, a classificao parece bem justa se

    considerar-se o perfil do jornal e de seu pblico-alvo. Mas, o que mais h alm disso? Sedetivermos nossa ateno na comparao entre o artigo cientfico de Pediatria e a notcia do jornal popular, veremos que a presena de pronomes parece ser um diferencial e que h aterminologia, naturalmente (que no constou dos excertos de quadros, mas aparecer na partedas contagens lexicais nominalizadas num caso e noutro, no).

    De outro lado, importa mencionar aqui tambm que h padres de texto associados ecultivados - no jornalismo, independentemente do carter popular. A escrita de jornal se

    pretende objetiva e sem repeties. A propsito, vale mencionar que um famoso jornalista16 jdisse que se a lngua fosse mais rica em substantivos e verbos, no precisaramos usar tantosadjetivos e advrbios em um bom texto de jornal. Segundo entende, essas palavras embaama exatido e fazem o texto parecer chumbo em lugar de cristal. Essa seria uma indicao sobre

    o papel de adjetivos e de advrbios na CT do jornal? De todo modo, contagens de adjetivos ede advrbios associadas a graus de intelegibilidade perfazem um padro nas mtricas do Coh-Metrix-Port.

    Assim, com 34 medidas diferentes associadas em torno de ndices de inteligibilidadede um texto, no h como no pensar em diferentes nveis ou dimenses das distintas evariadas complexidades mobilizadas. Nesse ponto, mais uma vez, a cooperao com a AMD eas tipologias multinveis de Ciapuscio (2003) parece ser um objetivo a ser seguido quando

    pensamos no texto cientfico em contraste com o texto do jornal popular. Por fim, cabe dizerque o propsito deste texto ser cumprido se o leitor que o seguiu at aqui tambm tiverexperimentado essas e outras suspeitas. De nossa parte, seguiremos em busca das inter-relaes mencionadas acima, tratando tanto de investigar tanto as j postas quanto as

    presumidas.

    BIBLIOGRAFIA

    ADDE, Fabola V.; RODRIGUES, Joaquim C.; CARDOSO, Ary L. Seguimento nutricionalde pacientes com fibrose cstica: papel do aconselhamento nutricional. J. Pediatr. (RioJ.), Porto Alegre, v. 80, n. 6, Dez. 2004, p.475-482.

    ALMEIDA, D.M de; ALUISIO, S.M. Manual de Uso do Coh-Metrix-Port 1.0. Agosto de2009. NILC-TR-09-05. Disponvel em: caravelas.icmc.usp.br/wiki/images/f/fc/NILC-TR-09-05.pdf

    AVERBUCK, L. M. ; APPEL, M. B. ; SILVEIRA, R. M. H. . Leitura: fatores que interferemna compreensao de textos no ensino de primeiro grau.. Leitura. Teoria & Prtica (Campinas),Campinas, v. 1, p. 26-39, 1983.

    BAKER, Eva L. ; ATWOOD, Nancy K.; DUFFY, Thomas M. Cognitive Approaches toAssessing the Readability. IN: DAVISON, Alice; GREEN, Georgia M. (eds.) Linguistic

    16 Otavio Frias Filho, no Antimanual de jornalismo. Folha de S.Paulo, 18.nov.1984. Caderno Folhetim, p. 7.Citado por Carlos Kaufmann (KAUFMANN, 2005)

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    21/23

    Complexity and text comprehension. Readability Issues Reconsidered. Hillsdale, Ney Jersey,London: Lawrence Erlbaum Associates, 1988.

    BERBER SARDINHA, Tony. (2000) Anlise multidimensional. DELTA, So Paulo, v. 16,n. 1, 2000.

    BERBER SARDINHA, Tony. (2004)Lingstica de corpus. Barueri: Manole.

    BIBER, Douglas (1988). Variation across Speech and Writing. Cambridge: CambridgeUniversity Press, 1988.

    BIBER, Douglas (1995).Dimensions of Register Variation A Cross-Linguistic Comparison.Cambridge: Cambridge University Press, 1995.

    CIAPUSCIO, Guiomar (1998). La terminologa desde el punto de vista textual: selecci,tratamiento y variacin. Organon, v.12, n.26, 1998. p.43-65.

    CIAPUSCIO, Guiomar (2003). Textos especializados y terminoolga.Barcelona: IULA, 2003.

    CIAPUSCIO, Guiomar (2005). Las metforas en la comunicacin de ciencia. In: HARVEY,Anamara (org.) En torno al discurso: Estudios y perspectivas. Santiago: UniversidadCatlica de Chile, 2005, p. 81-93.

    CHARROW, Veda. Readability Vs. Comprehensibility: a case study in Iproving a RealDocument. In: DAVISON, Alice; GREEN, Georgia M. (eds.)Linguistic Complexity and textcomprehension. Readability Issues Reconsidered. Hillsdale, Ney Jersey, London: LawrenceErlbaum Associates, 1988, p.85-114.

    DAVISON, Alice; GREEN, Georgia M. (eds.)Linguistic Complexity and text comprehension. Readability Issues Reconsidered. Hillsdale, Ney Jersey, London: Lawrence ErlbaumAssociates, 1988. 291p.

    FINATTO, M.J.B; AZEREDO, Susana de. Observaes da tessitura do texto especializadoso observaes de/em Terminologia? In: As Cincias do Lxico, Lexicologia, Lexicografia,Terminologia. Vol.IV. Campo Grande, MS: Editora da UFMS, Porto Alegre:Editora daUFRGS, 2010. p.557-578

    FINATTO, M. J. B.; HUANG, C. Da adjetivao em Qumica e Medicina: algumas

    implicaes para os estudos do lxico e de textos tcnico-cientficos. Revista Lngua &Literatura, Frederico Westphalen-RS, v. 6 e 7, n. 2004/2005, p. 45-56, 2005.

    FULGNCIO, Lcia, LIBERATO, Yara. Como facilitar a leitura: como se processa aleitura; orientao para textos didticos; aspectos discursivos. So Paulo: Contexto, 1992.

    GRAY, Willian.S,; LEARY, Bernice E. What makes a book readable? With specialreference to adults of limited reading ability an initial study. Chicago: The University ofChicago Press, 1935. S.

    GRAESSER, A.C., MCNAMARA, D.S., LOUWERSE, M., & CAI, Z. (2004). Coh-Metrix:

    Analysis of text on cohesion and language. Behavior Research Methods, Instruments, &Computers, 36, 193-202.

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    22/23

    KATO, Mary. Reconhecimento instantneo e processamento. In: Srie Estudos, 8, Uberaba,MG, 1982.

    KAUFMANN, Carlos. O corpus do jornal: variao lingstica, gneros e dimenses daimprensa diria escrita. So Paulo: LAEL/ PUCSP, 2005. Diss. Mestrado.

    LEFFA, V. J. Fatores da compreenso na leitura. Projeto ELO, Ensino de lnguas online:1996. Disponvel em: www.leffa.pro.br.

    LEFFA, V. J. O conceito de leitura. In: LEFFA, V. J. Aspectos da leitura. Porto Alegre:Sagra- Luzzato, 1996. p-9-24.

    KALVERKMPER, H. (1983) Textuelle Fachsprachen-Linguistik als Aufgabe. In:Zeitschrift fr Literaturwissenschaft und Linguistik, v. 51/52, n 13, p. 124-166.

    KLEIMAN, A. Aprendendo palavras, fazendo sentido: o ensino de vocabulrio nas primeirassries. In: Trabalhos em Lingstica Aplicada 9. Campinas, SP: Universidade Estadual de

    Campinas, 1987. p. 47-81.

    KLEIMAN, A.Leitura: Ensino e Pesquisa. Campinas, SP: Pontes, 1989.

    KLEIMAN, A. Oficina de Leitura teoria e prtica. Campinas, SP: Pontes, 1993.

    KLEIMAN, A. Texto e leitor: aspectos cognitivos da leitura. 5.ed. Campinas: Pontes, 1997.

    MACIEL, Anna Maria B. Linguagens Especializadas e Terminologia: o Passado Projetando oFuturo. In: PERNA, C.; DELGADO, H.K.; FINATTO, M.J.B. Linguagens especializadas emcorpora: modos de dizer e interfaces de pesquisa [recurso eletrnico]. Porto Alegre:EDIPUCRS, 2010. Modo de Acesso: < http://www.pucrs.br/edipucrs/>

    MEURER, J. L.; MOTA-ROTH, D.Gneros Textuais e Prticas Discursivas. Florianpolis:EDUSC, 2005.

    NEIS, Ignacio A. A competncia de leitura.Letras de Hoje, 15 (2), 1982, p.43-57.

    NUNES, M. G. V.; ALUSIO, S. M. ; PARDO, T. A. S., 2010. Um panorama do NcleoInterinstitucional de Lingustica Computacional s vsperas de sua maioridade.Linguamtica(Revista para o Processamento Automtico das Lnguas Ibricas) , v. 2, p. 13-27, 2010.

    SCARTON, C. E. ; ALUSIO, S. M. Anlise da Inteligibilidade de textos via ferramentas deProcessamento de Lngua Natural: adaptando as mtricas do Coh-Metrix para o Portugus.

    Linguamtica (Revista para o Processamento Automtico das Lnguas Ibricas) , v. 2, p.45-61, 2010.

    SHERGUE, Orlando. Dimenso de Variao no Discurso Mdico- Acadmico: o Artigo de Pesquisa e a Apresentao de Trabalhos Cientficos em Congressos. So Paulo: LAEL/PUCSP, 2003. Diss. Mestrado.

    SWALES, J.M. Genre analysis: English in academic and research settings. Cambridge:

    Cambridge University Press, 1990.

    VIANA, Vander; TAGNIN, Stella E. O. (orgs.). Corpora no ensino de lnguas estrangeiras.

    Keimelion - reviso de textos Confiana e pontualidade

    http://www.keimelion.com.br

  • 8/3/2019 COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS

    23/23

    So Paulo: HUB Editorial, 2010.

    VIEIRA, Renata; LIMA,Vera Lcia Strube. "JAIA/Lingustica Computacional: Princpios eaplicaes". In: MARTINS, Ana Teresa; BORGES, Dbio Leandro (eds.),As Tecnologias dainformao e a questo social: anais 2001, Fortaleza, CE, Brasil.

    VIEIRA, Renata; LOPES, Lucelene. Processamento de linguagem natural e o tratamentocomputacional de linguagens cientficas. In: PERNA, C.; DELGADO, H.K.; FINATTO,M.J.B. Linguagens especializadas em corpora: modos de dizer e interfaces de pesquisa[recurso eletrnico]. Porto Alegre: EDIPUCRS, 2010, p. 184-201. Modo de Acesso:

    ZILIO, L. (2009) Colocaes especializadas e Komposita: um estudo contrastivo alemo- portugus na rea de cardiologia. Porto Alegre: UFRGS. Dissertao de Mestrado. PPG-LETRAS/UFRGS.

    Keimelion - reviso de textos Confiana e pontualidade