Research

18 pages
154 views

UMA BREVE REVISÃO SOBRE SISTEMAS WEB COM BASE EM CORPUS NO PAR LINGUÍSTICO INGLÊS-PORTUGUÊS (A BRIEF REVIEW OF CORPUS-BASED WEB SYSTEMS IN THE ENGLISH- PORTUGUESE LANGUAGE PAIR)

of 18
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Share
Description
Com o advento da internet e dos constantes avanços tecnológicos, os corpora se tornaram essenciais no crescimento dos Estudos da Tradução Baseados em Corpus (ETBC), assim como no desenvolvimento de sistemas de informação e técnicas que fazem uso
Transcript
    SILVA. Uma breve revisão sobre sistemas web com base em corpus no par linguístico inglês-português.  Belas Infiéis , v. 6, n. 1, p. 25-42, 2017. 25 U MA BREVE REVISÃO SOBRE SISTEMAS WEB COM BASE EM CORPUS   NO PAR LINGUÍSTICO INGLÊS - PORTUGUÊS 1   2    A  BRIEF REVIEW OF CORPUS  -  BASED WEB SYSTEMS IN THE  E   NGLISH  -P ORTUGUESE LANGUAGE PAIR 3   Rossana DA CUNHA SILVA 4  Swansea University Resumo : Com o advento da internet e dos constantes avanços tecnológicos, os corpora  se tornaram essenciais no crescimento dos Estudos da Tradução Baseados em Corpus  (ETBC), assim como no desenvolvimento de sistemas de informação e técnicas que fazem uso destes. Este artigo apresenta uma breve revisão de sistemas web baseados em corpus  no par linguístico inglês-português, a partir de uma perspectiva de aplicação ao ensino, à pesquisa e à prática tradutória. Para tanto, buscamos proporcionar uma significação no âmbito tecnológico por meio de (i) uma breve contextualização teórica sobre o uso de corpora , (ii) as suas principais características e (iii) as aplicações mais conhecidas. Posteriormente, apresenta-se uma síntese das ferramentas web gratuitas: COMPARA (2000), CorTrad (2009), COPA-TRAD (2011), OPUS-CORPUS (2012) e VVV (2013). Em seguida, elencamos os usos e benefícios mais comuns de sistemas de compilação, análise, classificação e exploração de corpora . Por fim, a análise revela o momento vivenciado nos ETBC por meio de um resumo do aparato tecnológico existente na área. Desta maneira, almejamos que a presente discussão venha a proporcionar o desenvolvimento de pesquisas relacionadas aos sistemas baseados em corpus , haja vista a constante evolução tecnológica e a variedade de aplicações que podem se beneficiar do uso de corpora , seja no contexto prático ou profissional. Palavras-chave:  Tecnologia de tradução. Estudos da Tradução Baseados em Corpus. Corpora no ensino, pesquisa e prática tradutória.  Abstract:  With the advent of Internet and continuous technological advances, corpora have become essential in the growth of Corpus-Based Translation Studies (CTS), as well as in the development of information systems and techniques that make use of them. This paper presents a brief revision of corpus-based web systems in the  English-Portuguese language pair, from a perspective of application in translation teaching, research and  practice. To this end, we aim to provide a meaning in the technological scope through (i) a brief theoretical contextualization on the use of corpora, (ii) its key features and (iii) the best-known applications. Afterwards, a summary of the open-source web-based tools is presented: COMPARA (2000), CorTrad (2009), COPA-TRAD (2011), OPUS-CORPUS (2012) and VVV (2013). Next, we list the most common uses and benefits of systems for compiling, analyzing, classifying, and exploiting corpora. Finally, the analysis reveals the moment experienced by CTS through a synthesis of the technological apparatus in the area. To sum up, we aim to encourage the development of corpus-based systems research, due to the constant technological evolution and the variety of applications that can benefit from the use of corpora, either in the practical or professional context.  Keywords:  Translation Technology. Corpus-based Translation Studies. Corpora in translation teaching, research, and practice.      SILVA. Uma breve revisão sobre sistemas web com base em corpus no par linguístico inglês-português.  Belas Infiéis , v. 6, n. 1, p. 25-42, 2017. 26 1.   Introdução os Estudos da Tradução, Palumbo (2009, p. 26) destaca que os primeiros indícios dos estudos baseados em corpus 5  de tradução surgiram na década de 1980, quando corpora  foram utilizados pela primeira vez para descrever padrões encontrados em textos traduzidos em oposição aos textos srcinais. Laviosa (apud GAMBIER & DOORSLAER, 2010, p. 83) acrescenta que, mais precisamente em 1993, Mona Baker, em seu artigo intitulado “ Corpus linguistics and Translation Studies: Implications and applications ” (Linguística de corpus  e Estudos da Tradução: implicações e aplicações) 6 , percebeu a capacidade da linguística de corpus , sendo assim responsável por introduzir corpora  nos estudos de tradução. Desde então, os corpora  têm sido utilizados em pesquisas relacionadas aos estudos descritivos de tradução, na formação de tradutores, na avaliação da qualidade de tradução ( Translation Quality Assurance  –   TQA) e em conjunto com ferramentas CAT 7  (BAKER & SALDANHA, 2008, p. 59; LAVIOSA apud GAMBIER & DOORSLAER, 2010, p. 83). Os Estudos da Tradução Baseados em Corpus  (ETBC) aproveitaram os avanços tecnológicos em recursos computacionais, bem como ferramentas de desenvolvimento e sistemas informatizados. Baker (1995, p. 224) enfatizou como “ [c]orpora  computadorizados foram se tornando cada vez mais populares nas áreas da disciplina, que têm vínculos estreitos com as ciências exatas”  (minha tradução) 8 . Ademais, algumas das pesquisas realizadas no campo dos ETBC estão relacionadas com o estilo do tradutor, a ideologia da tradução, recursos de tradução, tradução forense, entre outros (WILLIAMS & CHESTERMAN, 2002). Devido aos mais diversos enfoques na área dos ETBC, este artigo busca apresentar uma breve versão sobre alguns dos sistemas web gratuitos mais utilizados no par linguístico inglês-português, com o objetivo de proporcionar uma significação no âmbito tecnológico do uso de corpora , bem como suas aplicações mais conhecidas. Ao elencarmos características sobre ferramentas da área dos ETBC, almejamos contribuir para o uso e a disseminação de pesquisas relacionadas aos sistemas de compilação e análise de corpora . Por esse motivo, dispõe-se primeiramente uma breve contextualização teórica; em seguida apresentam-se cinco dos sistemas web baseados em corpus  no par inglês-português: COMPARA (2000), CorTrad (COMET, 2009), COPA-TRAD (2011), OPUS-CORPUS (2012) e VVV (2013); depois, são elencados os usos mais comuns de corpora  nos Estudos da Tradução; e, por último, serão dispostas as conclusões e encaminhamentos futuros. N    SILVA. Uma breve revisão sobre sistemas web com base em corpus no par linguístico inglês-português.  Belas Infiéis , v. 6, n. 1, p. 25-42, 2017. 27 2.   Corpora  e suas tipologias: algumas distinções Diferentes tipologias estão presentes nos ETBC, porém, no escopo da presente pesquisa, considera-se a sugerida por Fernandes (2006), após estudos sobre a tipologia proposta por Baker (1995). Em seu artigo, Fernandes ressalta a necessidade de haver um propósito que norteie a criação de um corpus , elencando sete critérios que deverão ser levados em consideração. São eles: (i) o tipo de relação existente entre os textos (comparável ou paralelo); (ii) a área de estudo (linguística ou tradução); (iii) o domínio (geral ou restrito); (iv) o modo (escrito ou falado  –   atualmente temos também o multimodal); (v) a restrição temporal (diacrônico ou sincrônico); (vi) o número de línguas (monolíngue, bilíngue ou multilíngue); (vii) a direcionalidade (unidirecional, bidirecional ou multidirecional). Segundo Baker (1995, p. 234), um corpus  comparável consiste em duas coleções separadas de textos na mesma língua: um corpus  composto por textos srcinais na língua A e outro de traduções na mesma língua A (por exemplo, traduções srcinadas de uma determinada língua B ou C). O Translational English Corpus  (TEC) e o  British National Corpus  (BNC) são exemplos de corpora  comparáveis. Ainda segundo a autora (ibid.), o termo corpus  paralelo se refere a textos-fontes na língua A e suas versões traduzidas na língua B. São exemplos de corpora  paralelos: EUROPARL (  European Parliament Proceedings Parallel Corpus ), LDC (  Linguistic Data Consortium ), que disponibiliza um grande número de corpora  paralelos e, por último, ELRA (  European Language Resources Association ), dentre outros. Com relação à área de estudo, pode-se dividir os corpora  em projetados para o estudo da língua e desenvolvidos para a investigação de produtos e processos relacionados à tradução. Fernandes acrescenta que, embora os ETBC estejam mais preocupados com o segundo tipo, vários estudiosos utilizam os corpora  linguísticos na formação de tradutores, como forma de desenvolver a competência linguística de tradutores aprendizes. O domínio diferencia corpora  entre geral, que é compilado de maneira equilibrada com amostras da língua a partir de uma grande variedade de registros e gêneros (FERNANDES, 2006), entre eles o BNC e o Corpus of Contemporary American English  (COCA); e restrito, por exemplo: o  International Corpus of English  (ICE) e o TOEFL11 (  A Corpus of Non-Native English ). Em relação ao modo, temos os corpora  escritos, falados ou multimodais. Os multimodais possuem imagem, som, escrita (em legendas ou imagens) (FERNANDES, 2006), tais como:  Augmented Multi-party Interaction Corpus  (AIM), SmartKom Corpus  e  HuComTech Corpus .    SILVA. Uma breve revisão sobre sistemas web com base em corpus no par linguístico inglês-português.  Belas Infiéis , v. 6, n. 1, p. 25-42, 2017. 28 No que se refere à restrição temporal, segundo Atkins et al. (1992 apud FERNANDES, 2006, p. 93), um corpus  sincrônico tem como característica principal um ponto em particular como objeto de estudo, ou seja, um retrato do uso da língua durante um período de tempo limitado. Já o diacrônico leva em consideração o desenvolvimento histórico relacionado à investigação em andamento (exemplos:  Helsinki Dialect Corpus, Corpus of  English Dialogues, Lancaster-Oslo-Bergen corpus    –   LOB). Um corpus  multilíngue, de acordo com Baker (1995, p. 232), consiste em um “conjunto de dois ou mais corpora  monolíngues em diferentes línguas, construídos nas mesmas ou em diferentes instituições, e utilizando o mesmo critério de seleção de textos” 9 ; como exemplos, temos Oslo Multilingual Corpus  (dentro do  English-Norwegian Parallel Corpus    –   ENPC); e monolíngues: BNC, CorTec (Corpus Técnico Científico). Finalmente, podemos caracterizar os corpora  pela sua direcionalidade. Considera-se um corpus  unidirecional quando temos, por exemplo, textos srcinalmente escritos em uma língua A e suas respectivas traduções em uma língua B, sendo que isto ocorre apenas em uma direção, de A para B. O corpus  bidirecional possui textos srcinais na língua A e suas respectivas traduções na língua B, além de textos escritos srcinalmente na língua B e suas traduções na língua A. Por último, os corpora  multidirecionais ocorrem quando existem mais de duas línguas e suas traduções não estão centradas apenas na língua A, mas em todas as línguas presentes no corpus  (FERNANDES, 2006). 3.   Características, usos e benefícios de sistemas para análise de  corpora   As primeiras ferramentas que surgiram para análise de corpus  não foram criadas especificamente para a área dos ETBC, e sim destinadas a professores de línguas estrangeiras ou lexicógrafos. Segundo McNery & Hardie (2012), a primeira ferramenta criada para análise de corpus  foi construída por Roberto Busa em 1951. Os autores (ibid.) acrescentam que apesar de Busa não ter inventado o “concordanciador” (vide abaixo), ele mostrou que a “concordância poderia ser aplicada de forma rápida e efetiva em textos eletrônicos”  10  (MCNERY & HARDIE, 2012, p. 37). No geral, os sistemas de tradução já utilizam corpus  como recurso integrante, mas os sistemas e ferramentas para análise de corpora  exploram o uso de corpus  com maior enfoque e de modo mais analítico e, para isso, necessitam maior interação por parte do tradutor. Corpas-Pastor (2012, p. 77-76) destaca que o corpus  é um recurso linguístico que tem sido responsável pelo desenvolvimento de técnicas e ferramentas de tratamento (compilação,    SILVA. Uma breve revisão sobre sistemas web com base em corpus no par linguístico inglês-português.  Belas Infiéis , v. 6, n. 1, p. 25-42, 2017. 29 análise, classificação e exploração). À luz do exposto acima, consideramos neste artigo o termo “sistema de tradução baseados em corpus ” como sinônimo de “sistema de compilação e análise de corpus ” ou apenas “sistema de análise  de corpus ”, visto que se refere ao perfil dos sistemas apresentados na seção 3, pois englobam diversas funcionalidades, não apenas o uso, mas a compilação, análise, classificação e exploração de corpora . A maioria dessas ferramentas permite a manipulação e análise de corpora , apresentando informações úteis aos seus usuários. Conforme Kenny (2011, p. 3), uma das ferramentas mais conhecidas para o processamento de corpus  é o concordanciador, que possibilita aos usuários realizar uma pesquisa por todas as instâncias de uma determinada palavra ou frase dentro de um corpus . Alguns sistemas deste tipo possuem recursos auxiliares, como a apresentação de resultados da busca no formato KWIC 11 , com a exibição de uma palavra-chave em contexto; ou a criação e manipulação de listas de palavras (i.e., tipos/  types    –   palavras únicas que ocorrem em um corpus , junto com a indicação de frequência de ocorrência  –    token ) (KENNY, 2011; BOWKER & PEARSON, 2002). De acordo com as autoras (2002, p. 120), os concordanciadores bilíngues são usados em corpora  alinhados e permitem a pesquisa por um termo em determinado idioma, com a apresentação de todas as ocorrências de uma determinada palavra em contexto (com suas colocações), classificadas por ordem alfabética ou frequência. Concordamos com o fato de o uso das ferramentas de compilação e análise de corpus  terem se tornado populares aos interessados na área por proporcionarem acesso a informações, tal como a frequência de uma palavra em uma variedade de contextos, ou mesmo oferecendo a possibilidade de observar diferentes variáveis, como o uso de determinado registro, gênero etc., o que não poderia ser imaginado em textos impressos. O uso de corpora  pode oferecer diversas vantagens, mas isso não significa que deva ser considerado solução para qualquer tipo de problema. De qualquer forma, sabe-se que seu uso pode ser um recurso valioso e/ou complemento útil para outros tipos, como dicionários, textos impressos, peritos em determinados assuntos etc. (BOWKER & PEARSON, 2002). Uma observação feita por Tiedemann (2011, p. 27) está relacionada ao fato de a internet ter disponibilizado uma quantidade significativa de documentos com suas versões traduzidas, o que tornou possível a recuperação automática de corpora . O autor (ibid.) acrescenta que uma das formas conhecidas de se coletar informações da internet é chamada de web mining (mineração da web) e tem como exemplo de aplicação a arquitetura denominada STRAND ( Structural Translation Recognition Acquiring Natural Data ) 12 , desenvolvida por
Related Documents
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks
SAVE OUR EARTH

We need your sign to support Project to invent "SMART AND CONTROLLABLE REFLECTIVE BALLOONS" to cover the Sun and Save Our Earth.

More details...

Sign Now!

We are very appreciated for your Prompt Action!

x