Bem-vindo ao Blog Falares de Portugal! 

Welcome to Falares de Portugal! 

Willkommen bei Falares de Portugal!

Inscreva-se na Newsletter
Escreva o seu nome e endereço de e-mail:
Nome:          Email:
Subscrever  Cancelar 

quarta-feira, dezembro 07, 2005

Português Falado: Linguística de corpora, corpora do português

À língua falada durante muito tempo não foi dada grande importância no sentido científico. Uma das poucas evidências da observação da língua falada ao decorrer da história é o “Appendix probi”, uma lista normativa com o objectivo de corrigir o latin falado, documentando a forma oral ao lado da forma escrita. Nos anos ciquenta do século passado a língua inglesa (falada) foi a primeira a ser documentada num corpus linguístico (SEU – Survey of English Usage), seguido pelo Brown Corpus nos E.U.A., e o corpus do Français Fondamental. Para o português existe o Corpus de Referência do Português Contemporâneo (CRPC), com 201 milhões de palavras do discurso oral e escrito.
No entanto, só se pode falar da linguística de corpora a partir dos últimos dez anos, em que o armazenamento e processamento de dados se facilitou imenso devido à micro-informática.

Definição de corpus:

De modo geral um corpus é uma colecção de fala, estruturada de maneira a que se possa consultar a qualquer altura e indeterminadas vezes.
As possibilidades de constituir um corpus são várias. Para melhor estruturação destas possibilidades distinguimos dois parâmetros, ambos variando entre dois casos extremos:

  1. Fonte / produtor do texto:
    Esta pode variar entre uma única fonte e todas as fontes possíveis.
  2. Tipo de texto:
    Este pode variar entre uma única palavra e todos os tipos de textos, todos os comentários alguma vez produzidos, sejam eles escritos ou orais.

Problemática no trabalho empirico – linguístico:

  1. Meta-problemática
    Alguns linguistas consideram empiricamente irrelevantes quaisquer juízos sobre a própria língua (língua materna) e até sobre comunicação em geral. (Hoje em dia, no trabalho de campo, em entrevistas, já não se recorre tão frequentemente à elicitação (eliciting), ou seja, não se pergunta directamente ao entrevistado como é que ele diz isto ou aquilo, optando-se por deixar o informante falar livremente, tentando criar uma situação comunicativa o mais natural e perto da realidade possível)
  2. Problemática da representatividade
    Qual o número de falantes nativos necessário para ter um corpus representativo? Chegará um falante nativo? Será ele representativo? Quanto mais falantes, mais representativo será o corpus?
  3. Problemática do uso correcto da língua
    Alguns linguistas defendem a ideia de que não há uma instância que tenha a capacidade de corrigir um falante nativo. Isto significará que este está livre de fazer erros na própria língua (posição da gramática descritiva). No entanto, a linguística de corpora necessita de termos normativos.

Tipologia dos corpora:

  1. “one-man” corpus (Bloomfield 1987)
    Corpus com uma única fonte, cuja língua, além de não apresentar variedade, não é alterada minimamente e é vista como representativa.

  2. O “sample”-corpus (John Sinclair 1982)
    Corpus exemplar, formado entre um a vários anos, com um volume aproximado de um milhão de palavras. Apesar de ter várias fontes e uma extenção de textos, o texto contínuo limita-se a 2.000 palavras, o que diminui a represesentatividade das palavras menos frequentes.
  3. O “monitor”-corpus (John Sinclair 1982)
    Corpus que tenta incluir tudo alguma vez escrito ou publicado. Embora ainda não haja um corpus desta dimensão, ja existem corpora de tamanho bastante elevado, semelhante ao do sample-corpus, com um volume até 25.000 palavras, o que já e uma aproximação razoável ao ideal de um “monitor”-corpus. Ao contrário dos outros corpora, este não é um corpus fechado e concluído, mas sim aberto e não-terminado uma vez que o objectivo é juntar todas as futuras publicações à sua base.

Texto de Denis Kaminke (Protocolo do seminário "Português Falado", do dia 14.11.05. Para mais informações consultar seminário - 14.11.05 em portuguesfalado.com.sapo.pt)