No passado mês de novembro de 2024 foi noticiada a criação de um LLM (large language model) português, mais propriamente designado por Amália.
Não pretendo discutir a opção do governo português por esse investimento, muito embora tal pudesse ser pertinente, tendo em conta a aposta que o Estado e a FCT têm feito no financiamento de ambientes de investigação "não-académicos", algo que tem preocupado cientistas, dadas as consequências que tais opções poderão produzir na sustentação de uma ciência de base, não aplicada e não necessariamente aplicável. Porém, relativamente a esta relação ciência-indústria, Susana Peralta escreveu com muita precisão e discernimento no seu artigo de 22/11/2024.
Como linguista, interessa-me sobretudo discutir um argumento evocado por Luís Aguiar-Conraria a 21/11/2024 no Expresso: a ideia de que o ‘Amália’, ao centrar-se no Português de Portugal, constitui uma prova do falhanço do acordo ortográfico de 1990 (AO90) na unificação das várias variedades do Português. Curiosamente, a propósito de outro artigo desse mesmo semanário, reacendeu-se uma antiga discussão sobre o AO90 no jornal PÚBLICO durante o passado mês de dezembro.
Ora, como dever profissional, entendo valer a pena intervir com algumas considerações.
Comecemos por lembrar que a ortografia é uma convenção gráfica para o registo escrito de uma língua, não correspondendo sequer ao que podemos designar como a modalidade escrita da língua. Esta última é, de facto, complexa. Aproxima-se mais ou menos da oralidade consoante o ponto em que se localiza nesse famoso continuum tipológico de práticas textuais. Já a ortografia entra apenas como uma forma de notação de certas práticas textuais. Nenhum AO corresponde, por isso, à língua, tal como a notação musical ocidental não corresponde à música efetivamente criada.
Há vários exemplos de línguas distintas que partilham um mesmo AO. O Alemão, que assume variedades diferentes em vários países, sempre grafadas sob o mesmo AO. O mandarim e o japonês que partilham, em parte, o mesmo sistema logográfico de escrita, sendo línguas com caraterísticas gramaticais totalmente diferentes. Com o mesmo alfabeto latino encontramos ortografias que prezam mais a correspondência letra-som (ex.: em Português, ‘água’) e ortografias em que essa correspondência não é tão unívoca (ex.: em Francês, ‘eau’ em que várias letras grafam um só som).
Ainda assim, num aspeto críticos do AO90 terão razão: as línguas não se aproximam mais ou menos por partilharem um acordo ortográfico. E, por isso, voltemos agora ao argumento relativo ao Amália como prova do falhanço do AO90.
Não parece ser possível aceitar tal argumento, uma vez que um AO não tem influência direta na língua, na relação que, do ponto de vista linguístico, as variedades mantêm entre si, muito menos no processamento que dá origem aos respetivos LLMs. O argumento inverso também não seria viável: não teríamos mais material linguístico disponível para um LLM se o AO90 não existisse, uma vez que o processamento da linguagem natural não depende da ortografia, mas sim do conhecimento que o processador tem sobre o funcionamento das línguas nas suas modalidades oral e escrita e que lhe chega, antes de mais, pela Linguística.
Projetos como o Amália terão, pelo menos, uma vantagem: aumentam a visibilidade do Português como língua de ciência, o que certamente terá implicações positivas na defesa do caráter pluricêntrico deste idioma. Dadas as debilidades de Portugal em termos de Linguística Computacional, tais projetos não deixam de suscitar também algum entusiasmo ao pensarmos no retorno expectável não só para a própria, como para outras áreas de interface.
Um AO subentende certamente uma estratégia política. Nesse ponto, o AO90 pode ter falhado. Porém, de mais não se trata do que uma convenção estabelecida para o registo gráfico de uma língua. Pelo contrário, o investimento e a valorização das línguas dá-se quando lhes entregamos mais força, lhes proporcionamos mais falantes e contextos de comunicação. Quando descrevemos a sua estrutura gramatical, funcionamento e usos. À entrada em 2025, seria insensato ignorar que um LLM é uma forma de visibilidade e reconhecimento linguístico. As e os linguistas não deverão, por isso, escusar-se de reivindicar uma palavra neste tipo de ferramentas, uma vez que a explicação da linguagem humana e das línguas naturais é, afinal, a definição do nosso trabalho.