A importância dos dados para uma Inteligência Artificial não discriminatória
A IA pode fornecer resultados discriminatórios? A resposta é sim, mas a responsabilidade por esse facto não é do algoritmo de IA em exclusivo, mas principalmente dos dados com que foi treinado.
Atualmente, algumas das principais questões sobre o tema da Inteligência Artificial (IA) estão relacionadas com o que está na base da sua conceção, ou seja, qual o seu modelo e como o mesmo é aplicado? O que está nos bastidores do ChatGPT, do Dall-E, do Bard, ou dos algoritmos de recomendação? É possível os resultados dos algoritmos de IA serem tendenciosos ou, de forma mais generalizada, até indutores/perpetuadores de discriminações (ex. etárias, deficiências, culturais ou sexistas)? Convicto de que são questões legítimas, as mesmas merecem uma resposta exaustiva, sobretudo no que toca à clarificação dos mecanismos básicos do funcionamento da Inteligência Artificial.
A verdade é que, ao longo do último ano, assistimos ao crescimento exponencial da utilização de ferramentas como o ChatGPT ou o Midjourney, que fizeram com que todos – até mesmo aqueles familiares que nos pedem ajuda para alterar o toque do telemóvel – experimentassem as potencialidades e oportunidades da IA. Trata-se de um verdadeiro fenómeno que está a impulsionar o forte investimento nesta tecnologia: dados da consultora IDC revelam que, só em Portugal, até final de 2025, o investimento em IA pode ascender aos 500 milhões de euros.
Falamos assim de um verdadeiro impulsionador para a transformação dos negócios de qualquer dimensão ou setor, através de uma tecnologia que tem, na sua origem, os dados. Sabemos que, para funcionarem, os algoritmos de IA precisam de um grande conjunto de dados para aprenderem a realizar tarefas específicas. Estas tarefas podem dizer respeito, por exemplo, ao reconhecimento de imagens ou à produção de texto. Através de dados de treino, a IA aprende a distinguir um gato de um cão, a escrever uma mensagem de correio eletrónico ou uma receita. Estes dados podem ser de diferentes tipos: estruturados, por exemplo, a partir de um ficheiro Excel, em que cada campo tem um objetivo definido, ou não estruturados, por exemplo, imagens, texto, vídeo ou áudio, que não seguem uma estrutura clara ou não têm uma definição inequívoca.
Adicionalmente, as páginas Web também podem ser uma fonte de dados de treino e podem ser particularmente úteis para algoritmos de Processamento de Linguagem Natural (NLP - Natural Language Processing), ou seja, aqueles que são capazes de compreender e gerar texto sob a forma de linguagem natural. Esta categoria inclui, por exemplo, grandes modelos de linguagem (LLM), como o ChatGPT da OpenAI, o Bard da Google e o Watsonx da IBM. Mas, embora treinar os LLM com dados retirados de websites seja uma prática bastante generalizada, ultimamente plataformas como o Reddit, X, Stack Overflow, estão a aumentar os custos de acesso ao seu conteúdo, enquanto sites de notícias como o New York Times estão a ameaçar levar a OpenAI a tribunal por utilizar o seu conteúdo para treinar o ChatGPT.
Esta informação (dados) é a matéria-prima a partir da qual o software de IA pode funcionar e, como qualquer matéria-prima, estes dados têm de ter um custo para aqueles que os utilizam, nomeadamente para gerarem receitas próprias. Precisamente por esta razão, é possível que, no futuro, cada vez mais plataformas explorem em seu proveito o modelo de negócio de fornecimento de dados, mediante o pagamento de uma taxa àqueles que os utilizam para treinar os seus modelos de Inteligência Artificial.
Neste sentido, há uma última, mas não menos relevante, questão que se coloca: é possível que a Inteligência Artificial forneça resultados discriminatórios? A resposta é sim, mas a responsabilidade por esse facto não é do algoritmo de IA em exclusivo, mas principalmente dos dados com que foi treinado.
E são precisamente os dados de treino que permitem a indução de preconceitos discriminatórios, por dois motivos: em primeiro lugar, porque refletem dados reais da sociedade, que infelizmente são em alguma medida discriminatórios, e esse facto tem repercussões na informação que o algoritmo gera; em segundo lugar, pode acontecer que a equipa que desenvolve um sistema de inteligência artificial selecione dados desequilibrados, incompletos e não inclusivos, o que afetará o resultado do algoritmo, que se baseará sempre nessa informação tendenciosa.
São questões muito sensíveis em torno das quais se desenvolvem também as primeiras tentativas de regulamentação para favorecer os sistemas de IA que respeitam os valores democráticos e as leis em vigor, como é, por exemplo, a AI Act aprovada em junho passado pelo Parlamento Europeu. Mas a regulamentação, embora importante quando sustentada e clara, é apenas uma peça do puzzle. Será prioritário desenvolver um debate ético sobre estas questões, envolvendo os atores públicos e privados que contribuem para o futuro da inteligência artificial. Paralelamente, será também crucial fornecer as ferramentas para que as pessoas se consciencializem da forma como os algoritmos de IA funcionam e das oportunidades que oferecem.
Estamos a viver uma fase histórica que será recordada como fundamental para aquilo que será o futuro da Inteligência Artificial, e só através da consciencialização, do debate e do empenho de todos os atores envolvidos conseguiremos desenvolver sistemas de IA justos e que não produzam resultados discriminatórios.
O autor escreve segundo o novo acordo ortográfico