Investigadores criaram algoritmo que inventa notícias. Agora, dizem ter medo de o divulgar
Um sistema de inteligência artificial financiado por Elon Musk é capaz de escrever textos com factos forjados e citações inventadas. Há quem diga que é só marketing.
"'O roubo deste material nuclear vai ter consequências negativas significativas na saúde pública, no ambiente, na força de trabalho, e na economia da nossa nação', disse Tom Hicks, o Secretário da Energia nos EUA, numa declaração."
A verdade faz-nos mais fortes
Das guerras aos desastres ambientais, da economia às ameaças epidémicas, quando os dias são de incerteza, o jornalismo do Público torna-se o porto de abrigo para os portugueses que querem pensar melhor. Juntos vemos melhor. Dê força à informação responsável que o ajuda entender o mundo, a pensar e decidir.
"'O roubo deste material nuclear vai ter consequências negativas significativas na saúde pública, no ambiente, na força de trabalho, e na economia da nossa nação', disse Tom Hicks, o Secretário da Energia nos EUA, numa declaração."
A citação acima foi criada pelos algoritmos do grupo de investigação OpenAI. Só que é completamente falsa: não houve roubo de material nuclear nos EUA, o actual Secretário da Energia do país é Rick Perry, e Tom Hicks não é sequer um político. Na realidade, é um magnata norte-americano conhecido por investir em equipas de desporto (a certa altura foi dono de 50% das acções do clube de futebol inglês Liverpool). O texto inventado junta vários pedaços de informação de uma enorme base de dados.
Os algoritmos programados para escrever textos sozinhos fizeram um trabalho tão bom que os investigadores não querem revelar detalhes sobre o modelo que usaram. A equipa diz que teme a proliferação de “uso malicioso” da tecnologia, capaz de forjar factos e fabricar citações.
O grupo OpenAI é apoiado por Elon Musk (fundador do PayPal e da Tesla), e Peter Thiel (um investidor e outro dos fundadores do PayPal). Inicialmente, o objectivo era apenas descobrir se os algoritmos podiam ser programados para escrever sobre qualquer tema se fossem treinados com uma base de dados suficientemente grande.
Queriam criar algoritmos capazes de escrever num formato zero-shot learning (aprendizagem do zero, em português). Acontece quando um algoritmo aprende uma tarefa (neste caso, notícias sobre roubos de material nuclear), sem exemplos específicos.
Agora dizem recear que o modelo, a que chamam GPT-2, seja usado para criar e partilhar notícias falsas, em vez de ficção. É o motivo de não divulgarem o código informático usado para treinar os algoritmos. Em vez disso, lançaram apenas um modelo simplificado para outros utilizadores experimentarem e um relatório. “Devido a receios sobre modelos de linguagem grandes serem usados para gerar conteúdo enganador, enviesado ou abusivo a uma grande escala, apenas estamos a publicar uma versão muito mais pequena do GPT-2”, justificaram.
“Vemos estes modelos a serem usados para fins maliciosos, como, por exemplo, algoritmos a gerar artigos de notícias enganosos, algoritmos a fazerem-se passar por outras pessoas online, algoritmos a produzirem conteúdo abusivo e falso para publicar nas redes sociais”, afirmou a equipa da OpenAI, num comunicado. "Quando sugerimos frases sobre tópicos muito representados na base de dados (Brexit, Miley Cyrus, Senhor dos Anéis, entre outros), ele conseguiu gerar amostrar razoáveis cerca de 50% das vezes."
Em todo o mundo, já há políticos e governos a usar programas informáticos para espalhar mensagens na Internet e silenciar vozes críticas com ataques pessoais ("trolling patriótico" é o nome dado ao fenómeno).
Estratégia de marketing?
Nas redes sociais, no entanto, há investigadores que questionam se é tudo uma estratégia de marketing. “A Open AI está a manter o seu modelo de linguagem automática um segredo para o bem da humanidade? Tretas do marketing ou elitismo mal orientado?”, questionou Ben Goertzel, que é o principal cientista da Hanson Robotics (a empresa que criou a robô Sophia), no Twitter.
Não é o único. “As conversas sobre os riscos das realidades falsas criadas por tecnologias de inteligência artificial não são novas. Afinal, já ouvimos falar de vídeos falsos, fotografias falsas, e vozes falsas”, explicou ao PÚBLICO Subbarao Kambhampati, um investigador e professor de inteligência artificial na Universidade de Arizona dos EUA. Kambhampati também criticou no Twitter a decisão da OpenAI.
Não é a primeira vez que cientistas põem algoritmos a escrever sozinhos.“Sou obrigado a escrever aos meus vizinhos sobre a besta. (...) O homem tinha a pele de um baronete, e as nuvens do homem estavam na cabeça”, é outro texto escrito por algoritmos. Embora o texto seja muito menos coerente que o trabalho da OpenAI, os algoritmos programados por Janelle Shane também aprendem a analisar frases, identificar imagens, jogar xadrez e escrever livros, após estudarem extensas bases de dados. E os resultados são publicados na Internet.
Também há sistemas de inteligência artificial a criar imagens falsas: em 2017, um programador desenvolveu um algoritmo para dar às actrizes de vídeos pornográficos caras de actrizes de Hollywood, como Scarlett Johansson, ou de cantoras, como Taylor Swift. Publicou-os sob o pseudónimo “deepfakes”.
“Embora o sistema da OpenAI seja inovador a gerar texto falso, não está a mudar o paradigma de uma forma inesperada. Afinal, se a OpenAI pode chegar a este ponto, outros grupos também podem chegar – mais cedo ou mais tarde”, acrescentou Subbarao Kambhampati.
Oito milhões de documentos
A OpenAI defende-se: "Estamos cientes de que alguns investigadores têm a capacidade técnica para reproduzir os nossos resultados em código aberto", admitiu a equipa. "Acreditamos que a nossa estratégia de divulgação limita o grupo inicial de organizações que escolham fazer isto."
A equipa adiantou alguns detalhes sobre os seus algoritmos. Para funcionar, o programa GPT-2 precisa de uma frase de sugestão para perceber o tema que deve desenvolver. No exemplo do roubo nuclear, a frase base dada pela equipa foi: “Uma carruagem de comboio com material nuclear controlado foi roubada de Cincinnati hoje. Desconhece-se o paradeiro.”
Além de continuar o texto sozinho, o algoritmo aprendeu a copiar o estilo do autor inicial. Foi treinado com oito milhões de documentos na Internet, e não foi incluída qualquer informação da Wikipédia, para evitar resultados parecidos com outros projectos.
Ainda assim, há erros. Alguns textos falam de incêndios por baixo de água. Para os investigadores, "explorar este tipo de fraquezas dos modelos de linguagem é uma área activa da investigação."
A equipa acrescentou que o motivo de divulgar parte dos resultados é alertar os governos. Para a OpenAI é importante que se comecem a desenvolver mecanismos para saber detectar este tipo de tecnologia: “Os governos deviam considerar expandir ou começar iniciativas para monitorizar sistematicamente o impacto para a sociedade e a difusão de tecnologias de inteligência artificial.”