Facebook quer inteligência artificial a aprender com menos dados

Para os investigadores no laboratório europeu do Facebook, dar mais informação às máquinas não as faz mais inteligentes.

Foto
Antoine Bordes lidera o laboratório de inteligência artificial do Facebook em Paris Miguel Manso

Numa época em que se fala cada vez mais dos dados informáticos e do seu mau uso, a equipa de investigadores de inteligência artificial do Facebook na Europa quer desenvolver sistemas inteligentes que conseguem aprender com cada vez menos informação. Para Antoine Bordes, que lidera o laboratório da empresa em Paris, a quantidade de dados que as máquinas ditas inteligentes precisam para aprender “sem erros catastróficos” é uma das grandes falhas.

A verdade faz-nos mais fortes

Das guerras aos desastres ambientais, da economia às ameaças epidémicas, quando os dias são de incerteza, o jornalismo do Público torna-se o porto de abrigo para os portugueses que querem pensar melhor. Juntos vemos melhor. Dê força à informação responsável que o ajuda entender o mundo, a pensar e decidir.

Numa época em que se fala cada vez mais dos dados informáticos e do seu mau uso, a equipa de investigadores de inteligência artificial do Facebook na Europa quer desenvolver sistemas inteligentes que conseguem aprender com cada vez menos informação. Para Antoine Bordes, que lidera o laboratório da empresa em Paris, a quantidade de dados que as máquinas ditas inteligentes precisam para aprender “sem erros catastróficos” é uma das grandes falhas.

"Mais dados não devia ser a solução para máquinas mais inteligentes", resume ao PÚBLICO Antoine Bordes, que esteve na Global Editors Network, uma conferência sobre media em Lisboa, para falar dos desenvolvimentos da empresa na área. "No laboratório, o nosso foco é a teoria da aprendizagem. Não programamos as máquinas e os programas de computador para fazerem coisas específicas, mas para aprender. De quantos exemplos precisam para fazer algo? E para fazer algo bem?"

A longo prazo, Bordes gostava de ver máquinas a trabalhar bem com menos informação. Um dos objectivos é ajudar os algoritmos de tradução da rede social a funcionar com línguas pouco faladas. No ano passado, a equipa do Facebook descobriu que, entre 2015 e Maio de 2017, milhares de anúncios na rede social divulgavam informação falsa sobre temas como a imigração e os direitos humanos. A dificuldade em compreender qualquer idioma sem ajuda humana é um dos grandes desafios da plataforma e impede que conteúdo impróprio (por exemplo, conteúdo explícito, violento ou propaganda terrorista) seja sempre apagado.

“É importante para a transparência detectar anúncios falsos e propaganda política em várias línguas, para que sejam removidos, mas maioria das coisas que se desenvolvem para o Facebook funcionam primeiro em inglês”, explica. “Até pode ser fácil traduzir para português ou francês e ter máquinas a aprender com exemplos, porque há muita informação digital nestas línguas, mas depois há outras línguas com poucos falantes que também merecem atenção.”

Aprender sem dados?

Em teoria, diz Bordes, não é necessário dados para criar inteligência artificial. "Conhecem-se duas grandes formas de desenvolver inteligência artificial. A mais conhecida é através de dados: por exemplo, damos muitas imagens e o sistema tenta aprender o que é um gato." Outra hipótese é pôr especialistas a programar instruções nas máquinas para estas perceberem o mundo: "Algo com olhos é um ser vivo, e se tem pêlo pode ser um mamífero.”

A vantagem desse sistema é que se consegue perceber sempre a lógica por detrás das decisões das máquinas. “O problema é que na prática, não funciona”, admite Bordes. “É impossível prever todas as formas de descrever um gato. É sempre preciso introduzir alguns dados, mas devíamos trabalhar para que fossem menos.”

Actualmente, a melhor forma de pôr máquinas a aprender bem e depressa ainda é dar muita informação. O director do laboratório europeu do Facebook admite que usa a estratégia em alguns projectos a curto prazo: por exemplo, para melhorar a precisão na identificação de imagens. Por norma, a equipa recorre a dados públicos, como traduções do Parlamento Europeu, para testar a capacidade de aprendizagem dos seus algoritmos, mas quando é preciso exemplos na ordem dos milhares de milhões (algo que Bordes diz que acontece com cerca de 5% dos projectos) os investigadores usam a informação pública dos utilizadores da rede social. Por exemplo, as imagens legendadas com palavras-chave que as pessoas partilham diariamente no Instagram, que o Facebook comprou em 2012. Poucas empresas têm acesso a estas quantidades de dados. “Essa quantidade é algo que só nós temos, mas só usamos imagens públicas – que qualquer pessoa pode encontrar na Internet – para que outros investigadores possam confirmar os nossos resultados."

A longo prazo, o investigador francês quer deixar de fazer isto. A ideia é ir além daquilo que a Siri e a Alexa, as assistentes digitais da Apple e da Amazon, conseguem fazer. O investigador vê ambas como parte da “inteligência artificial fácil”, porque dependem de grandes quantidades de dados para reproduzir informação.

"O que mostramos com os nossos projectos no Instagram – em que usamos muitos dados – é que com uma grande quantidade de informação os algoritmos aprendem um pouco melhor, sim, mas não é uma diferença explosiva. É gradual", diz Bordes.