Quando o computador consegue distinguir a verdade da mentira

Um algoritmo desenvolvido com participação portuguesa conseguiu avaliar a veracidade de declarações simples com a uma fiabilidade semelhante à de um verificador humano.

Foto
Ava é a andróide super-inteligente que protagoniza o filme Ex-Machina DR

Agora, uma equipa de especialistas de computação, entre os quais um cientista português, acaba de fazer algo parecido – embora muito mais modesto: tornar um programa informático capaz de avaliar, com um desempenho comparável ao de um ser humano, a veracidade de uma série de afirmações… dando-lhe acesso (totalmente legal) a uma base de dados, derivada da Wikipedia, que contém milhões de informações factuais. O trabalho foi publicado na revista online de acesso livre PLoS ONE.

A verdade faz-nos mais fortes

Das guerras aos desastres ambientais, da economia às ameaças epidémicas, quando os dias são de incerteza, o jornalismo do Público torna-se o porto de abrigo para os portugueses que querem pensar melhor. Juntos vemos melhor. Dê força à informação responsável que o ajuda entender o mundo, a pensar e decidir.

Agora, uma equipa de especialistas de computação, entre os quais um cientista português, acaba de fazer algo parecido – embora muito mais modesto: tornar um programa informático capaz de avaliar, com um desempenho comparável ao de um ser humano, a veracidade de uma série de afirmações… dando-lhe acesso (totalmente legal) a uma base de dados, derivada da Wikipedia, que contém milhões de informações factuais. O trabalho foi publicado na revista online de acesso livre PLoS ONE.

“Não é a primeira vez que se fazem programas de inteligência artificial (IA) para automatizar a verificação da veracidade de factos. A Google, por exemplo, tem feito trabalho nesta área”, disse ao PÚBLICO por email o co-autor Luís Rocha, do Instituto Gulbenkian de Ciência em Oeiras. Mas uma das novidades é que o nosso algoritmo é extremamente simples.”

Outra novidade é que, ao contrário de outros algoritmos, os dados e a informação de base que o novo processo automático utiliza para fazer o seu fact-checking também tem uma estrutura muito simples.

Mais precisamente, para construir o conhecimento de base que o algoritmo utilizou, os cientistas pegaram numa massa de “caixas de informação” (infoboxes) da Wikipedia relativas a questões de geografia, história e mundo do entretenimento. Os infoboxes são aqueles condensados de informação básica que aparecem em cima à direita, naquela imensa enciclopédia online, na página das figuras públicas.

Como essas caixas ligam entre si os mais díspares “conceitos” e um mesmo conceito pode estar incluído em muitas caixas ao mesmo tempo, esta recolha de informação permitiu construir uma rede, ou “grafo de conhecimento”, com três milhões de conceitos (os nós da rede) e 23 milhões de ligações entre pares de conceitos.

O algoritmo desenvolvido pela equipa utilizou então essa rede complexa para calcular o nível, ou valor, de veracidade de declarações simples, explicam os autores no seu artigo na PLoS ONE. Frases do tipo: “Paris é a capital de França” ou “Platão é grego”

Em linhas gerais, o algoritmo identifica – saltando de nó em nó, através das ligações existentes entre os nós – o percurso entre o sujeito e o objecto (da frase que se pretende avaliar) que contém o maior nível de informação específica, atribuíndo-lhe um valor numérico. E é esse valor numérico que permitirá decidir se a frase em causa é ou não verdade.

Como são atribuídos os valores numéricos aos percursos? Os autores consideraram, como medida do carácter informativo de um nó, o número de ligações que passam por esse nó. “Por exemplo, o nó ‘animal’ está ligado a imensos outros nós na Wikipedia, por isso não é muito informativo”, explicita Luís Rocha. “Mas um nó como "wombat" [pequeno marsupial] está ligado a menos nós e é por isso mais informativo.” Por outras palavras, os caminhos que passam por nós mais genéricos têm menos peso informativo, relacionando os dois conceitos contidos na frase em causa de forma mais ténue do que os que passam por nós mais específicos.

Quando a equipa pôs o algoritmo “à prova dos factos”, este foi capaz de relacionar com grande precisão, por exemplo, presidentes dos EUA com as suas primeiras-damas e realizadores de cinema oscarizados com os seus filmes premiados. Mas não se ficou por aí: também conseguiu avaliar a veracidade (ou não) de declarações muito mais indirectas – e menos óbvias para muitos humanos.

Obama é muçulmano?
O exemplo dado pelos autores no seu artigo é a frase: “Barack Obama é muçulmano”. Escrevem os autores: “O caminho mais [específico] obtido pelo nosso método para a declaração ‘Barack Obama é muçulmano’ (…) passa por nós que representam informação muito genérica, tal como ‘Canadá’, e aos quais é [portanto] atribuído um valor de veracidade baixo”. Por outras palavras, o algoritmo não encontrou qualquer percurso suficientemente informativo e concluiu que esta afirmação era falsa – ao contrário de muitas pessoas que acreditam em tudo o que corre nas redes sociais e na Web em geral…

Aliás, foram justamente declarações deste tipo acerca do actual presidente dos EUA que motivaram o trabalho, diz-nos Luís Rocha. A ideia surgiu numa conversa com Johan Bollen, co-autor da Universidade do Indiana (EUA). “Foi durante um período de eleições nos EUA, em que factos obviamente falsos eram repetidos em alguns media mais politizados. Alguns (do tipo "Obama é um muçulmano socialista") eram tão nitidamente falsos que o Johan disse: ‘não deve ser difícil fazer um algoritmo que teste a veracidade destas afirmações’. Ao que eu respondi: ‘que tal tentarmos?’. Em estreita colaboração com outros colegas da Universidade do Indiana – Giovanni Ciampaglia, Filippo Menczer, Alessandro Flammini –, avançaram com o projecto. “E chegámos a resultados muito além do que eu pensei possível à partida”, diz Luís Rocha.

Os cientistas tencionam ir mais longe: “a nossa ideia é aumentar o grafo de conhecimento e passar a utilizar todo o conteúdo do texto da Wikipedia”, diz Luís Rocha. Esperamos com isso conseguir aumentar a dificuldade das perguntas. Também queremos utilizar outros grafos de conhecimento, por exemplo obtidos de publicações científicas, para testar a veracidade de factos científicos.”

Para Luís Rocha, o futuro da inteligência artificial reside, de facto, na capacidade de os computadores terem acesso à informação contida na Web. “Estou convicto que será pela utilização do ‘cérebro global’ – isto é, da quantidade de dados da Web, mais o crowdsourcing [fenómeno na base de mega-projectos colaborativos como a Wikipedia], mais os dados móveis que permitem antecipar os gostos, comportamentos e mesmo doenças de indivíduos e populações – que lá chegaremos.”

A algo do tipo da Ava do filme? “No Ex-Machina, o que é muito importante é que a andróide tem corpo – e um corpo desejável pelos humanos. Será provavelmente essa a fronteira mais comercial da IA num futuro próximo”, responde Luís Rocha.

“Mas além disso, o reconhecimento da emoção também é muito importante. Ora, nós estamos a conseguir medir cada vez melhor a emoção das pessoas, não só através dos textos que escrevem online, mas também dos telemóveis e dos fitness trackers [dispositivos de monitorização da actividade física], que são sensores muito poderosos.” Vem aí um exército de robôs sexy e espertos?