Computadores do Google aprendem a reconhecer caras e gatos no YouTube

Foto
A imagem de um rosto, concebida pelo neurónio mais eficaz da rede D.R.

Durante três dias, as máquinas foram treinadas através do processamento de dez milhões de imagens estáticas retiradas aleatoriamente de vídeos do YouTube. A rede de computadores usada na experiência foi concebida para imitar uma rede neuronal, embora com apenas mil milhões de ligações, um número várias ordens de grandeza inferior às ligações entre neurónios no cérebro humano.

A verdade faz-nos mais fortes

Das guerras aos desastres ambientais, da economia às ameaças epidémicas, quando os dias são de incerteza, o jornalismo do Público torna-se o porto de abrigo para os portugueses que querem pensar melhor. Juntos vemos melhor. Dê força à informação responsável que o ajuda entender o mundo, a pensar e decidir.

Durante três dias, as máquinas foram treinadas através do processamento de dez milhões de imagens estáticas retiradas aleatoriamente de vídeos do YouTube. A rede de computadores usada na experiência foi concebida para imitar uma rede neuronal, embora com apenas mil milhões de ligações, um número várias ordens de grandeza inferior às ligações entre neurónios no cérebro humano.

Uma técnica frequente para ensinar computadores a identificar elementos específicos numa imagem (como uma cara) é “mostrar-lhe” várias imagens onde está assinalado aquilo que se pretende identificar (por exemplo, com um círculo).

Nesta experiência, porém, as imagens do YouTube não tinham qualquer indicação – em nenhum caso o programa de computador recebeu exemplos do que é um gato, um rosto ou um corpo humano. Em vez disso, um algoritmo genérico foi usado para aprender a identificar sozinho os diferentes elementos e diferenciá-los. “Ele basicamente inventou o conceito de gato”, notou ao jornal The New York Times um dos cientistas responsáveis, Jeff Dean, do Google.

Depois de treinado com as dez mil imagens, o software foi capaz de reconhecer rostos num conjunto de imagens com 20 mil categorias de objectos. A rede conseguiu identificar com sucesso 15,8% dos rostos (um resultado 70% acima das experiências anteriores mais bem sucedidas, afirma a equipa). O melhor neurónio artificial da rede teve uma taxa de sucesso de 81,7%.

“Ao contrário do que parece ser uma intuição comum, os nossos resultados experimentais mostram que é possível treinar um detector facial sem ter imagens identificadas como contendo uma face ou não”, conclui a equipa de oito investigadores, no artigo científico publicado com os resultados.

Os neurónios artificiais foram ainda capazes de “identificar naturalmente” variantes complexas dos elementos a identificar, como diferentes escalas e rotações.

O objectivo era testar a identificação de rostos, mas a equipa decidiu verificar se os computadores tinham aprendido mais com a análise das dez mil imagens. "Observámos que os objectos mais comuns na amostra do YouTube eram partes de corpos e animais de estimação e por isso suspeitámos que a rede também tinha aprendido estes conceitos". Feito o teste, o melhor "neurónio" a identificar gatos teve uma taxa de sucesso de 74,8%. No caso dos corpos humanos, o melhor resultado foi de 76,7%.

O projecto de investigação vai continuar a ser desenvolvido na divisão do Google responsável pela pesquisa e outros serviços, onde poderá ser aplicado a funcionalidades que a multinacional já oferece, como a busca de imagens, a identificação de voz e a tradução automática.