“Gostaria de ter um robô em casa que conseguisse estrelar um ovo, depois de me ver a estrelar ovos”

Especialista na área da visão por computador e na robótica, este engenheiro do Instituto Superior Técnico tenta evitar (“tanto quanto possível”) a programação de robôs “apenas” para a execução de funções. Mas programá-los, isso sim, para “evoluírem e alterarem as suas operacionalidades em função da sua experiência”. "Imitar não é só copiar; é perceber o objectivo da tarefa e replicar."

Foto
Miguel Manso

Uma das ambições de José Santos-Victor é construir robôs com um nível de sofisticação tal que os torne nossos semelhantes. Não ao nível da similitude física, dando rostos e corpos humanos a máquinas, tornando-os humanoides, mas descobrindo como através da “experiência relacional” poderão interagir de forma natural connosco. Licenciado em Engenharia Electrotécnica e de Computadores no Instituto Superior Técnico, em Lisboa, onde lecciona, Santos-Victor nota que chegou o momento de se retirarem os robôs do mundo à parte em que foram colocados, as fábricas. Este engenheiro de 53 anos é investigador do Instituto de Sistemas e Robótica do IST, desde a sua fundação em 1992, e criou o VisLab - Laboratório de Visão por Computador, dentro do mesmo instituto. A área de investigação a que mais se dedica está relacionada com a visão por computador e na robótica, especialidade que cruza com a biologia e a neurociência. Para além de nos darem assistência nas tarefas do quotidiano, Santos-Victor acredita que criaremos robôs para nos fazerem companhia, cenário que encara com “naturalidade” e “alguma expectativa”.

No campo da robótica, quais são os projectos em que estão envolvidos e que ambições têm?
O que nós queremos, a longo prazo, é que os nossos robôs vivam no mundo e aprendam com a sua experiência relacional. Temos estudado os processos de aprendizagem com psicólogos e estamos a tentar rebater esses processos nos robôs. É aquilo a que chamamos pensamento divergente e convergente na criatividade. O pensamento divergente é quando uma criança, por exemplo, explora soluções completamente diferentes para resolver um problema e nenhuma solução tem a ver com outra, usando caminhos alternativos e não forçosamente relacionados. E quando, a certa altura, há uma solução, que por algum motivo parece melhor ou traz alguma vantagem face às outras, o que as crianças tendem a fazer é melhorar essa solução, num gesto convergente. Estudámos em crianças esta combinação de exploração em largura e da optimização em profundidade. Filmámos crianças a montar estruturas em Lego e tentámos perceber e classificar os seus processos. Queremos transportar esse tipo de pensamento divergente e convergente para os nossos robôs.

E como é que se ensina um robô?
Os robôs aprendem de várias maneiras, mas o que eles essencialmente fazem é aprendizagem por imitação, que é um dos principais mecanismos de aprendizagem social. Há a fase em que os ensinamos a desempenhar tarefas: eles olham para a maneira como nós resolvemos determinada tarefa e tentam aprender os passos que são verdadeiramente importantes para o seu desempenho. Depois são esses passos que o robô tenta replicar, à sua maneira. Porque imitar não é só copiar; é perceber o objectivo da tarefa e replicar. O outro mecanismo que usamos é a aprendizagem por exploração, em que os robôs aprendem por tentativa e erro. Recentemente, ensinámos um robô a limpar mesas, em função do tipo de sujidade: pode ser líquida ou sólida, ter maior ou menor volume, o que envolve uma diferenciação das acções e do tipo de utensílios empregados. Colocamos o robô perante um especialista em limpeza, que no caso somos nós, que limpa a mesa com um pano ou uma esponja, ou uma vassourinha, ou com o que for preciso em cada caso. Repetimos a tarefa várias vezes, até o robô perceber o que é a invariante: quando eu limpo a primeira, segunda ou terceira vez, há coisas que variam, mas há coisas que não variam e essas, sim, são as coisas que são importantes. O robô tem de conseguir extrair esse denominador e depois tentar desenvolver a acção à sua maneira, sem perder esses aspectos fundamentais da função, que ele determina por si próprio. Gostaria de um dia ter um robô em casa que conseguisse estrelar um ovo, depois de me ver a estrelar ovos uma ou duas vezes – sem que eu precise de escrever uma linha de programação para essa tarefa. A ideia é interagirmos com estas máquinas de uma maneira parecida com aquela com que nós, seres humanos, interagimos uns com os outros.

Este robô em que está a trabalhar foi intencionalmente desenhado para ser um boneco e não para ser um humanóide, para não ser muito parecido connosco. Isso é uma intenção presente no design inicial ou é uma limitação? Ou seja, é um boneco porque tem de ser, ou é uma escolha?
Se uma máquina for muito diferente de mim, é difícil que eu estabeleça uma relação emocional intensa com ela. Se a fizer evoluir até ter um aspecto que se vai aproximando do ser humano, a capacidade de eu me envolver com esta máquina aumenta. Quando as máquinas são quase-humanas, basta haver um detalhe que não funciona bem – o nariz, ou os olhos – para se criar uma situação profundamente perturbadora. Na realidade, pode haver uma semelhança de 99% com o rosto humano, mas esse 1% que falta provocará uma reacção de espanto, de medo.

É aquilo a que se chama uncanny valley, que creio que se traduz em português por “estranheza familiar”…
Sim, é essa a expressão. Há ali de facto uma “falha” que causa uma grande estranheza. Conscientes disso, escolhemos ficar claramente afastados dessa zona de semelhança. Não queremos criar a ilusão de que o robô é um ser humano – um robô é uma máquina que tem semelhanças com o ser humano, mas não pretendemos criar, nem nas crianças, nem nos adultos, qualquer confusão.

O robô que está no laboratório do IST está ligado a uma série de volumosos sistemas externos a si; aliás, se calhar daqui a uns anos, vamos sentir o mesmo que sentimos quando olhamos hoje para computadores que ocupavam salas inteiras. O que é que falta para que os robôs se tornem mais autónomos? A miniaturização? Tal como já miniaturizámos um computador para caber dentro de um tablet ou de um smartphone?
Separamos o robô em corpo, mente e energia. Do ponto de vista da mente, tem havido um progresso grande na capacidade de cálculo, na miniaturização do cálculo, na utilização do cálculo na nuvem, na cloud. O cérebro humano tem uma capacidade de cálculo muito superior aos computadores que hoje existem, mas, ainda assim, do ponto de vista do cálculo, acho que o progresso é muito encorajador. Onde creio existirem mais dificuldades é nos materiais e nos motores que fazem movimentar as várias partes do corpo e da sua eficiência energética. A capacidade que temos de armazenar a energia do robô é bastante limitada. O cérebro e o corpo humano são muito eficientes; a potência que os nossos músculos conseguem exercer e a quantidade de energia retida por eles estão longe de ser atingidas pelos dispositivos que usamos hoje. No tipo de materiais, nos sensores, na leveza, na flexibilidade, na suavidade… O corpo humano é maleável e esse aspecto faz parte integrante da nossa funcionalidade. A minha mão agarra objectos, porque os tecidos da minha mão são moles e adaptam-se ao objecto. Os nossos robôs, a maior parte deles, são de alumínio. Estamos a começar a fazer experiências com corpos mais moles, mas ainda temos desafios muito grandes nessa área. Portanto, do ponto de vista do corpo e da energia, ainda há desafios importantes, com progressos visíveis, mas com muito caminho pela frente. Do ponto de vista da mente e da computação, acho que estamos a evoluir muito rapidamente.

Foto
Um dos robôs do Instituto Superior Técnico, no qual estão a ser aperfeiçoadas as funções da visão, audição e tacto Miguel Manso

Uma das áreas que mais tem estudado é a da visão. É um factor determinante no funcionamento de um robô?
É determinante num robô e na natureza. Quase todos os seres vivos têm algum tipo de visão. Partindo do princípio de que Deus era engenheiro, nós procuramos os princípios de engenharia em algumas criações divinas. Quando tentámos perceber como funcionava a visão para a replicar roboticamente, observámos animais em que a visão funciona muito bem. Começámos por estudar insectos como formigas e progredimos para a visão das moscas, das abelhas, das aranhas. Na realidade, reconstituímos o aparelho visual de uma mosca, criámos uma mosca robótica. Basicamente, enquanto o olho humano é uma esfera com uma lente à frente, que forma uma imagem na retina, situada na parte traseira do globo ocular, muitos insectos têm um olho composto. O olho da mosca também se aproxima da forma esférica, só que, em vez de ter uma única lente que forma uma única imagem, é povoado de pequenas lentes, que formam microimagens – o omatídeo em biologia. Estudamos o aparelho ocular da mosca-da-fruta em particular. Imaginámos o olho composto da mosca e fizemos um corte no equador. Recriámos os omatídeos, os pequenos olhos que a mosca tem a povoar esse hemisfério. E criámos uma rede de neurónios que existem logo atrás do olho da mosca. Estes neurónios recolhem directamente a luz que incide sobre esses pequenos sensores, que, em conjunto com os sensores vizinhos, conseguem calcular a velocidade a que o espaço visual se movimenta, em função do movimento da mosca. É assim que as moscas voam, que evitam obstáculos, que procuram comida… Depois integrámos esta informação num robô e este passeava, andava em frente e ia evitando obstáculos, usando os mesmos princípios biológicos que são conhecidos no caso da mosca e de outros insectos.

Mas como é que este seu robô “olha” para o exterior?
Os olhos, do ponto de vista da fisiologia, são um pouco uma extensão do cérebro, estando ligados directamente ao córtex visual que faz o tratamento da informação. É este prolongamento que permite que o cérebro se aperceba do que está a acontecer cá fora, mas, curiosamente, também é uma maneira de olharmos para dentro do cérebro do ser humano e das outras espécies. No entanto, o cérebro humano, mesmo sendo muito poderoso, tem um volume limitado. Nós acreditamos que Deus tinha um budget determinado, um orçamento de computação e de peso que tinha de respeitar. Esse orçamento limitado traduz-se no número de píxeis que se conseguiu colocar na retina humana, ou na retina de outro animal. Então, o dilema era o seguinte: se o meu orçamento é este, significa que eu só tenho um determinado número de píxeis disponíveis. No caso, a retina humana tem cerca de 120 milhões de píxeis. Portanto, se o orçamento disponível era de 120 milhões, a opção era a seguinte: se eu quiser ver com grande acuidade visual, se quiser ver objectos muito finos com grande detalhe, então tenho de empacotar esse número num campo visual estreito. E no mundo pré-histórico, isto não era boa ideia. Posso estar muito feliz, porque estou a ver um objecto à minha frente, com grande acuidade visual, mas se ao mesmo tempo vier dali um leão direito a mim a querer dar-me uma dentada e eu não o vir, não me serve de muito ter esta grande acuidade.

A retina humana é muito curiosa, porque mistura duas retinas. Há uma retina pré-histórica, que tem um campo visual alargado, que é a retina periférica e que não vê com grande resolução – nem sequer vê cor –, mas tem cerca de 120 graus de campo visual. Portanto, se vier um leão a correr para mim dentro desta área de 120 graus eu consigo aperceber-me de que o leão constitui um perigo a evitar.

Do ponto de vista da sobrevivência, esta retina pré-histórica é excelente e cumpre essa função de me manter vivo, apesar dos leões que andam por aí. Essa parte foi resolvida e depois o resto que sobrou do budget [de Deus], foi aplicado numa zona, necessariamente mais estreita, em que o ser humano vê muito bem. Essa zona chama-se fóvea, é uma zona central com cerca de dois graus deste campo de 120. Só nesta pequena região é que nós vemos bem. É também apenas nesta área que vemos cor, porque os sensores que estão na fóvea, que são os cones, são aqueles que são sensíveis à cor – os bastonetes que estão na periferia não vêem cor, são muito sensíveis, mas não ecor – e, portanto, só nesta pequena região é que vemos com nitidez. Se eu quiser olhar para a sua cara, tenho de olhar primeiro para o lado esquerdo, depois para o lado direito. Donde, os meus olhos têm de estar constantemente a fazer estes movimentos, para ir vendo, com a parte de alta resolução, as várias partes do campo visual que me interessam. E depois o cérebro faz uma composição fantástica, monta um mosaico, um puzzle, com estas pequeninas imagens. No fundo, é como se uma sala estiver completamente às escuras e eu tiver apenas uma pequena lanterna que ilumina dois graus de cada vez. Depois colo os bocadinhos que vou iluminando e crio uma imagem no cérebro – não está nos nossos olhos, está no cérebro – em que tudo aparece a cores e em alta resolução. E tudo isto se passa sem sequer nos apercebermos deste fenómeno e do esforço que os olhos e o cérebro fazem para produzir esta imagem fantástica. Foi este o dilema encontrado no desenho da visão humana e que foi admiravelmente resolvido desta forma. Nós tentamos replicar estes sistemas nos robôs, que também têm um cérebro com um peso limitado. Têm visão foveal, com  uma zona onde vêem com grande acuidade e depois têm uma zona em que vêem pior, mas conseguem reagir a estímulos. Se alguém se aproximar a correr, ou se houver um flash, ou uma chama, eles vêem o suficiente para perceber que têm de olhar para aquela direcção e depois, a seguir, conseguem olhar com mais cuidado.

E qual é a importância da zona branca dos olhos? Parece que somos a única espécie que tem uma superfície branca à volta de retina.
Os movimentos oculares têm duas funções. Uma é operativa: eu não consigo agarrar um objecto que não conheça, se não olhar para o objecto. Tenho de orientar a minha visão – a parte que é exacta e que tem alta acuidade – para a zona do espaço em que tenho de fazer uma tarefa que requeira algum rigor. Os olhos têm de apontar naquela direcção, porque têm de recolher informação de alta resolução naquela zona do espaço visual. Um segundo aspecto interessante é o da comunicação e é aqui que os olhos adquirem uma função muito importante. Medirmos o olhar uns dos outros é fundamental, para percebermos se o outro ser humano está connosco. Há um protocolo de comunicação que se desencadeia através do olhar e para isso é preciso conseguir medir a direcção do olhar das outras pessoas.

Os nossos olhos têm esta zona externa que é branca e depois a parte interna, que tem outra cor, o que facilita enormemente a tarefa de medir a direcção para onde estamos a olhar. Este aspecto de comunicação é tão fundamental que se acredita que noutras espécies, em que esse fundo branco não está disponível, nomeadamente em seres tão próximos de nós como outros primatas, essa comunicação não-verbal não funciona com o nível de importância que tem no ser humano. É uma dimensão que provavelmente se tornou tão importante que a pressão evolutiva levou ao desenvolvimento desta característica particular que nos permite lermo-nos uns aos outros. Bom, a não ser que se usem óculos escuros [risos]. Aí estamos a trair a evolução.

Outra parte do corpo onde a “engenharia divina” exibe algum brilhantismo é o ouvido, que aparentemente é muito bem desenhado...
Quando falo com o robô, gostava que ele percebesse em que direcção estou e se virasse para mim. Foi aí que começou o desafio. Tentámos perceber o radar humano, o processo de audição. Se alguém me falar do lado direito, eu, naturalmente, viro-me. Mas a questão desenvolve-se em dois planos: quando alguém fala comigo, tenho de perceber se estão a falar à esquerda, ao centro ou à direita, mas também se estão a falar de cima, a meia altura ou de baixo. No plano horizontal é relativamente fácil fazer essa diferenciação, uma vez que se alguém me falar do meu lado direito o sinal acústico que esta pessoa emite chega primeiro ao meu ouvido direito e só depois ao meu ouvido esquerdo. Portanto, há um atraso na propagação das ondas. Se eu medir este atraso, consigo perceber e calcular a direcção da fonte de som. Este aspecto foi relativamente fácil de resolver. Mas, no plano vertical, tudo se complica, porque a cabeça humana é simétrica. Ou seja, se eu falar de cima, o som chega no mesmo instante ao lado esquerdo e ao lado direito e a energia com que chega também é a mesma. Como é que se resolve está questão? Explorámos a fisiologia da orelha e percebemos, para nossa surpresa, que o ouvido humano, para além de ter uma componente estética que já nos habituámos a apreciar, foi de facto desenhado com um princípio de engenharia. O que acontece é que quando as ondas sonoras chegam ao nosso ouvido, parte do som é escutado directamente, há uma onda directa que é imediatamente recepcionada pelo sensor, e existe uma outra onda que passa pelo sensor e bate na parede externa do ouvido, que se chama pina. Quando a onda bate na pina, uma parte é absorvida e outra parte é reflectida. A onda directa e a onda reflectida cancelam-se mutuamente. Quando isso acontece, se a distância variar, se não for uniforme da pina ao ouvido – por isso é que a pina não é circular, as distâncias variam com a elevação – posso usar esta variação para descodificar a origem de determinado som. Analiso quais são as frequências que são anuladas e consigo determinar a elevação da fonte de som. Portanto, a pina é outro excelente exemplo de engenharia. Desenhámos uma pina com o mesmo tipo de curvatura do ouvido humano e colocámo-los na área que rodeia os microfones do robô. Somos hoje capazes de fazer com que os nossos robôs olhem de forma consistente para nós. Não é um processo muito preciso, mas é o suficiente para que o robô dirija a cara na nossa direcção e entremos no campo visual do robô – a partir daí a comunicação acontece.

O robô que desenvolveram tem um pequeno fato azul. É aí que se explora o tacto?
Os robôs existem há muitos anos, mas têm vivido num mundo à parte, nas fábricas. Estavam fechados lá dentro e nós estávamos fechados cá fora. O que está a acontecer agora é que estamos a abrir os espaços que eram só nossos a estas máquinas, ao mesmo tempo que estamos a abrir o espaço que era só destas máquinas. Os robôs, até hoje, viviam num mundo organizado, onde tudo é planeado, onde não há incertezas. A vida real é um encadeamento de surpresas, os planos são feitos para serem alterados e, portanto, estes robôs terão de desenvolver capacidades adaptativas, nomeadamente a capacidade de agarrar objectos – uma parte fundamental da interacção com o mundo.

O tacto é muito importante quando queremos que um robô agarre um objecto que ele nunca viu. O objecto pode estar quente, ser áspero, pode estar gelado, e o robô tem de perceber todas estas variantes. Na verdade, no córtex humano existe uma parte grande que tem a ver com a visão, mas outra parte, igualmente importante, que tem a ver com o tacto, sobretudo da mão. Daí que tenhamos colocado sensores tácteis no robô, que cobre partes do corpo, dos braços, da palma da mão e dos dedos. As mãos são muito complicadas. Consideramos, aliás, que, do ponto de vista da evolução, há aspectos que definem o ser humano, que começaram com a mão e, precisamente, com a nossa capacidade de agarrar objectos. Há um caminho evolutivo que passa por aí, não poderíamos, portanto, abdicar do desenho de uma mão muito sofisticada nos nossos robôs – isto se queremos que o robô tenha um bom desempenho em tarefas complicadas.

Como fazer ovos estrelados ao pequeno-almoço...
Que é uma função essencial [risos]. Mas repare: se tentarmos apertar atacadores com luvas, a nossa sensibilidade táctil fica muito deteriorada, é mais difícil. Hoje, é como se os nossos robôs estivessem a usar luvas grossas, de trabalho pesado, porque, de facto, a sensibilidade táctil que têm é relativamente pequena.

Foto
"Medirmos o olhar uns dos outros é fundamental, para percebermos se o outro ser humano está connosco. Há um protocolo de comunicação que se desencadeia através do olhar" Miguel Manso

Imagine que o robô está a ser amolgado. Há algum sensor que que lhe permita reagir? É possível programar esse tipo de sensibilidade?
O robô tem limites físicos, programados deliberadamente. Desenhámos uma espécie de fusível mecânico que faz com que quando acontece algum tipo de acidente, quando o robô bate num objecto ou faz mais força do que aquela que devia, os tendões da mão partem. Deliberadamente, partem. É um fusível desenhado para protecção do próprio robô. Noutros casos, fazemos essa protecção por software. Se estiver a fazer muita força, o robô consegue medir e recuar o braço. Não posso dizer que sinta dor, como nós, mas tem mecanismos de autoprotecção. Por exemplo, o robô sabe quando chega ao limite dos seus braços; eu, quando movimento o meu braço, sei que não é saudável tentar ir com o braço demasiado para trás, porque alguma coisa menos boa provavelmente vai acontecer ao meu ombro. O robô tem um pouco essa noção, programada por nós. Quando está no limite do espaço de trabalho das suas juntas, daquilo que a cinemática do corpo consegue atingir, ele exerce alguma limitação e tenta escapar dessas zonas.

Existe um modelo geral da inteligência, ou cada sistema é desenhado em função da tarefa a desempenhar?
Não lhe posso responder de forma simples. Olhando para vários animais, observamos grande especificidade e optimização, mas pouca generalização. Determinado animal faz o que faz muitíssimo bem. O ser humano é um pouco o contrário. Não é o animal mais rápido do mundo, não é o animal mais forte do mundo, mas é o animal com maior capacidade de aprendizagem e também o animal com maior capacidade de adaptação. É um paradigma de inteligência bastante diferente. É relativamente fácil fazer uma máquina com um desempenho muito sofisticado numa única tarefa. Mas desenhar uma máquina que consiga ter um desempenho igualmente elevado em diferentes contextos, capaz de perceber ou de se adaptar a situações extremas, isso é muito difícil. Mas é nesse sentido que nós trabalhamos. Tanto que o nosso paradigma, o que tentamos, tanto quanto possível, é não programar as funcionalidades do robô, mas programá-lo, sim, para evoluir e alterar as suas operacionalidades em função da sua própria experiência. Cada um de nós é também produto do mundo emocional e relacional. Há em nós uma parte determinada geneticamente, mas depois há a cultura e a experiência que nos vão moldando ao longo da vida. Queremos que os nossos robôs evoluam nesse sentido, porque também eles serão fruto dessa experiência ecológica.

Mas como é que imagina a nossa interacção com estas máquinas? Como é que acha que podem fazer parte do nosso espaço convivial e relacional?
Acredito que há sistemas destes, relativamente simples, que vão poder andar em nossas casas. Já há uns pequenos objectos que são controlados pelo telemóvel, que falam connosco. Já há assistentes digitais que comunicam connosco por voz. Penso que estes sistemas se vão reunir em robôs, que vão começar a andar em nossas casas, que vão procurar objectos, vão ver se a porta ficou fechada, se a televisor ficou ligado...

Vão-nos secretariar...
Vão-nos dar alguma assistência, sim, e vão-nos fazer companhia, também. Encaro com uma certa naturalidade a entrada destes sistemas nas nossas vidas, com uma componente mais física. Vão interagir connosco, jogar connosco, agarrar objectos, ajudar-nos em algumas funções mais complicadas. Vejo isso com naturalidade e com alguma expectativa.