Inteligência artificial

Novos assistentes da OpenAI e Google respondem em tempo real — e chegam a dar opinião

O ChatGPT-4o da Open AI e o projecto Astra da Google têm maior capacidade de reconhecimento visual e respondem quase tão rápido como os humanos. No discurso, simulam emoções como surpresa e alegria.

Fernando Costa

16 de Maio de 2024, 21:30

OpenAI e Alphabet anunciaram novos modelos de IA em dias seguidos, segunda e terça-feira DADO RUVIC / REUTERS

Ouça este artigo

00:00

03:52

Exclusivo Gostaria de Ouvir? Assine já

Se houvesse ainda dúvidas de que a OpenAI e a Alphabet (empresa-mãe do Google) se viam como rivais na corrida desenfreada à conquista do universo da inteligência artificial (IA), erradicaram-se no início desta semana. Em dias consecutivos – segunda e terça-feira – a Open AI e a Google anunciaram, respectivamente, o ChatGPT-4o e o projecto Astra. São novos assistentes de inteligência artificial que prometem acrescentar realismo e profundidade à interacção com o utilizador, ao mesmo tempo que demonstram maior eficácia ao nível do reconhecimento visual, interpretação do ambiente e capacidade de memória.

Na prática, os novos modelos de inteligência artificial permitem realizar conversas em tempo (quase) real, por voz, texto e vídeo. A entoação da voz de ambos os assistentes é fluida, pausada e muito semelhante à de um humano. Através da câmara do equipamento, os assistentes de IA analisam o meio envolvente, conseguem identificar objectos – memorizar onde estão localizados, mesmo depois de saírem do campo de visão – e interpretar questões sobre aqueles.

O resultado é uma interacção entre humano e máquina que muito se assemelha à de uma conversa entre duas pessoas. Lembra-se do filme Her, em que Joaquin Phoenix fala e se apaixona por uma assistente virtual com voz hiper-realista? O ChatGPT-4o e o projecto Astra serão, provavelmente, o mais próximo que a vida real esteve da narrativa do filme.

Tanto no caso do projecto Astra como no ChatGPT-4o, os modelos aparentam ser eficazes em apresentar, em poucos segundos, respostas aos pedidos que os utilizadores façam, por mais vagos que estes sejam. No vídeo demonstrativo da Google, por exemplo, uma utilizadora filma um desenho rudimentar de dois gatos, um deles com cruzes nos olhos, e uma caixa de cartão com um ponto de interrogação desenhado. “O que te lembra isto?”, pergunta ao assistente. “Gato de Schrödinger”, responde em poucos segundos a máquina.

No caso do ChatGPT-4o (“o” de omni), por exemplo, o modelo nem sempre se limita a identificar e descrever os objectos que vê. No vídeo demonstrativo, depois de reconhecer que o utilizador está a vestir um casaco com capuz, aproveita para tecer uma apreciação: “Boa escolha”, considera, com um tom de voz jovial. O assistente da OpenAI também foi capaz de simular entoações de surpresa, satisfação e até hesitação, chegando a emitir o som “hmm”, antes de responder, como se fizesse uma pausa para pensar na resposta que pretendia dar.

Na conferência anual da Google I/O, o CEO da Google DeepMind (a unidade de IA da Alphabet), Demis Hassabis, apelidou o projecto Astra como “o futuro dos assistentes de IA”. “Percebem melhor o contexto e conseguem responder rapidamente em conversa, fazendo o ritmo e a qualidade da interacção parecer muito mais natural.”

Hassabis explica também que a maior eficiência de memória – na demonstração, o modelo indica à utilizadora onde deixou os seus óculos, “ao lado da maçã vermelha” – se deve à capacidade de tratar informação mais rapidamente, ao “codificarem continuamente fotogramas de vídeo e discurso”.

Na página do site da OpenAI sobre o ChatGPT-4o, é explicado que não só o novo modelo é mais rápido na resposta em relação ao modo de voz do ChatGPT, mas também não perde tanta informação no processo entre receber o comando e devolver a resposta. “O modo de voz é um canal de três modelos separados: um modelo simples transcreve áudio para texto, o GPT-3.5 ou GPT-4 recebe e envia texto, e um terceiro modelo converte o texto para áudio, de novo”. Este longo processo permite que se perca muita informação sobre tom, sons de fundo, entre outros. O novo modelo, por outro lado, trata todos os inputs e outputs na mesma rede neural, perdendo-se menos informação.

Segundo Hassabis, o projecto Astra estará disponível em produtos Google até ao final do ano. O ChatGPT-4o, da Open AI, deverá ficar disponível para os utilizadores, gratuitamente, nos próximos dias.

Comentários

Últimas publicações

Tópicos disponíveis

Escolha um dos seguintes tópicos para criar um grupo no Fórum Público.

Ao criar um novo grupo de discussão, tornar-se-à administrador e será responsável pela moderação desse grupo. Os jornalistas do PÚBLICO poderão sempre intervir.

Saiba mais sobre o Fórum Público.