Google Translatotron quer traduzir conversas sem mudar vozes originais
Investigadores ensinaram uma rede neuronal a mapear a impressão digital de diferentes vozes.
Os engenheiros do Google estão a trabalhar numa forma de pôr um utilizador a falar outra língua em instantes: um tradutor de áudio que converte o discurso de voz de alguém para outra língua, mantendo o tom, ritmo e timbre da voz original. Trata-se do projecto Translatotron.
A verdade faz-nos mais fortes
Das guerras aos desastres ambientais, da economia às ameaças epidémicas, quando os dias são de incerteza, o jornalismo do Público torna-se o porto de abrigo para os portugueses que querem pensar melhor. Juntos vemos melhor. Dê força à informação responsável que o ajuda entender o mundo, a pensar e decidir.
Os engenheiros do Google estão a trabalhar numa forma de pôr um utilizador a falar outra língua em instantes: um tradutor de áudio que converte o discurso de voz de alguém para outra língua, mantendo o tom, ritmo e timbre da voz original. Trata-se do projecto Translatotron.
Os primeiros resultados, testados com pessoas a falar em inglês e espanhol, foram partilhados este mês no blogue de inteligência artificial do Google. O foco, explicam os investigadores envolvidos, é “reter as características de voz do locutor original”.
Embora os exemplos de traduções iniciais ainda não soem como vozes idênticas, e continuem a parecer vindas de uma máquina em vez de uma pessoa, o tom mantém-se entre traduções. Por exemplo, se um homem estava a falar espanhol de forma lenta e pouco entusiasmada, a tradução soa como um homem a falar dessa mesma forma.
A equipa do Google explica que o sistema depende da análise do espectrograma da voz do locutor original, que é uma espécie de “impressão digital da voz” que mostra uma representação visual da frequência do som produzido. Depois, o Translatotron usa uma rede neuronal (sistemas de algoritmos que simulam o funcionamento do cérebro humano) para recriar um espectrograma semelhante noutra língua.
“[A rede neuronal] aprendeu a mapear o espectrograma de voz numa língua, num espectrograma-alvo noutra língua”, resume a equipa num trabalho académico publicado no ArXiv, um repositório de artigos científicos gratuitos que ainda não passaram pelo processo de revisão por outros investigadores (peer review, em inglês).
Numa das experiências iniciais, foram recolhidas cerca de 979 mil frases paralelas (com o mesmo conteúdo, nas duas línguas), e 1400 horas de gravações de voz para treinar a rede.
Outra novidade é que o Translatotron converte o áudio original directamente em áudio traduzido, sem quaisquer passos intermédios. Actualmente, o sistema de tradução do Google incorpora três fases: reconhecimento de discurso (que transcreve o áudio em texto), tradução automática (que traduz o texto numa língua para outra), e sintetização de voz (que usa o texto traduzido para recriar o áudio).
“O nosso sistema evita dividir a tarefa em etapas distintas”, explicam os engenheiros Ye Jia and Ron Weiss – dois dos autores do trabalho – num comunicado sobre os primeiros resultados. “Isto simplifica a retenção da voz do locutor original após a tradução e permite um melhor tratamento de palavras que não precisam ser traduzidas (por exemplo, nomes próprios e apelidos)”.
Ou seja, se um locutor espanhol se refere a alguém como “Guillermo”, a tradução mantém o nome espanhol, em vez de o traduzir para a versão inglesa de “William”.
O novo sistema de tradução do Google ainda está numa fase muito inicial. A equipa admite que os resultados apresentados são apenas “um ponto de partido para investigação futura” e o Translatotron não é tão bom como o sistema de tradução clássico do Google. Mas os investigadores dizem que o projecto mostra que “é possível reter a fonte da voz original no discurso traduzido”.
No futuro, a equipa quer focar-se mais na retenção da entoação e ritmo da voz original na tradução para criar traduções áudio “mais naturais e menos estranhas”.
A ascensão de vídeos e vozes fabricadas
Este mês, a equipa de engenharia da Samsung também publicou resultados preliminares no ArXiv sobre conteúdo criado através de rede neuronais.
A empresa sul-coreana recriou excertos de vídeo de pessoas a mexerem-se a partir de uma única imagem estática. Por exemplo, uma Mona Lisa a interagir com o público.
Tal como o sistema do Google, o da Samsung baseia-se em redes neuronais que criam as suas simulações ao mapear o conteúdo original (neste caso, imagens). O sistema foi treinado com a base de dados pública VoxCeleb, que contém mais de sete mil imagens de celebridades de vídeos do YouTube.
Este tipo de sistemas tem originado preocupações. Em 2017, por exemplo, um programador desenvolveu um algoritmo para dar às actrizes de vídeos pornográficos caras de actrizes de Hollywood, como Scarlett Johansson, ou de cantoras, como Taylor Swift. Publicou-os sob o pseudónimo “deepfake”.
Este ano, o OpenAi, um grupo investigadores apoiado por Elon Musk (fundador do PayPal e da Tesla), criaram um algoritmo para escrever notícias completamente fabricadas.