Há máquinas que estão a aprender a “ouvir” a covid-19, mas precisam de dados

As doações de voz podem ajudar investigadores a aprender mais sobre a covid-19. É a falta de dados que dificulta há anos avanços no diagnóstico de várias doenças físicas e mentais através da voz.

Foto
PIXABAY

Diz o ditado que a voz é espelho da alma. Basta ouvir alguém a falar para decifrar a idade, o humor e, ao ouvir com atenção, até o estado de saúde — mental e físico. E há cientistas que acreditam que analisar a voz de humanos pode ajudar a acelerar o diagnóstico da covid-19. Basta que para tal existam dados para estudar: milhares de gravações de voz de todo o mundo.

Há meses que a Universidade de Carnegie Mellon, nos Estados Unidos, está a pedir “doações de voz”, que consistem em pequenas conversas gravadas em qualquer língua. A Universidade de Augsburgo (na Alemanha), o Imperial College de Londres (no Reino Unido), a Universidade de Harvard e o Instituto de Tecnologia do Massachusetts (nos Estados Unidos) têm projectos semelhantes em curso. Em Israel, é o Ministério da Defesa que faz o pedido.

Alguns modelos estão a ter mais de 90% de sucesso a identificar pessoas com covid-19.

“A voz de alguém é quase como uma impressão digital”, descreve ao PÚBLICO Rita Singh, uma cientista computacional na Universidade de Carnegie Mellon que estuda a voz humana há anos. “Há muito que sabemos que a voz pode indicar se alguém não é saudável. É quase intuitivo. Mesmo sem ferramentas sofisticadas, a voz de alguém revela se está embriagado, constipado ou tem problemas musculares. Porque não a covid-19?”

Antes da erupção da pandemia era frequente Rita Singh ajudar advogados e autoridades de segurança a distinguir vozes mecânicas de vozes humanas e criar perfis dos responsáveis de chamadas falsas e assédio por telefone. Em Fevereiro, começou a explorar a possibilidade de aprender mais sobre a covid-19 através da voz de quem passa pela doença. Isto inclui analisar o som produzido, mas também as respirações e as pausas entre palavras. O objectivo é criar uma aplicação móvel que as pessoas possam usar antes de sair de casa para evitar a propagação da doença.

“Desde o começo desta pandemia que se sabe que em pacientes sintomáticos a covid-19 afecta fortemente o tracto respiratório superior e as suas funções. E o tracto respiratório afecta fortemente as cordas vocais. Daí a nossa hipótese: há informação na forma como as cordas vocais oscilam que pode ajudar a diagnosticar precocemente a covid-19”, resume Rita Singh.

Foto
Alguns modelos estão a ter a ter mais de 90% de sucesso a identificar pessoas com covid-19 GETTY IMAGES

O processo junta humanos e inteligência artificial, com algoritmos capazes de detectar mudanças nas vibrações das cordas vocais que são imperceptíveis ao ouvido humano. Para já, porém, é impossível saber se as características que o algoritmo está a encontrar são exclusivas para a covid-19.

“Temos de aceitar os dados destas investigações com uma pitada de sal”, alerta Björn Schuller, um especialista em discurso que trabalha na Universidade de Augsburgo, que participa noutro projecto a analisar a relação entre a covid-19 e a voz. “Será que o algoritmo aprendeu a reconhecer o contexto e começa a detectar casos positivos nos testes, porque sabe que estão em hospitais? No caso da covid-19, é muito complicado arranjar dados, porque se está a trabalhar com a saúde e com populações vulneráveis como os idosos.”

Foto
Rita Singh DR

Rita Singh confirma as dificuldades e pede cautela a falar de modelos que prometem 90% de eficácia. “O algoritmo pode estar a atribuir características à covid-19 que são comuns a outras doenças respiratórias”, justifica. “É como criar um detector de maçãs ao treiná-lo apenas com maçãs e batatas. O sistema pode até ter 100% de precisão a distinguir maçãs, mas nada garante que tenha essa eficácia com outras frutas e tubérculos à mistura.”

E reforça: “Isto é uma área recente e temos poucas certezas, até porque maioria dos dados que temos é de pacientes em ambiente clínico.”

Ao todo, no final de Setembro, a universidade tinha apenas 730 vozes de doentes para análise e os primeiros relatórios publicados baseiam-se na análise de pouco mais de uma dúzia de vozes. Muitos dados são obtidos de doentes em Singapura e no Chile.

“Em muitos países, há demasiadas regras para recolher dados”, nota Singh.

Falta de dados trava ciência

A falta de dados é um problema transversal à análise da voz no âmbito da saúde e um dos motivos para que a área tenha evoluído pouco, apesar do interesse de diversas disciplinas.

“Obter dados é o maior desafio”, repete Neguine Rezaii, uma neuropsiquiatra natural do Irão que actualmente trabalha no Hospital Geral do Massachusetts, nos Estados Unidos, e estuda a possibilidade de usar algoritmos para acelerar o diagnóstico da esquizofrenia através do discurso. A ideia é criar um “electrocardiograma para a psiquiatria” com base na voz. “O grande problema da psiquiatria é a lentidão e a falta de precisão. Demoramos horas a falar com os pacientes e a analisar o conteúdo da conversa e há muita informação que nos escapa”, argumenta.

A neurocientista Natália Mota, que trabalha no Instituto do Cérebro da Universidade Federal do Rio Grande do Norte, no Brasil, começou a desenvolver um projecto semelhante em Portugal na startup Psychomeasure. A ideia, incubada na Universidade de Aveiro, é criar uma aplicação móvel para ajudar as pessoas a monitorizarem o seu estado de espírito e os seus pensamentos para acelerar o diagnóstico de distúrbios mentais.

“A fala é o substrato dos profissionais de saúde mental”, justifica a cientista que é co-fundadora da Psychomeasure. “E o comportamento motor e a fala são os grandes outputs do sistema nervoso. É óbvio que a sua análise em massa pode desencadear provas e indícios sobre saúde mental.”

Mas como arranjar esses dados? “Não arranjamos”, responde Neguine Rezaii. “Para termos um algoritmo muito competente e robusto precisamos de centenas de exemplos de discurso de pessoas com demência”, teoriza a investigadora, justificando a evolução lenta da área. “Isto são doenças raras. Obter excertos de voz para analisar já é difícil com pessoas saudáveis, quanto mais com pessoas que têm alguma doença.”

Na União Europeia, por exemplo, há o Regulamento Geral sobre a Protecção de Dados (RGPD) que confere especial protecção aos “dados pessoais relativos à saúde” e o “direito ao esquecimento” que permite que as pessoas peçam às empresas para apagarem os seus dados a qualquer altura. Segundo o RGPD, a voz pode ser considerada um dado pessoal, de saúde, na medida em que revela “informações sobre a sua saúde física ou mental no passado, no presente ou no futuro”. Estes dados pertencem a “categorias especiais” que carecem de protecção maior.

E nos Estados Unidos, onde decorrem muitos destes trabalhos, também há restrições em gravar a voz pacientes.

Foto
A falta de dados é um problema transversal à análise da voz no âmbito da saúde Pixabay

“É tudo controverso e complexo nesta área, porque a voz inclui dados pessoais e sensíveis, especialmente se falamos de saúde”, clarifica Sara Gerke, especialista em lei sobre biomedicina na Faculdade de Direiro da Universidade de Harvard. Quando se usa inteligência artificial para fazer a análise, a questão agudiza-se. “As três principais preocupações legais são garantir a privacidade das pessoas, a segurança de quem usa estes sistemas e quem tem a responsabilidade sobre os resultados”, explica.

E, se há poucos dados, vai ser difícil dar garantias. “Quando as máquinas tomam decisões, dependem de bases de dados que têm de analisar. Se há poucas variáveis nos algoritmos, os resultados podem ser enviesados e podem não ajudar quem precisa”, acrescenta Timo Minssen, professor de Direito na Universidade de Copenhaga, na Dinamarca, e director do Instituto de Direito e Inovação Biomédica daquela instituição. “Sabemos por experiência que os indivíduos que mais precisam de tratamento são aqueles sobre os quais temos menos dados, porque não participam nos inquéritos públicos.”

Soma-se o facto de as máquinas não conseguirem explicar o raciocínio que seguem. Trata-se do fenómeno “caixa negra”: os especialistas conseguem ver a informação (dados) que dão às máquinas e as conclusões a que chegam, mas o processo para lá chegar é um mistério.

Entre o amor e o medo da tecnologia

O cientista da computação britânico Max Little acredita que as coisas têm melhorado. Há mais de uma década que o investigador da Universidade de Birmingham, no Reino Unido, começou a pesquisar se analisar a voz de alguém podia acelerar o diagnóstico da doença de Parkinson. Em 2015, começou a recolher dados com telemóveis.

“Talvez o maior desenvolvimento tenha sido mostrar como smartphones, que agora praticamente toda a gente tem, podem ser usados para gravar voz”, explica Little ao PÚBLICO.

Para Rita Singh, porém, as dificuldades vêm da relação que as pessoas têm com a tecnologia. “Não tenham dúvidas de que gigantes tecnológicas como a Amazon, a Google ou mesmo empresas de telecomunicações têm a capacidade de recolher os dados de que precisamos em algumas horas mas não o podem fazer”, frisa.

Em causa estão leis de privacidade que impedem que os dados que as pessoas partilham, voluntariamente, na Internet, sejam usados para outros fins.

O alemão Björn Schuller acredita que é um problema cultural: “A Europa e os Estados Unidos são muito tecnofóbicos. Nos países asiáticos é mais fácil desenvolver este tipo de iniciativas, porque as pessoas são mais favoráveis à tecnologia.” A perspectiva pode mudar com a pandemia, defende.

Negar o tratamento da voz para fins científicos não é um direito absoluto. “Estes princípios e direitos não são absolutos e podem deixar de prevalecer, por exemplo, quando o tratamento dos dados (no caso a voz) for necessário para defesa da saúde pública (e no interesse público) ou no caso de investigação científica”, explica ao PÚBLICO Damião Oliveira, juiz e autor do livro Direito Constitucional e Neurociências, que já viveu em Portugal e no Brasil. Em Portugal, continua o juiz, a Lei de Informação Genética Pessoal e Informação de Saúde (Lei 12/2005 de 26 de Janeiro) permite que a informação de saúde possa “ser facultada para fins de investigação”, desde que anonimizada.

Um dos critérios fundamentais, diz Damião Oliveira, é usar “ferramentas que não exponham o dono dos dados (no caso, da voz) ao público”. Explicar que isto acontece é fundamental para a confiança no processo, argumenta Max Little, que está a usar a voz para perceber a evolução da doença de Parkinson. “[A privacidade] é definitivamente um motivo de preocupação e é preciso explicar que recolher este tipo de dados da Internet nunca será 100% seguro”, realça, defendendo uma abordagem honesta sobre os riscos. “Vai ser sempre uma questão de equilibrar o risco e o benefício.”

Será que em 2020 estamos numa altura em que o benefício parece maior? O investigador alemão Björn  Schuller acredita que sim: “Em momentos de crise conseguimos mais dados, porque as pessoas percebem a importância daquilo que fazemos.”

Rita Singh pede que se confie na ciência. “O nosso algoritmo não é perfeito, mas pode ser usado como uma ferramenta de prevenção”, descreve. “E isso pode ajudar a travar a propagação dos casos de covid-19.”

E a possibilidade de pessoas usarem máquinas para manipular o sistema? Aí não há preocupação. É ficção científica, diz Rita Singh. “Ainda é fácil saber quando se está a falar com um humano, porque há inconsistências”, destaca a investigadora. “Com ou sem covid-19, somos inconsistentes. A nossa voz nunca vibra da mesma forma, nunca respiramos da mesma forma. As máquinas podem simular isto, claro, mas quando o fazem há sempre um padrão. No ser humano, não há padrão. Daí o potencial de estudar a voz.” E remata: “Não há duas vozes iguais.”