Ciência

Novo Aparelho Traduz Atividade Cerebral em Discurso

Nova investigação pode um dia dar voz às pessoas que perderam a capacidade de falar devido a perturbações neurológicas.quinta-feira, 9 de maio de 2019

Por Michael Greshko, Maya Wei-Haas
Esta matriz de elétrodo do tamanho de um selo é colocada diretamente no cérebro dos pacientes e consegue detetar pequenas flutuações na sua voltagem quando estes falam. Depois, duas redes neurais traduzem essa atividade em discurso sintetizado.

No futuro, as pessoas que perderam a capacidade de falar podem recuperar a sua voz. Um novo estudo demonstra que a atividade elétrica do cérebro pode ser descodificada e utilizada para sintetizar discurso.

O estudo, publicado no dia 24 de abril na Nature, revela dados de cinco pacientes cujos cérebros já estavam sob monitorização devido a ataques de epilepsia, com matrizes de elétrodos do tamanho de selos colocadas diretamente nas superfícies dos seus cérebros.

Enquanto os participantes no estudo liam centenas de frases – algumas de contos infantis clássicos como A Bela Adormecida e Alice No País Das Maravilhas – os elétrodos monitorizavam pequenas flutuações nas voltagens cerebrais para modelos computadorizados aprenderem a fazer a correlação com a fala. Esta tradução foi conseguida através de um passo intermédio, que ligava a atividade cerebral a uma simulação complexa de traços vocais – uma configuração que se baseia em estudos recentes que descobriram que os centros de fala do cérebro codificam os movimentos dos lábios, da língua e do maxilar.

“É uma abordagem muito, muito elegante”, diz Christian Herff, investigador de doutoramento na Universidade de Maastricht que estuda métodos semelhantes de tradução de atividade cerebral para fala.

O dispositivo personaliza um esforço em rápido desenvolvimento para mapear o cérebro e desenvolver métodos de descodificação da sua atividade. Há poucas semanas, uma equipa separada, incluindo Herff, publicou um modelo na Journal of Neural Engineering que também sintetizava a fala da atividade cerebral, usando uma abordagem ligeiramente diferente, sem a simulação dos traços vocais.

“A descodificação do discurso é uma nova e excitante fronteira para as ligações cérebro-máquina”, diz Cynthia Chestek, da Universidade do Michigan, que não participou em qualquer um dos estudos. “E existe um subconjunto da população que pode dar um uso enorme a isto.”

Ambas as equipas, e outros investigadores de todo o mundo, esperam ajudar as pessoas que perderam a capacidade de falar devido a condições como a Esclerose Lateral Amiotrófica (ELA) – distúrbio neurodegenerativo conhecido como doença de Lou Gehrig – e acidentes vasculares cerebrais. Embora os centros de fala dos seus cérebros permaneçam intactos, os pacientes ficam impossibilitados de comunicar, ficando isolados do mundo que os rodeia.

No passado, os esforços concentravam-se em captar a atividade cerebral para permitir que os pacientes soletrassem uma palavra de cada vez. Mas a velocidade de digitação desses dispositivos era de cerca de 8 palavras por minuto – muito longe da fala natural, que chega às 150 palavras por minuto.

“O cérebro é a máquina mais eficiente de todas e evoluiu durante milénios, e o discurso é um dos grandes marcos no comportamento humano, separando-nos até dos primatas não-humanos”, diz o coautor do estudo da Nature, Gopala Krishna Anumanchipalli, da Universidade da Califórnia, em São Francisco. “E nós encaramos esta capacidade como um dado adquirido – nem sequer percebemos o quão complexo é este comportamento motor.”

Embora os resultados do estudo sejam encorajadores, serão necessários vários anos de trabalho mais aprofundado para que esta tecnologia fique disponível aos pacientes e seja adaptada para outras línguas para além do inglês. E estes esforços não irão provavelmente ajudar pessoas que sofreram danos nos centros de fala dos seus cérebros, como alguns traumatismos cerebrais ou lesões. Os investigadores também enfatizam que estes sistemas não equivalem à leitura da mente: os estudos monitorizaram apenas as regiões do cérebro que orquestram os traços vocais durante um discurso consciente.

“Se eu estiver a pensar, ‘Uau, hoje foi um dia difícil’, não estou a controlar os meus músculos faciais”, diz Herff. “Ou seja, não é isso que estamos a descodificar neste caso.”

OUVIR O CÉREBRO
Para traduzir pensamentos em frases, Anumanchipalli e os seus colegas usaram elétrodos colocados diretamente na superfície do cérebro. Apesar de ser um processo invasivo, esta monitorização direta é fundamental para o seu sucesso. “Como o crânio é muito rijo e age como um filtro, não deixa passar toda a riqueza de atividade que está acontecer no interior”, diz Anumanchipalli.

Depois de recolherem dados de alta resolução, os investigadores canalizaram os sinais gravados através de duas redes neurais artificiais – modelos computadorizados que imitam os processos cerebrais para encontrar padrões em dados complexos. A primeira rede descortinou a forma como o cérebro sinaliza aos lábios, à língua e aos maxilares para se moverem. A segunda converteu esses movimentos em discurso sintético, treinando o modelo computadorizado com gravações dos discursos dos participantes.

O verdadeiro teste veio a seguir: conseguiriam outros humanos perceber um discurso sintetizado? Para obter respostas, os investigadores recrutaram um grupo de 1755 falantes da língua inglesa, através da plataforma Amazon Mechanical Turk. Subgrupos desses ouvintes foram destacados para 16 tarefas diferentes, para julgar a capacidade de inteligibilidade das palavras e das frases.

“O cérebro é a máquina mais eficiente de todas e evoluiu durante milénios, e o discurso é um dos grandes marcos no comportamento humano, separando-nos até dos primatas não-humanos.”

por GOPALA ANUMANCHIPALLI, UNIVERSIDADE DA CALIFÓRNIA, SÃO FRANCISCO

Os participantes ouviram 101 frases de discurso sintetizado e tentaram transcrever o que tinham escutado, escolhendo palavras a partir de um grupo de 25 a 50 palavras. Acertaram entre 21% a 43%, dependendo do número de palavras que tinham para escolher.

Nem todas as gravações eram igualmente inteligíveis. Algumas frases simples, como “Este baloiço é seguro?”, receberam sempre transcrições corretas. Mas frases mais complexas, como “No crepúsculo do décimo segundo dia teremos vinho”, só foram transcritas corretamente em 30% das vezes.

Alguns sons eram mais facilmente descodificados do que outros. Sinais sustentados, como o ch em “chave”, passaram pela análise de forma limpa, enquanto que alguns ruídos agudos – como o b em “base” – eram suavizados e confusos.

Embora a reprodução ainda não seja perfeita, Chestek refere que os dados usados para treinar o sistema ainda são relativamente poucos. “Os investigadores estão a trabalhar com uma mão atrás das costas, estão limitados a pacientes com epilepsia ou a pacientes que foram sujeitos a cirurgias relacionadas com epilepsia”, diz Chestek, acrescentando que sistemas futuros, implantados com o propósito único de transcrever atividade cerebral para discurso, podem ser ligeiramente otimizados. “Cautelosamente, estou muito excitada com tudo isto.”

ELÉTRICO
Os autores do estudo da Nature usaram um processo de duas fases, para tornar o seu discurso sintetizado mais perceptível. Mas em princípio, e tal como demonstrado pelo estudo na Journal of Neural Engineering, é exequível passar diretamente da atividade cerebral para o discurso sem a utilização de um traço vocal simulado.

Nesse trabalho, os investigadores registaram a atividade cerebral e o discurso de seis pessoas que estavam a ser sujeitas a cirurgias de remoção de tumores cerebrais, usando uma grelha de elétrodos, semelhante à do estudo da Nature, no cérebro. A equipa treinou depois uma rede neural para encontrar associações entre as palavras faladas e a atividade cerebral de cada paciente, projetando o sistema de maneira a funcionar com apenas 8 a 13 minutos de áudio – todos os dados que conseguiam recolher durante as cirurgias.

“É fácil imaginar a tensão que uma situação destas pode provocar: os cirurgiões abrem o crânio e aplicam esta grelha de elétrodos para mapear onde termina o cancro e onde começa a parte importante do córtex (matéria cerebral)”, diz Herff. “Terminado esse processo, precisam de calcular onde devem cortar – e é durante esse intervalo que os nossos dados são registados.”

De seguida, os investigadores colocaram o sinal da rede neural num programa para ser convertido em discurso. Ao contrário do estudo da Nature, que tentou sintetizar frases completas, Herff e os seus colegas concentraram-se em sintetizar palavras individuais.

Comparar diretamente o desempenho dos dois métodos não é fácil, realçou Marc Slutzky, da Universidade Northwestern e coautor do estudo da Journal of Neural Engineering. Mas revelam semelhanças. “As poucas métricas que usámos em comum”, diz, “pareciam ter desempenhos algo parecidos – pelo menos em alguns dos sujeitos.”

DESAFIOS PERSISTENTES
É necessário derrubar obstáculos importantes até que esta tecnologia caia nas mãos – ou nos cérebros – dos pacientes. Por exemplo, ambos os modelos dos estudos são baseados em pessoas que ainda conseguem falar, e não foram testados em pessoas que antes conseguiam falar e que agora já não conseguem.

“Existe uma questão essencial... saber se os mesmos algoritmos irão funcionar ou não”, diz Edward Chung (coautor do estudo da Nature), professor de cirurgia neurológica na Universidade da Califórnia, em São Francisco. “Mas estamos a chegar lá, estamos mais perto de o conseguir.”

Anumanchipalli e a sua equipa tentaram lidar com este problema treinando participantes que não vocalizavam palavras, em vez disso, murmuravam frases de forma silenciosa. Embora este processo conseguisse gerar com sucesso um discurso sintetizado, os registos tinham menos precisão que os registos feitos com discursos audíveis. Para além disso, fazer esta mímica continua a exigir aos pacientes que mexam a face e a língua – algo que não pode ser feito por pessoas com problemas neurológicos e com limitações na fala. 

“Para os pacientes onde queremos mesmo usar isto, não vai ajudar muito”, diz Slutzky sobre os testes com mímica. Apesar de Slutzky encarar o trabalho como uma boa demonstração das suas possibilidades atuais, no seu todo as investigações ainda precisam de trabalhar muito para dar o salto e chegar às pessoas que já não conseguem falar.

A esperança é a de que no futuro as ligações entre cérebro-discurso se possam adaptar aos seus utilizadores, ao mesmo tempo que os utilizadores se adaptam ao dispositivo – mantendo o controlo sobre as ligações do aparelho e sobre alguma da sua privacidade. Por exemplo, como conseguem os utilizadores manter o controlo sobre os seus dados, como o vocabulário personalizado que os seus sistemas constroem com o tempo?

“Podemos desligar essa função (como num smartphone), mas e se não tivermos esse controlo físico?” pergunta Melanie Fried-Oken, fonoaudióloga da Universidade Oregon Health & Science e especialista em tecnologias assistidas da fala. “Até que ponto queremos níveis de privacidade e de identidade para fins de comunicação? Não sabemos as respostas.”

Nas décadas que se seguem, as pessoas com problemas como a paralisia cerebral, que geralmente não têm controlo sobre os músculos da fala desde muito cedo, podem crescer com dispositivos desde a infância – ajudando os seus cérebros a organizar discursos desde muito cedo.

“Não era fantástico podermos dar isto a um menino de três anos para ele conseguir interagir com o ambiente?” diz Fried-Oken. “Tal como fazemos implantes cocleares a crianças surdas – é a mesma coisa! Existe aqui muito potencial, mas também existem muitas questões do foro ético e neurológico.”
 

Este artigo foi publicado originalmente em inglês no site nationalgeographic.com

Continuar a Ler