Fones de ouvido com cancelamento de ruído são comuns hoje em dia, mas os cientistas descobriram uma maneira de levar esses dispositivos para o próximo nível – criando fones de ouvido que podem focar em uma fonte de som externa e bloquear todos os outros ruídos.
A tecnologia, chamada “Target Speech Hearing”, utiliza inteligência artificial (AI) para permitir que o usuário fique de frente para um alto-falante próximo e – após alguns segundos – bloqueie sua voz. Isso permite que o usuário ouça apenas aquela fonte de áudio específica, retendo o sinal mesmo que o alto-falante se mova ou se afaste.
A tecnologia compreende um pequeno computador que pode ser incorporado a um par de fones de ouvido comerciais, usando sinais do microfone embutido nos fones de ouvido para selecionar e identificar a voz do locutor. Os cientistas descreveram os detalhes em um artigo publicado em 11 de maio na revista Proceedings of the CHI Conference on Human Factors in Computing Systems.
Os cientistas esperam que a tecnologia possa ser usada como auxílio para pessoas com deficiência auditiva e, a seguir, estão trabalhando para incorporar o sistema em fones de ouvido e aparelhos auditivos comerciais.
“Tendemos a pensar na IA agora como chatbots baseados na web que respondem a perguntas”, disse o principal autor do estudo, Shyam Gollakota, professor de Ciência da Computação e Engenharia da Universidade de Washington. “Neste projeto, desenvolvemos IA para modificar a percepção auditiva de qualquer pessoa que use fones de ouvido, de acordo com suas preferências. Com nossos dispositivos agora você pode ouvir claramente um único alto-falante, mesmo se estiver em um ambiente barulhento com muitas outras pessoas conversando”, Gollakota disse em um comunicado.
Audição de fala alvo (TSH) segue a pesquisa que os mesmos cientistas conduziram em “audição semântica“ano passado. Nesse projeto, eles criaram um aplicativo de smartphone com tecnologia de IA que poderia ser emparelhado com fones de ouvido, o que permitia ao usuário escolher ouvir de uma lista de “classes” predefinidas enquanto cancelava todos os outros ruídos. Por exemplo, um usuário poderiam escolher ouvir sirenes, bebês, falas ou pássaros – e os fones de ouvido destacariam apenas esses ruídos e bloqueariam todos os outros.
Para usar o TSH, o usuário fica de frente para o alto-falante cuja voz deseja ouvir, antes de tocar em um pequeno botão nos fones de ouvido para ativar o sistema quando posicionado corretamente.
Quando a voz do locutor chega ao microfone, o software de aprendizado de máquina “registra” a fonte de áudio. Ele permite uma pequena margem de erro – caso o ouvinte não esteja diretamente perpendicular ao locutor – antes de identificar a voz alvo e registrar os padrões vocais. Isso permite que ele trave no alto-falante, independentemente do volume ou da direção para a qual ele está voltado.
À medida que o orador continua a falar, melhora a capacidade do sistema de se concentrar no som porque o algoritmo identifica melhor os padrões únicos do som alvo ao longo do tempo.
Por enquanto, o TSH só pode registrar uma única fonte de áudio, ou um único alto-falante, por vez, e terá menos sucesso se houver outro ruído de volume semelhante vindo da mesma direção.
Em um mundo ideal, os cientistas apresentariam ao sistema uma amostra de áudio “limpa” para identificação e registro, sem nenhum outro ruído ambiental que pudesse interferir no processo, disseram no artigo. Mas isso não estaria de acordo com a construção de um dispositivo prático, já que obter um som nítido é um desafio em cenários do mundo real.