Em breve, leitura labial será coisa do passado. Um novo projeto permitirá que se entenda conversas através da vibração que o som provoca nos objetos. Pesquisadores do MIT, em parceria com a Microsoft e a Adobe, criaram um algoritmo que pode reconstruir um sinal de áudio simplesmente analisando algumas vibrações de itens retratados em um vídeo.

Surpreendentemente, os pesquisadores conseguiram capturar uma fala de maneira bastante compreensível a partir das vibrações de um saco de batata chips, fotografada a 15 m de distância e através de um vidro à prova de som. Em um comunicado à imprensa, Abe Davis, um estudante graduado em engenharia elétrica e ciência da computação do MIT, explicou que quando o som atinge um objeto, faz com que ele vibre. Esse movimento cria um sinal visual muito sutil, que geralmente é invisível a olho nu.
saiba mais
Embora essa explicação faça parecer que o processo é simples, na prática, não é tão fácil assim. Para conseguir a façanha, é necessário que a frequência das amostras de vídeo, que é o número de quadros capturado por segundo, sejam maiores do que a frequência do sinal de áudio.
Para colocar isso em perspectiva, smartphones capturam 60 quadros por segundo, enquanto os cientistas usaram um dispositivo que captou de 2 mil a 6 mil quadros no mesmo intervalo de tempo. Atualmente, as melhores câmeras comerciais de alta velocidade podem registrar até 100 mil frames por segundo.
Os cientistas mediram as propriedades mecânicas dos objetos filmados e concluíram que os movimentos tinham cerca de um décimo de um micrômetro. Em uma imagem vista de perto, isso corresponde a cinco milésimos de pixel. A partir da mudança de valor da cor de um único pixel ao longo do tempo, é possível inferir movimentos menores do que essa unidade.
Mas isso não quer dizer que instrumentos menos precisos não possam ser usados. Os pesquisadores fizeram uso de câmeras convencionais para alguns de seus experimentos e descobriram que mesmo com elas é possível encontrar informações suficientes para dar detalhes precisos sobre o sexo do falante e do número de colunas em uma sala.
Em sua opinião, qual é o futuro da tecnologia? Comente no Fórum do TechTudo
A técnica tem aplicações óbvias em análise forense para investigações policiais, pois além de recuperar os sons dos objetos, ela revela diversas informações, como o que está acontecendo ao redor do objeto e além de dados sobre o item em si.
O trabalho pode ser visto no documento “The visual microphone: passive recovery of sound from video”. Como ainda é um projeto, pode ser que em breve as consequências do estudo comecem a ser aplicadas e vistas fora dos laboratórios de pesquisa. Por enquanto, ele é apenas um monte de possibilidades a serem exploradas.
Nenhum comentário:
Postar um comentário