El MIT puede descifrar conversaciones al mirar las vibraciones de una bolsa de patatas
Investigadores han desarrollado una técnica que permite reconstruir audio a partir de vídeo silente
Investigadores del MIT, Microsoft y Adobe han desarrollado un algoritmo que puede reconstruir una señal de audio mediante el análisis de las vibraciones de los objetos grabados en vídeo. Hicieron un conjunto de experimentos con el que fueron capaces de recuperar conversaciones inteligibles gracias a las vibraciones de una bolsa de patatas fritas que había sido grabada tras un cristal de insonorización.
También probaron el experimento con otras señales de audio e imágenes, como vídeos de papel aluminio, la superficie de un vaso lleno de agua ó las hojas de una planta. Los investigadores mostrarán todos sus resultados en la conferencia Siggraph.
Abe Davis, autor principal del estudio, y graduado en el MIT en eléctrica y Ciencias de la computación explica: «Cuando el sonido golpea un objeto, causa que el objeto vibre. El movimiento de esta vibración crea una señal visual muy sutil que es generalmente invisible al ojo humano. La gente no se da cuenta que esta información está allí», ha dicho al portal de noticias del MIT.
En la investigación participan Frédo Durand y Bill Freeman, profesores de computación e ingeniería en el MIT, Neal Wadhwa, estudiante del MIT, Michael Rubinstein de Microsoft Research y Gautham Mysore de Adobe.
La reconstrucción de audio a partir del un vídeo requiere que el número de fotogramas captados por segudos sea mayor que la frecuencia del audio. En algunos de sus experimentos, los investigadores utilizaron una cámara de alta velocidad que capturó entre 2.000 a 6.000 cuadros por segundo.
Mucho más rápido que la velocidad con la que se puede grabar en algunos móvile,s pero mucho menor que las mejores cámaras de ala velocidad del mercado que puede filmar por encima de los 100.000 cuadros por segundo.
Pero también utilizaron hardware cotidiano, como una camára digital común. De hecho, lograron inferir información acerca de las vibraciones a partir de una vídeo grabado a 60 cuadros por segundo. Aunque se puede reconstruir audio con cámaras de menor calidad, el sonido no suele ser tan fiel al real, pero señalan que se puede reconocer el sexo de la persona que habla o el número de participantes en una conversación. Eso sí, es necesario que la cámara grabe en modo « rolling shutter » (captura gelatina) que permite el registro de la imagen a través de la exploración de la toma.
«Sacado de Hollywood
Davies califica este experimento como un «nuevo tipo de proyección de imagen». «Estamos recuperando sonidos de objetos. Eso nos da mucha información sobre el sonido alrededor del objeto, pero también nos da mucha información sobre el objeto en sí, porque diferentes objetos van a responder al sonido de diferentes maneras», ha dicho.
Según los objetos medidos, los movimientos que logran captar las cámaras y que luego se reconstruyen medían una décima parte del micrómetro. Eso quiere decir, a cinco milésimas de un píxel de una imagen de primer plano.
No es nueva la técnica de «levantar» audio a través de vibraciones. Ya los espías en los años 70 usaban esta técnica con micrófonos externos láser , que se usan para reconstruir audio en base a micromovimientos. Por eso la Casa Blanca tiene ventanas a prueba de vibración para evitar este tipo de registro. Sin embargo, este tipo de reconstrucción se tiene que realizar en el momento que se graba, en esta nueva técnica se puede reconstruir el audio a partir de imágenes de archivo.
«Somos científicos y a veces vemos estas películas , como James Bond, y pensamos, "esto es teatro de Hollywood . No es posible hacerlo. Esto es ridículo". Y de repente, ahí lo tienen. Esto está totalmente sacado de un thriller de Hollywood. ¿Sabes que el asesino ha admitido su culpabilidad porque hay imágenes de vigilancia de su bolsa de patatas fritas vibrante?», analiza Alexei Efros, profesor asociado de ingeniería eléctrica y Ciencias de la computación en la Universidad de California en Berkeley, quien expera que se puede hace run buen uso de esta técnica.
Noticias relacionadas
Esta funcionalidad es sólo para suscriptores
Suscribete
Esta funcionalidad es sólo para suscriptores
Suscribete