Los auriculares con IA ofrecen traducción grupal con clonación de voz y audio espacial 3D

Crédito: Universidad de Washington
Tuochao Chen, un estudiante de doctorado de la Universidad de Washington, recientemente recorrió un museo en México. Chen no habla español, por lo que dirigió una aplicación de traducción en su teléfono y señaló el micrófono en el guía turístico. Pero incluso en la relativa tranquilidad de un museo, el ruido circundante era demasiado. El texto resultante era inútil.
Han surgido varias tecnologías recientemente prometiendo una traducción con fluidez, pero ninguno de estos resolvió el problema de los espacios públicos de Chen. Las nuevas gafas de Meta, por ejemplo, funcionan solo con un altavoz aislado; Tocan una traducción de voz automatizada después de que termina el altavoz.
Ahora, Chen y un equipo de investigadores de la UW han diseñado un sistema de auriculares que traduce varios altavoces a la vez, al tiempo que preservan la dirección y las cualidades de las voces de las personas. El equipo construyó el sistema, llamado traducción del habla espacial, con auriculares con cancelación de ruido en los estantes equipados con micrófonos. Los algoritmos del equipo separan los diferentes altavoces en un espacio y los siguen a medida que se mueven, traducen su discurso y lo reproducen con un retraso de 2-4 segundos.
Los investigadores de la Universidad de Washington diseñaron un sistema de auriculares que traduce a varias personas que hablan a la vez, siguiéndolas a medida que se mueven y preservando la dirección y las cualidades de sus voces. El equipo construyó el sistema, llamado traducción del habla espacial, con auriculares que cancelaron el ruido de los estados equipados con micrófonos. Crédito: Chen et al./chi ’25
El equipo presentó su investigación el 30 de abril en la Conferencia ACM Chi sobre factores humanos en sistemas informáticos en Yokohama, Japón. El código para el dispositivo de prueba de concepto está disponible para que otros se construyan. “Otra tecnología de traducción se basa en la suposición de que solo una persona está hablando”, dijo el autor senior Shyam Gollakota, profesor de la UW en la Escuela de Informática e Ingeniería Paul G. Allen. “Pero en el mundo real, no puedes tener una sola voz robótica hablando para varias personas en una habitación. Por primera vez, hemos conservado el sonido de la voz de cada persona y la dirección de la que viene”.
El sistema hace tres innovaciones. Primero, cuando se enciende, detecta inmediatamente cuántos altavoces hay en un espacio interior o exterior.
“Nuestros algoritmos funcionan un poco como el radar”, dijo el autor principal Chen, un estudiante de doctorado de la UW en la Escuela Allen. “Por lo tanto, están escaneando el espacio en 360 grados y determinando y actualizando constantemente si hay una persona o seis o siete”.
Luego, el sistema traduce el discurso y mantiene las cualidades expresivas y el volumen de la voz de cada altavoz mientras se ejecuta en un dispositivo, tales dispositivos móviles con un chip Apple M2 como computadoras portátiles y Apple Vision Pro. (El equipo evitó el uso de la computación en la nube debido a las preocupaciones de privacidad con la clonación de voz). Finalmente, cuando los altavoces mueven la cabeza, el sistema continúa rastreando la dirección y las cualidades de sus voces a medida que cambian.
El sistema funcionó cuando se probó en 10 configuraciones interiores y exteriores. Y en una prueba de 29 participantes, los usuarios prefirieron el sistema sobre modelos que no rastrean los altavoces a través del espacio.
En una prueba de usuario separada, la mayoría de los participantes prefirieron un retraso de 3-4 segundos, ya que el sistema cometió más errores al traducir con un retraso de 1-2 segundos. El equipo está trabajando para reducir la velocidad de traducción en futuras iteraciones. El sistema actualmente solo funciona en un habla común, no un lenguaje especializado, como la jerga técnica. Para este documento, el equipo trabajó con español, alemán y francés, pero el trabajo previo en modelos de traducción ha demostrado que pueden ser entrenados para traducir alrededor de 100 idiomas.
“Este es un paso para romper las barreras del idioma entre las culturas”, dijo Chen. “Entonces, si estoy caminando por la calle en México, aunque no hablo español, puedo traducir todas las voces de la gente y saber quién dijo qué”.
Qirui Wang, pasante de investigación de Hydrox AI y un estudiante universitario de UW en la Escuela Allen mientras completa esta investigación, y Runlin He, un estudiante de doctorado de la UW en la Escuela Allen, también son coautores en este documento.
Más información: Tuochao Chen et al, Traducción del habla espacial: Traducción a través del espacio con audibles binaurales, Actas de la Conferencia CHI de 2025 sobre factores humanos en sistemas informáticos (2025). Doi: 10.1145/3706598.3713745
Proporcionado por la Universidad de Washington
Cita: los auriculares a IA a IA ofrecen traducción grupal con clonación de voz y audio espacial 3D (2025, 10 de mayo) Recuperado el 10 de mayo de 2025 de https://techxplore.com/news/2025-05-AI-Powered-Headphones-Group-voice.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.