El laboratorio Higashinaka está desarrollando sistemas de diálogo ai-humano diseñados para trabajar junto con operadores humanos. Como parte de su investigación, se desplegó un robot guía en el Acuario Nifrel de Osaka para responder las preguntas de los visitantes sobre la vida marina. Los operadores humanos podrían intervenir para proporcionar ayuda con preguntas complejas. Crédito: Higashinaka Lab, Universidad de Nagoya. Tomado en Nifrel Aquarium, Osaka
¿Cómo se desarrolla un sistema de IA que imita perfectamente la forma en que hablan los humanos? Los investigadores de la Universidad de Nagoya en Japón han dado un paso significativo para lograr esto. Han creado J-MoshiEl primer sistema de IA disponible públicamente diseñado específicamente para patrones de conversación japoneses.
J-Moshi captura el flujo natural de la conversación japonesa, que a menudo tiene respuestas verbales cortas conocidas como “Aizuchi” que usan los oradores japoneses durante la conversación para demostrar que están escuchando y comprometidos activamente. Las respuestas como “sou desu ne” (es decir) y “naruhodo” (veo) se usan con más frecuencia que respuestas similares en inglés.
La IA tradicional tiene dificultades para usar Aizuchi porque no puede hablar y escuchar al mismo tiempo. Esta capacidad es especialmente importante para el diálogo de IA japonés que suena natural. En consecuencia, J-Moshi se ha vuelto muy popular entre los oradores japoneses que reconocen y aprecian sus patrones de conversación naturales.
El profesor Higashinaka (derecha) y su equipo están colaborando en el desarrollo de robots humanoides que combinan el habla, los gestos y el movimiento para comunicarse naturalmente con las personas. Crédito: Higashinaka Lab, Universidad de Nagoya
Construyendo un modelo japonés de moshi
El equipo de desarrollo, dirigido por investigadores del Laboratorio de Higashinaka en la Escuela de Graduados de Informática, construyó J-Moshi al adaptar el modelo Moshi en inglés creado por el Laboratorio sin fines de lucro Kyutai. El proceso tomó aproximadamente cuatro meses e implicó capacitar el sistema utilizando múltiples conjuntos de datos de habla japoneses. La investigación es publicado en el servidor de preimpresión ARXIV.
El conjunto de datos más grande se obtuvo de J-CHAT, el conjunto de datos de diálogo japonés más grande disponible del público creado y publicado por la Universidad de Tokio. Contiene aproximadamente 67,000 horas de audio de podcasts y YouTube. Además, el equipo utilizó conjuntos de datos de diálogo más pequeños pero de mayor calidad, algunos recopilados dentro del laboratorio y otros que datan de 20 a 30 años. Para aumentar sus datos de capacitación, los investigadores también convirtieron las conversaciones de chat escritas en discursos artificiales con programas de texto a voz que desarrollaron para este propósito.
Doctor en Filosofía. El estudiante Atsumoto Ohashi, el principal desarrollador de J-Moshi, demuestra cómo el sistema AI imita los patrones de conversación de japonés naturales. Ha estado trabajando en la optimización de los sistemas de diálogo orientados a tareas para su Ph.D. Crédito: Merle Naidoo, Nagoya University Ph.D. La estudiante Yuki Zenimoto se involucra con un sistema de diálogo que guarda preguntas que provoca información de salud de los usuarios a través de una conversación informal. Crédito: Merle Naidoo, Universidad de Nagoya
En enero de 2024, J-Moshi ganó una atención significativa cuando los videos de demostración se volvieron virales en las redes sociales. Más allá de su novedad técnica, tiene posibles aplicaciones prácticas en el aprendizaje de idiomas. Por ejemplo, ayudar a los oradores no nativos a practicar y comprender los patrones de conversación japoneses naturales.
El equipo de investigación también está explorando aplicaciones comerciales en centros de llamadas, entornos de atención médica y servicio al cliente. Señalan que adaptar el sistema a campos o industrias especializadas es un desafío debido a la disponibilidad limitada de datos del habla japoneses en comparación con los recursos disponibles para el inglés.
El líder del equipo de investigación, el profesor Ryuichiro Higashinaka, aporta una perspectiva única a la investigación académica de IA, después de haber pasado 19 años como investigador corporativo en NTT Corporation antes de unirse a la Universidad de Nagoya hace cinco años.
Durante su mandato de la industria, trabajó en sistemas de diálogo de consumidores y agentes de voz, incluido un proyecto para realizar una función de respuesta para Shabette Concier, un servicio de agente de voz de NTT DoComo. Para realizar más investigaciones sobre patrones de comunicación humana, estableció su propio laboratorio en la Escuela de Informática de Graduados de la Universidad de Nagoya en 2020.
Su laboratorio de 20 miembros ahora aborda desafíos que unen la investigación teórica y las aplicaciones prácticas, desde comprender el tiempo de conversación en japonés hasta la despliegue de guías de IA en espacios públicos como los acuarios.
“La tecnología como J-Moshi se puede aplicar a sistemas que funcionan con operadores humanos. Por ejemplo, nuestros robots guía en el Acuario NiFrel en Osaka pueden manejar interacciones de rutina de forma independiente y fácil de conectar a los visitantes con operadores humanos para preguntas complejas o cuándo se necesita asistencia especializada”, dijo el profesor Higashinaka. “Nuestro trabajo es parte de un proyecto National de la Oficina de la Oficina del Gabinete que tiene como objetivo mejorar la calidad del servicio a través de sistemas avanzados de colaboración AI-Human”.
Doctor en Filosofía. El estudiante Sanae Yamashita (izquierda) trabaja en técnicas que resumen las conversaciones para ayudar a los operadores humanos a intervenir cuando los sistemas de diálogo de IA necesitan ayuda. El investigador AO Guo (derecho) se centra en hacer que los robots de orientación móvil sean más fáciles de usar con el habla, los gestos y el movimiento. Crédito: Merle Naidoo, Universidad de Nagoya
Oportunidades y desafíos para las interacciones humanas-robot
El profesor Higashinaka explicó los desafíos únicos que enfrentan la investigación japonesa de IA: “Japón sufre de escasez de recursos del habla, lo que limita la capacidad de los investigadores para capacitar a los sistemas de diálogo de IA. También se deben considerar las preocupaciones de privacidad”.
Esta escasez de datos forzó soluciones creativas, como el uso de programas de computadora para separar las voces mixtas en las grabaciones de podcast en las pistas de altavoces individuales necesarias para la capacitación.
Actualmente, los sistemas de diálogo tienen dificultades con situaciones sociales complejas, especialmente cuando las relaciones interpersonales y los entornos físicos deben considerarse. Los obstáculos visuales como las máscaras o los sombreros también pueden afectar su rendimiento, ya que se cubren las señales visuales importantes como las expresiones faciales. Las pruebas en el Acuario NiFrel de Osaka mostraron que a veces la IA no puede manejar preguntas de los usuarios y necesita que los operadores humanos intervengan y se hagan cargo de la conversación.
Si bien J-Moshi representa un logro significativo en la captura de patrones de conversación japoneses naturales con el habla superpuesta y las interjecciones de Aizuchi, estas limitaciones significan que actualmente necesita sistemas de respaldo humanos para la mayoría de las aplicaciones prácticas. Los investigadores están trabajando para mejorar estos sistemas de respaldo humanos para mitigar estos desafíos. Estos incluyen métodos para el resumen de diálogo y los sistemas de detección de desglose del diálogo que alerta a los operadores de posibles problemas para que puedan responder rápidamente.
La investigación más amplia del laboratorio se extiende más allá de J-Moshi e incluye múltiples métodos para la interacción humana-robot. En colaboración con colegas que trabajan en robots humanoides realistas, están desarrollando sistemas de robots que coordinan el habla, los gestos y el movimiento para la comunicación natural.
Estos robots, incluidos los fabricados por Unitree Robotics, representan los últimos avances en IA en forma física, donde los sistemas de diálogo deben navegar no solo los matices conversacionales sino también la presencia física y la conciencia espacial. El equipo muestra regularmente su trabajo durante los días de la universidad abierta del campus, donde el público puede experimentar cómo los sistemas de diálogo de IA están evolucionando de primera mano.
Su documento sobre J-Moshi ha sido aceptado para su publicación en InterpataLa conferencia internacional más grande en el campo de la tecnología e investigación del habla. El profesor Higashinaka y su equipo esperan presentar su investigación de J-Moshi en Rotterdam, Países Bajos, en agosto de 2025.
“En el futuro cercano, presenciaremos la aparición de sistemas capaces de colaborar a la perfección con los humanos a través del habla y los gestos naturales. Aspiro a crear las tecnologías fundamentales que serán esenciales para una sociedad tan transformadora”, dijo el profesor Higashinaka.
Más información: Atsumoto Ohashi et al, hacia un sistema de diálogo hablado Full-Duplex japonés, ARXIV (2025). Doi: 10.48550/arxiv.2506.02979
Escuche el audio de J-Moshi aquí: https://nu-dialogue.github.io/j-moshi/
La base de código utilizada para el entrenamiento J-Moshi está disponible aquí: https://github.com/nu-dialogue/moshi-finetune
Información en el diario: ARXIV
Proporcionado por la Universidad de Nagoya
Cita: el primer sistema de diálogo de IA japonés disponible públicamente puede hablar y escuchar simultáneamente (2025, 15 de julio) recuperado el 15 de julio de 2025 de https://techxplore.com/news/2025-07-japanse-ai-dialogue-simultanely.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









