Los sistemas de administración y almacenamiento de datos de supercomputadora y corral Lonestar6 (izquierda) (derecha) en el Centro de Computación Avanzada de Texas son recursos disponibles a través de asignaciones otorgadas por la CyberInfraestructura (UTRC) de UT System Research (UTRC). Crédito: TACC
Desde la función de voz a texto en su teléfono hasta los subtítulos que hacen que los videos sean más accesibles, la transcripción del habla ya está entretejida en la vida cotidiana. Detrás de escena, la inteligencia artificial está haciendo el trabajo pesado, transformando la palabra hablada en texto con velocidad y precisión que una vez parecía imposible.
En el Centro de Computación Avanzada de Texas, la supercomputadora Lonestar6 está ayudando a los científicos del habla de UT Dallas a superar los límites del reconocimiento automático de voz (ASR) para los niños. Al crear abstracciones matemáticas llamadas ‘unidades de habla discretas’ del audio como una forma de codificación anónima, los investigadores pueden identificar problemas de habla y lenguaje en niños pequeños y permitir intervenciones más rápidas para ayudarlos.
“El objetivo es que podamos comprender y comprender cómo hablan los niños”, dijo Satwik Dutta, un doctorado. Estudiante de la Escuela de Ingeniería e Informática de Erik Jonsson y Eugene McDermott Graduate Fellow en UT Dallas. Dutta y su asesor John Hl Hansen, presidente distinguido en telecomunicaciones y profesor en ingeniería eléctrica, coautor de A estudiar Sobre el desarrollo de sistemas ASR para niños publicados en el International Journal of Human -Concomuter Studies.
“Con los años, desarrollar dicho sistema automático de reconocimiento de voz ha sido muy desafiante, especialmente para los niños”, dijo Dutta. “Esto se debe a que los niños, especialmente aquellos menores de ocho años, todavía están desarrollando sus habilidades habladas y vocales, y su conocimiento de la gramática. Su discurso puede verse muy diferente a la mayoría de los sistemas ASR de código abierto creados con datos del habla adultos, lo que resulta en un rendimiento modelo deficiente con el habla de los niños”.
Dutta está contribuyendo a un proyecto financiado por la Fundación Nacional de Ciencias en UT Dallas llamado Interacciones de medición en las aulas. Dirigido por Hansen en colaboración con el coautor del estudio Dwight Irvin del Centro Anita Zucker para la Excelencia en Estudios de la Primera Infancia de la Universidad de Florida, el proyecto también incluye socios de la Universidad de Kansas, que reúne un equipo multiinstitucional para avanzar en la investigación de la primera infancia.
Cuando el proyecto comenzó bajo restricciones Covid-19, los investigadores se limitaron a conjuntos de datos existentes de más de mil niños registrados a través de auriculares durante tutoriales virtuales. Una vez que se aliviaron las restricciones, el equipo pudo recopilar nuevos datos en entornos del mundo real, registrando a los niños de preescolar en entornos de cuidado infantil ruidosos utilizando una pequeña grabadora llamada Lena Dispositivo, discretamente metido en el bolsillo de una camiseta personalizada.
Las supercomputadoras de TACC avanzan en la investigación del habla infantil
Este proyecto estudia un nuevo aspecto del reconocimiento automático de voz utilizando unidades de habla discretas, que pueden verse como representaciones matemáticamente abstractas del habla. La conclusión: crear la secuencia de salida de unidades de habla discretas hace que sea prácticamente imposible volver a retroceder y crear la forma de onda del habla original, introduciendo así un grado de protección de la privacidad.
“Tan pronto como se carga el discurso, puede convertirlo en unidades de habla discretas, entonces no tiene ninguna preocupación de violar la privacidad porque el discurso se ha ido. Ya no puede generarlo”, dijo Dutta.
El proceso de conversión a unidades de voz discretas elimina las capas de redundancia del contenido de datos y reduce los requisitos generales de capacitación y computación para el modelo ASR.
“Ahí es donde TACC resultó indispensable. Mi modelo ASR discreto basado en el habla tenía solo 40 millones de parámetros. Usando sistemas TACC, pude obtener un rendimiento similar a un modelo ASR de extremo a extremo, que tenía 428.96 millones de parámetros, casi 10 veces el tamaño”.
TACC otorgó asignaciones de supercomputadoras en el sistema de almacenamiento de datos de supercomputador y corral de Lonestar6 a través de la CyberinFrastructure (UTRC) de UT System Research, que proporciona recursos computacionales a los investigadores dentro de las 14 instituciones de sistemas UT.
“Los datos basados en la voz son computacionalmente costosos, y necesitaba comparar mis resultados con los sistemas modernos de última generación. Sin TACC que no hubiera sido posible. También apreciamos el almacenamiento protegido en nodos corrales y protegidos de Lonestar6 para ejecutar nuestros procesos”, agregó Dutta.
Las unidades de procesamiento gráficas en Lonestar6 son adecuados para el trabajo de inteligencia artificial en el desarrollo de modelos de aprendizaje profundo como los utilizados en este trabajo.
Más reciente trabajar Aceptado en el séptimo taller de ISCA sobre interacción informática infantil (WOCCI 2025) explora el uso de un modelo ASR llamado Whisper (originalmente desarrollado en OpenAI) con el objetivo de ejecutarlo en el dispositivo en una Raspberry Pi 5 (8GB). El PI funciona como un dispositivo de borde que transcribe y descarta los datos de voz sin procesar una vez que se procesa. Utilizando Lonestar6 para la evaluación del modelo, el ajuste y la comparación, esta investigación está avanzando en el desarrollo de sistemas de reconocimiento de voz centrados en los niños con protecciones de privacidad incorporadas más fuertes.
“El uso de supercomputadoras para estudiar el habla es nuevo, innovador y puede acelerar la investigación del uso de IA del habla para tantas aplicaciones (educación, clínica, educativa, forense) en cualquier lugar que pueda encontrar el habla”. Dutta concluyó. “Pienso como científico, si está trabajando en aplicaciones para niños, lo primero que debe pensar es en cómo preserva la privacidad de los niños. Sea lo que sea que hagamos, debe ser confiable y ético. Imagino un futuro digital seguro para todos los niños”.
Más información: Satwik Dutta et al, explorando unidades de habla discretas para el reconocimiento de voz de preservación de la privacidad y eficiente para niños en edad escolar y preescolar, Revista Internacional de Estudios de Computaciones Humanas (2025). Doi: 10.1016/j.ijhcs.2025.103460
Proporcionado por la Universidad de Texas en Austin
Cita: los investigadores desarrollan reconocimiento de voz centrado en la privacidad para niños (2025, 23 de agosto) Recuperado el 23 de agosto de 2025 de https://techxplore.com/news/2025-08-privacy-speech-receconnition-children.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









